Test de control: Procesamiento de Información Visual (Examen E)
|
|
Título del Test:
![]() Test de control: Procesamiento de Información Visual (Examen E) Descripción: Examen E - Temas 1-4. Fundamentos Características Segmentación Movimiento |



| Comentarios |
|---|
NO HAY REGISTROS |
|
1. ¿Qué función cumple el cristalino en el sistema visual humano?. Regular la cantidad de luz que entra en el ojo, como el diafragma de una cámara. Deformarse para enfocar la imagen sobre la retina, adaptando la distancia focal. Convertir la señal luminosa en impulsos eléctricos para el nervio óptico. Filtrar la radiación ultravioleta antes de que llegue a la córnea. 2. ¿Por qué se dice que la iluminación es a menudo más importante que el algoritmo en un sistema de visión artificial?. Porque una buena iluminación elimina la necesidad de cualquier procesamiento posterior. Porque una iluminación adecuada simplifica enormemente el problema, reduciendo sombras, reflejos y ambigüedades antes de procesar. Porque los algoritmos de visión artificial no funcionan sin luz infrarroja. Porque la iluminación determina la resolución espacial del sensor. 3. ¿Qué tipo de información se pierde irreversiblemente al proyectar una escena 3D sobre el plano 2D de la imagen?. La información de color de los objetos. La información de profundidad (distancia de cada punto a la cámara). La orientación horizontal de los objetos. El brillo relativo entre los objetos de la escena. 4. ¿Cuál es la diferencia entre la calibración por auto-calibración y la calibración fotogramétrica?. La auto-calibración usa un objeto 3D de referencia conocido; la fotogramétrica usa correspondencias entre imágenes. La auto-calibración usa correspondencias entre múltiples imágenes sin objeto conocido; la fotogramétrica usa un objeto 3D de geometría conocida y es más precisa. Ambas son idénticas pero con distinto nombre según el país de origen. La fotogramétrica solo funciona con cámaras analógicas. 5. El espacio de color CIE L*a*b* se considera perceptualmente uniforme. ¿Qué significa esto en la práctica?. Que todos los colores tienen la misma luminosidad. Que una misma distancia numérica entre dos colores en este espacio corresponde a una diferencia perceptiva similar para el ojo humano. Que solo contiene 256 colores uniformemente distribuidos. Que es idéntico al espacio RGB pero con nombres distintos para los ejes. 6. ¿Por qué el procesamiento global del histograma puede no mejorar detalles en áreas pequeñas de la imagen?. Porque el histograma global no existe para imágenes en color. Porque el histograma global refleja la distribución de toda la imagen y las regiones pequeñas apenas influyen en él, por lo que sus niveles de gris no se redistribuyen adecuadamente. Porque el histograma global solo funciona con imágenes binarias. Porque las áreas pequeñas no contienen píxeles válidos. 7. ¿Cuáles son los tres criterios de optimalidad en los que se basa el detector de bordes de Canny?. Velocidad de cómputo, compatibilidad con color y bajo consumo de memoria. Buena detección (minimizar falsos positivos/negativos), buena localización (mínima distancia al borde real) y respuesta única (un solo píxel por borde). Invarianza a rotación, invarianza a escala e invarianza a iluminación. Máxima resolución, mínimo ruido y máximo contraste. 8. ¿Qué diferencia conceptual hay entre un filtro lineal y un filtro no lineal en el dominio espacial?. Los filtros lineales solo funcionan con imágenes en escala de grises; los no lineales funcionan con imágenes en color. Un filtro lineal calcula una suma ponderada de los vecinos (ej. media, Sobel); un filtro no lineal aplica una operación no expresable como suma ponderada (ej. mediana, máximo). Los filtros no lineales siempre producen imágenes binarias. No existe diferencia real; todos los filtros espaciales son lineales. 9. ¿Qué relación existe entre las bajas frecuencias y las altas frecuencias en el espectro de Fourier de una imagen?. Las bajas frecuencias representan bordes y las altas frecuencias representan zonas uniformes. Las bajas frecuencias corresponden a variaciones suaves y gradientes amplios; las altas frecuencias corresponden a bordes, detalles finos y ruido. No hay relación; frecuencias bajas y altas son independientes. Las bajas frecuencias solo aparecen en imágenes en color y las altas en escala de grises. 10. ¿Por qué se recomienda aplicar un suavizado previo antes de calcular el gradiente para detección de bordes?. Porque el suavizado aumenta la resolución de la imagen. Porque el ruido genera falsas respuestas de gradiente; el suavizado reduce el ruido y hace la detección más robusta. Porque sin suavizado los bordes se detectan con demasiada precisión. Porque el gradiente solo funciona sobre imágenes borrosas. 11. ¿En qué se diferencia la segmentación basada en discontinuidad de la basada en similaridad?. La discontinuidad trabaja en el dominio frecuencial y la similaridad en el espacial. La discontinuidad busca cambios bruscos de intensidad (fronteras, bordes); la similaridad agrupa píxeles parecidos según un criterio (umbralización, regiones). La similaridad solo se aplica a imágenes binarias. No hay diferencia; son nombres alternativos para la misma técnica. 12. ¿Cuál es la ventaja principal de la estructura de cascada en el detector de Viola-Jones frente a usar un único clasificador complejo?. La cascada produce imágenes de mayor resolución. La cascada descarta rápidamente la gran mayoría de ventanas negativas en las primeras etapas (filtros simples), ahorrando tiempo al no evaluar clasificadores complejos en regiones sin interés. La cascada permite detectar la identidad de la persona además de la presencia del rostro. Un único clasificador complejo no puede entrenarse con el algoritmo AdaBoost. 13. ¿Qué diferencia hay entre el enfoque clásico de reconocimiento de patrones y el enfoque de Deep Learning?. El enfoque clásico usa redes neuronales y el Deep Learning usa árboles de decisión. En el clásico las características se diseñan manualmente y el clasificador se entrena por separado; en Deep Learning la red aprende automáticamente las características de forma end-to-end. El Deep Learning no necesita datos de entrenamiento. El enfoque clásico requiere siempre más datos que el Deep Learning. 14. ¿Para qué sirve la capa de Batch Normalization en una red neuronal convolucional?. Para reducir el tamaño espacial de los mapas de características. Para normalizar los datos internamente entre capas, estabilizando y acelerando el entrenamiento. Para apagar neuronas aleatoriamente y evitar el sobreajuste. Para aplicar la función de activación ReLU a cada neurona. 15. ¿Qué distingue a un modelo de difusión de una GAN para la generación de imágenes?. La GAN genera imágenes a partir de texto y el modelo de difusión a partir de otras imágenes. El modelo de difusión aprende a revertir un proceso progresivo de adición de ruido; la GAN entrena un generador contra un discriminador de forma adversaria. Las GANs producen imágenes en color y los modelos de difusión solo en escala de grises. No hay diferencia fundamental; ambos usan exactamente la misma arquitectura. 16. ¿Qué es el efecto peine (combing) en vídeo entrelazado y cuándo aparece?. Un artefacto de compresión MPEG que aparece en escenas oscuras. Un artefacto visual con líneas dentadas que aparece al mostrar campos entrelazados en pantallas progresivas cuando hay movimiento entre campos. Una distorsión del color causada por la saturación excesiva del sensor. Un efecto de desenfoque que aparece cuando la cámara está desenfocada. 17. ¿Cuáles son las tres principales aplicaciones del flujo óptico mencionadas en el temario?. Calibración de cámara, corrección de color y eliminación de ruido. Compresión de vídeo (vectores de movimiento), interpolación temporal (cámara lenta) y reconocimiento de acciones. Detección de bordes, segmentación y clasificación de texturas. Generación de imágenes, transferencia de estilo y superresolución. 18. ¿Por qué el Filtro de Kalman no es adecuado cuando hay múltiples hipótesis de localización del objeto (clutter)?. Porque el Filtro de Kalman no puede procesar imágenes en color. Porque mantiene una única distribución Gaussiana (unimodal) y no puede representar varias hipótesis simultáneas. Porque requiere que el objeto esté completamente estático. Porque solo funciona con secuencias de menos de 100 cuadros. 19. ¿Qué ventaja tiene representar un objeto mediante su histograma de color (como en Mean Shift) frente a un modelo de contorno rígido?. El histograma de color es siempre más rápido de calcular que cualquier descriptor de contorno. El histograma es robusto a rotaciones, deformaciones parciales y cambios de pose del objeto, ya que no depende de la disposición espacial de los píxeles. El histograma de color permite reconstruir la forma exacta del objeto en 3D. Los modelos de contorno rígido no pueden aplicarse a secuencias de vídeo. 20. Los estereogramas de punto aleatorio de Julesz y Marr demuestran que: La percepción de profundidad requiere siempre pistas monoculares como sombras y perspectiva. El cerebro humano es capaz de percibir profundidad basándose exclusivamente en la disparidad binocular, sin necesidad de pistas monoculares. La visión estéreo solo funciona con objetos de color uniforme. Los sensores CMOS son superiores a los CCD para captura estéreo. |





