REDES NEURONALES & DEEP LEARNING - GPT
![]() |
![]() |
![]() |
Título del Test:![]() REDES NEURONALES & DEEP LEARNING - GPT Descripción: Test de las preguntas entregadas por el profesor |




Comentarios |
---|
NO HAY REGISTROS |
1. Según Mitchell, ¿qué describe la tarea T en aprendizaje automático?. A) El algoritmo de optimización. B) La función que asigna ejemplos a salidas deseadas. C) La métrica de rendimiento. D) El conjunto de datos de validación. 2. ¿En qué se diferencian principalmente clasificación y regresión?. A) La clasificación predice valores continuos y la regresión categorías. B) La clasificación asigna categorías discretas y la regresión valores numéricos. C) La clasificación usa redes neuronales y la regresión no. D) La clasificación requiere validación cruzada, la regresión no. 3. En clasificación, ¿cómo se denomina la tasa de error 0-1?. A) Entropía cruzada. B) Error cuadrático medio. C) Pérdida 0-1. D) Recall. 4. ¿Qué comprende la experiencia E en supervisado?. A) Conjunto de entrenamiento con ejemplos y etiquetas. B) Hiperparámetros del modelo. C) Tiempo de entrenamiento. D) Tamaño de la red. 5. ¿Cuál de estas indica underfitting?. A) El modelo logra bajo error de entrenamiento. B) No puede reducir suficientemente el error de entrenamiento. C) Memoriza los datos y falla en datos nuevos. D) Tiene alta varianza. 6. ¿Para qué sirve la regularización en redes profundas?. A) Aumentar la capacidad del modelo. B) Reducir el error de validación. C) Disminuir el sobreajuste mejorando la generalización. D) Acelerar el entrenamiento. 7. La penalización L2 en la función de coste añade: A) Una barrera que fuerza pesos a cero. B) Un término proporcional al cuadrado de los pesos. C) Una máscara binaria sobre las neuronas. D) Una mutua información entre capas. 8. El data augmentation consiste en: A) Ajustar la tasa de aprendizaje. B) Generar datos sintéticos mediante transformaciones sobre entradas. C) Añadir ruido gaussiano a los pesos. D) Dividir el conjunto en k folds. 9. La parada temprana (early stopping) se basa en: A) Detener al alcanzar un número fijo de épocas. B) Guardar y regresar al modelo con menor error de validación. C) Eliminar gradientes con bajo impacto. D) Reducir la complejidad del modelo automáticamente. 10. Dropout regulariza entrenando: A) Con ruido en la entrada. B) Subredes formadas eliminando aleatoriamente unidades. C) Con weight decay excesivo. D) Con validación cruzada anidada. 11. En una CNN, la operación de convolución es: A) Una suma ponderada local con un kernel. B) Una multiplicación matricial completa. C) Un pooling máximo. D) Un softmax espacial. 12. La motivación principal de las CNN es: A) Manejar alta dimensionalidad e invariancia local mediante pesos compartidos. B) Aumentar el número de parámetros. C) Simplificar el descenso de gradiente. D) Evitar el uso de GPUs. 13. El pooling en CNN se usa para: A) Reducir la resolución y aportar invariancia local. B) Normalizar mapas de activación. C) Aplicar convoluciones adicionales. D) Aumentar el número de filtros. 14. Compartir pesos en CNN permite: A) Reducir drásticamente el número de parámetros. B) Aumentar la profundidad sin coste. C) Eliminar la necesidad de pooling. D) Acelerar el descenso de gradiente. 15. ¿Qué técnica entrena con ruido aplicado a las activaciones para regularizar?. A) L1. B) L2. C) Dropout. D) Early stopping. 16. En validación cruzada k-fold se: A) Divide en k subconjuntos y rota cuál es validación vs. entrenamiento. B) Usa k-1 épocas en entrenamiento y 1 en validación. C) Aplica k tipos de regularización. D) Ajusta k hiperparámetros simultáneamente. 17. La capacidad de un modelo se refiere a: A) Número de ejemplos que procesa. B) Complejidad del espacio de hipótesis (familia de funciones posibles). C) Tamaño del batch en SGD. D) Tasa de aprendizaje inicial. 18. El SGD calcula el gradiente aproximado usando: A) Todo el conjunto de entrenamiento. B) Un solo ejemplo a la vez. C) Minibatches muestreados aleatoriamente. D) Un vector de máscaras binario. 19. El teorema del “no free lunch” establece que: A) No existe algoritmo mejor para todas las tareas. B) L2 siempre supera a L1. C) Dropout equivale a bagging completo. D) Early stopping es óptimo universalmente. 20. ¿Qué mide la dimensión VC de un clasificador binario?. A) El número de parámetros del modelo. B) El máximo tamaño de conjunto que puede etiquetar arbitrariamente. C) La complejidad computacional del entrenamiento. D) El número de capas. 21. La ecuación de la regularización L1 añade al coste un término proporcional a: A) ‖w‖². B) ‖w‖₁. C) dropout(w). D) exp(−‖w‖). 22. En early stopping, el hiperparámetro clave es: A) La tasa de aprendizaje. B) Número de iteraciones sin mejora de validación. C) Probabilidad de dropout. D) Tamaño del minibatch. 23. La complejidad de BPTT (Back-Propagation Through Time) en RNNs es: A) O(T). B) O(T²). C) O(T·n³). D) O(n·log T). 24. El teorema de aproximación universal para MLPs garantiza que: A) Pueden optimizar cualquier función sin sobreajuste. B) Pueden representar cualquier función medible con suficientes unidades ocultas. C) Eliminan necesidad de validación cruzada. D) Convergen siempre a un mínimo global. 25. ¿Cómo se relaciona dropout con bagging?. A) Es idéntico en práctica. B) Aproxima un conjunto exponencial de subredes compartiendo parámetros. C) Sustituye al weight decay. D) Es equivalente a L1 sobre penalizaciones. |