Modelos de Redes Neuronales
|
|
Título del Test:
![]() Modelos de Redes Neuronales Descripción: Tema 7 - Modelos de Redes Neuronales |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es la diferencia fundamental en el tratamiento de la información entre las redes neuronales clásicas y las Redes Neuronales Recurrentes (RNNs)?. Las redes clásicas procesan secuencias temporales de manera natural, mientras que las RNNs solo procesan imágenes estáticas. Las redes clásicas se caracterizan por su atemporalidad, mientras que las RNNs fueron diseñadas para analizar la temporalidad y secuencialidad. Ambas arquitecturas son idénticas en su tratamiento del tiempo, diferenciándose únicamente en el algoritmo de retropropagación. ¿Qué modificación arquitectónica introdujo la popular red de Elman (1990) para dotar al perceptrón de memoria sobre sus estados anteriores?. Añadió una capa convolucional exclusiva para el procesamiento de series temporales. Incluyó una copia de los nodos ocultos que realimentan sus salidas de nuevo hacia las entradas de esa misma capa oculta. Eliminó la capa de salida para que el error se calculara exclusivamente en la capa de entrada. Durante el entrenamiento de una RNN con secuencias (como las palabras de una frase), ¿qué condición debe darse para que la red actualice sus pesos?. Que la red NO acierte al predecir el siguiente estado de la secuencia. Que la red acierte la predicción, para reforzar positivamente la conexión. Que el input actual sea exactamente igual al input anterior. ¿Qué grave problema matemático sufren las RNN estándar al actualizar sus pesos basándose en secuencias temporales muy largas?. La saturación de la función de activación lineal en la capa de salida. La imposibilidad de aplicar el algoritmo de retropropagación. La "explosión de la señal" (si los pesos son >1) o el "desvanecimiento de la señal" (si los pesos son <1). ¿Quiénes propusieron la arquitectura Long Short-Term Memory (LSTM) en 1997 para superar los problemas de gradiente de las RNN clásicas?. Rumelhart y McClelland. Hochreiter & Schmidhuber. Elman y Turing. En la formulación matemática del estado a largo plazo (Ct) de una LSTM, ¿qué representan exactamente los términos de la ecuación Ct=ft∗Ct−1+it∗C~t?. El primer término representa la información que decidimos olvidar y el segundo la nueva información que aprendemos o actualizamos. El primer término calcula la salida observable y el segundo el error de retropropagación. Ambos términos son equivalentes y se suman para generar la predicción final (ht). Según el esquema interno de la arquitectura LSTM, ¿cuáles son los tres procesos secuenciales que sufre la información en cada momento temporal?. Extracción, Convolución y Agrupación. Inicialización, Suma Ponderada y Activación. Olvido, Actualización y Salida (Predicción). Dentro de la marca de tiempo t en una LSTM, ¿qué diferencia conceptual y operativa existe entre el valor Ct y el valor ht?. Ct es la predicción observable de la red en ese instante, mientras que ht es el error calculado. ht es la predicción observable del modelo en el momento t, mientras que Ct es el estado oculto que transita internamente al siguiente elemento temporal. No existe ninguna diferencia; son dos nomenclaturas para la matriz de pesos de retropropagación. ¿Qué innovación estructural incorporan las Neural Turing Machines (NTM) para optimizar el análisis de secuencias respecto a las LSTM tradicionales?. Procesan todas las secuencias temporalmente hacia atrás de forma exclusiva. Incorporan "mecanismos de atención" que ponderan y centran el procesamiento en elementos específicos de la secuencia, en lugar de en la totalidad por igual. Eliminan las funciones sigmoideas sustituyéndolas por funciones booleanas simples. |




