Modelos de Redes Neuronales
|
|
Título del Test:
![]() Modelos de Redes Neuronales Descripción: Tema 9 - Modelos de Redes Neuronales |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Qué característica arquitectónica fundamental distingue a los Transformers clásicos propuestos por Vaswani et al. (2017) de las redes neuronales diseñadas previamente para el análisis de secuencias?. Requieren obligatoriamente la combinación matricial de convolución y recurrencia. Prescinden por completo de la recurrencia típica de las redes recurrentes y de la convolución propia de las convolucionales. Emplean recursividad temporal infinita controlada por una función de pérdida estática. ¿Cuál es la razón mecánica por la que las redes Transformers logran ser significativamente más rápidas y eficientes que los modelos de redes neuronales recurrentes?. Porque analizan la información de manera secuencial, limitando el consumo de memoria caché. Porque procesan todos los elementos de la información de entrada a la vez, operando en paralelo. Porque eliminan matemáticamente las capas ocultas y operan con perceptrones simples. Dado que el Transformer procesa toda la información simultáneamente en paralelo, ¿qué mecanismo incorpora para comprender el orden temporal u organizativo original de las palabras?. Una red LSTM auxiliar adjunta a la salida. Conexiones residuales de salto asintótico. La codificación posicional (positional encoding). ¿Cómo se distribuye funcionalmente el flujo de la información en la arquitectura general de codificador-decodificador de un Transformer?. El codificador genera la salida probabilística final y el decodificador extrae el contexto bruto inicial. El codificador mapea la secuencia de entrada en una representación más abstracta, y el decodificador genera la salida a partir de ella. Ambos módulos operan de forma mutuamente excluyente y no comparten pesos latentes. ¿Cuál es el objetivo analítico primordial que justifica la incorporación de "conexiones residuales" alrededor de las subcapas del codificador y decodificador?. Multiplicar la salida mediante un factor estático de atención marginal. Facilitar la saturación de los nodos de la función de activación ReLU. Evitar que se pierda el gradiente en la retropropagación, permitiendo que el output de una subcapa sea la suma de su input y su output. En la dinámica funcional de la atención aditiva, cada palabra que penetra en la entrada del modelo se descompone y transforma matemáticamente en tres vectores. ¿Cuáles son?. Frecuencia (Frequency), Amplitud (Amplitude) y Sesgo (Bias). Consulta (Query), Clave (Key) y Valor (Value). Gradiente (Gradient), Época (Epoch) y Tasa (Rate). ¿Qué ventaja procedimental aporta la implementación del sub-mecanismo "Multi-Head Attention" en la arquitectura del Transformer?. Permite aplicar los mecanismos de atención en paralelo al proyectar y concatenar múltiples capas de atención simultáneamente. Condensa la estructura de la red transformando el cálculo vectorial en valores estandarizados puramente escalares. Elimina por completo el requerimiento analítico de usar matrices proyectadas. ¿Cuál es el factor lingüístico y analítico determinante que erigió al modelo BERT (Devlin et al., 2018) como una revolución en el entendimiento del lenguaje natural?. Su estricta dependencia del procesamiento secuencial de una sola dirección. Su capacidad para ignorar el contexto mediante el bloqueo de funciones pre-entrenadas. Su bidireccionalidad intrínseca, que permite comprender la intención analizando simultáneamente palabras anteriores y posteriores. A nivel de diseño estructural fundacional, ¿qué fracción específica de la arquitectura original del Transformer de Vaswani explota exclusivamente el modelo BERT?. Implementa únicamente el módulo correspondiente al decodificador. Solo aprovecha las subcapas aditivas ignorando las de codificación posicional. Utiliza exclusivamente el componente del codificador de la red. |




