Tema 3.2 Modelos de Lenguaje PLN UJA
|
|
Título del Test:
![]() Tema 3.2 Modelos de Lenguaje PLN UJA Descripción: Tipo Test hecho por Claude en base al temario |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es la principal limitación de los embeddings no contextualizados (estáticos)?. Generan un único vector por palabra que integra todos sus significados, introduciendo ruido y simplificando la semántica. Generan demasiados vectores por palabra y resultan computacionalmente inviables. Solo funcionan con palabras fuera del vocabulario (OOV). Requieren grandes cantidades de datos anotados de forma supervisada. ¿Qué caracteriza fundamentalmente a un word embedding contextualizado frente a uno estático?. Asigna siempre el mismo vector a cada palabra independientemente del contexto. Solo puede entrenarse de forma supervisada con datos anotados. Representa el significado de cada palabra en función del contexto en el que aparece. Reduce el vocabulario a menos de 50.000 tokens obligatoriamente. El concepto de composicionalidad en lenguaje natural se refiere a que: El significado de una expresión resulta de la combinación del significado de sus constituyentes. Las palabras siempre tienen un único significado fijo. El significado de las palabras es independiente del contexto. Solo se aplica a oraciones de menos de cinco palabras. De forma general, ¿qué es un modelo de lenguaje?. Un modelo que traduce automáticamente texto entre idiomas. Un modelo que predice la palabra siguiente dada una secuencia previa (p(w_i+1 | w_i)). Un modelo que clasifica oraciones por su sentimiento positivo o negativo. Un modelo cuya única función es extraer entidades nombradas del texto. ¿En qué se basa la arquitectura del modelo Context2Vec y, posteriormente, ELMo para generar embeddings contextualizados?. En redes recurrentes LSTM bidireccionales (BiLSTM) que tienen en cuenta el contexto en ambos sentidos. En el módulo encoder del Transformer original. En reglas lingüísticas escritas manualmente por expertos. En modelos basados exclusivamente en frecuencias n-grama. ¿Cuál es una ventaja fundamental de los Transformers frente a las RNN?. Procesan la entrada palabra a palabra de forma estrictamente secuencial. Tienen un límite de memoria menor que las RNN tradicionales. Permiten procesamiento paralelo gracias al mecanismo de self-attention y procesan la entrada en bloque. No necesitan datos de entrenamiento para funcionar. ¿Qué caracteriza arquitectónicamente al modelo GPT?. Usa exclusivamente el encoder del Transformer y predice palabras enmascaradas. Usa solo el decoder del Transformer y se entrena para predecir la siguiente palabra dado un contexto. Combina encoder y decoder con objetivo de traducción automática. No se basa en la arquitectura Transformer sino en BiLSTM. ¿Cuál es el objetivo principal de los modelos de lenguaje enmascarados (Masked Language Models)?. Predecir únicamente la siguiente palabra de forma unidireccional. Reducir drásticamente el tamaño del vocabulario del modelo. Lograr una representación bidireccional del contexto identificando palabras ocultas (inspirado en la prueba cloze). Traducir automáticamente entre dos idiomas. ¿Qué características definen al modelo BERT?. Usa solo el encoder del Transformer y combina dos objetivos: modelo de lenguaje enmascarado (MLM) y predicción de la siguiente oración (NSP). Usa solo el decoder del Transformer con objetivo de predecir la siguiente palabra. No emplea self-attention sino capas LSTM bidireccionales. Solo es capaz de procesar una palabra a la vez sin contexto. En BERT, ¿qué función tienen los tokens especiales [CLS] y [SEP]?. Marcan respectivamente el inicio y el final de cada palabra individual. [CLS] se sitúa al inicio de la secuencia (representando la oración) y [SEP] se inserta entre las dos oraciones de entrada. [CLS] enmascara palabras y [SEP] separa caracteres individuales. Son tokens opcionales que solo se usan durante el fine-tuning. ¿Cuál es la principal ventaja de la tokenización a nivel de subpalabra en modelos como BERT o GPT?. Aumenta significativamente el tamaño del vocabulario para mejorar la cobertura. Reduce el vocabulario y mejora el tratamiento de las palabras fuera de vocabulario (OOV). Elimina por completo la necesidad de utilizar un tokenizador. Funciona solo para el idioma inglés y no es aplicable a otros idiomas. ¿En qué se diferencia principalmente RoBERTa de BERT?. Sustituye el encoder del Transformer por un decoder de tipo GPT. Elimina el objetivo de predicción de la siguiente oración (NSP) por no resultar óptimo. Convierte el modelo en multilingüe usando subtokens comunes. Reduce drásticamente el número de parámetros mediante destilación. ¿Qué estrategias representan ALBERT y DistilBERT respectivamente?. Aumentar el tamaño del modelo y añadir nuevas modalidades de entrada. Reducir parámetros mediante mecanismos de entrenamiento (ALBERT) y destilar conocimiento de una red compleja a una menos compleja (DistilBERT). Convertir BERT en un modelo decoder-only similar a GPT. Entrenar con datos multilingües sin modificar la arquitectura. En el aprendizaje por transferencia (Transfer Learning), ¿en qué consiste el enfoque basado en características (feature extraction)?. Se usan los embeddings como características de otra tarea manteniendo los parámetros del modelo congelados. Se entrenan todos los parámetros del modelo preentrenado desde cero. Solo es aplicable a modelos basados en RNN, nunca a transformers. Se reentrena exclusivamente la capa de embeddings de entrada. ¿En qué consiste el fine-tuning de un modelo preentrenado?. Mantener todos los parámetros del modelo permanentemente congelados. Entrenar el modelo desde cero con los datos de la nueva tarea. Adaptar la capa de salida al problema concreto, pudiendo congelar un subconjunto de capas o entrenarlas todas. Sustituir el modelo preentrenado por uno completamente nuevo. ¿Cuál es el propósito principal de Sentence Transformers (SBERT)?. Generar texto largo de forma autoregresiva. Tokenizar texto en múltiples idiomas simultáneamente. Obtener una representación por pares de oraciones orientada a medir su similitud, ajustando BERT con una capa de pooling. Sustituir por completo al mecanismo de self-attention. ¿Cuál es la idea central del algoritmo BPE (Byte-Pair Encoding) usado en GPT-2 y RoBERTa?. Construir el vocabulario mediante fusiones iterativas de los pares de símbolos más frecuentes. Asignar un token único a cada palabra completa del corpus sin descomponerla. Eliminar el 10-20% de los símbolos menos relevantes en cada iteración. Tratar el texto como un flujo crudo de caracteres independiente del idioma. ¿Cuál es la principal ventaja de SentencePiece frente a BPE o WordPiece?. Es completamente independiente del idioma porque trata la entrada como un flujo crudo de caracteres (incluyendo el espacio). Garantiza siempre un vocabulario mayor que el de BPE. Requiere una pre-tokenización específica para cada idioma. Solo funciona en idiomas que separan las palabras con espacios. La llamada "ley de escala" en los grandes modelos de lenguaje (LLMs) establece que: Reducir el número de parámetros aumenta proporcionalmente las capacidades del modelo. La combinación del tamaño de los datos, los parámetros del modelo y el tiempo de entrenamiento incrementa las capacidades del modelo. Solo el tamaño del corpus de entrenamiento determina las capacidades, independientemente del modelo. Los modelos pequeños siempre superan en rendimiento a los grandes. ¿Cuál es la característica fundamental del aprendizaje en contexto (in-context learning)?. Requiere reentrenar completamente el modelo con datos anotados de la nueva tarea. No se realiza ninguna actualización del gradiente ni de los parámetros del modelo; la tarea se describe en el prompt. Solo es aplicable a modelos pequeños tipo Word2Vec. Necesita obligatoriamente cientos de miles de ejemplos anotados. ¿Cuál es la diferencia entre zero-shot, one-shot y few-shot learning como variantes de in-context learning?. Zero-shot solo describe la tarea sin ejemplos, one-shot incluye un único ejemplo y few-shot incluye varios ejemplos en el prompt. Zero-shot requiere reentrenar el modelo y few-shot no. Las tres técnicas requieren actualizar los parámetros del modelo. Son exclusivas de modelos tipo BERT, no aplicables a GPT. ¿Por qué la ingeniería de prompts influye en la calidad de la respuesta del modelo?. Porque el prompt modifica los pesos internos del modelo durante la inferencia. Porque el mecanismo de self-attention combina las palabras del prompt para generar la respuesta, por lo que un buen prompt mejora el resultado. Porque cada prompt entrena un modelo nuevo desde cero. El prompt no influye en absoluto en la calidad de la salida. ¿Qué son las alucinaciones en los modelos de lenguaje?. Errores producidos por una tokenización defectuosa de la entrada. Secuencias de texto erróneas que el modelo genera porque su objetivo es producir lo más probable o "lo que mejor suena", no necesariamente lo verdadero. Capacidades positivas exclusivas de los modelos grandes. Un sinónimo de fine-tuning aplicado a tareas creativas. ¿Cuál es la idea fundamental de la Generación Aumentada por Recuperación (RAG)?. Sustituir completamente a los grandes modelos de lenguaje por sistemas de recuperación clásicos. Reducir el número de parámetros del modelo mediante destilación de conocimiento. Aumentar las respuestas del LLM recuperando textos relevantes de una base de conocimiento antes de generar la respuesta. Eliminar la necesidad del mecanismo de self-attention. En cuanto a su arquitectura y direccionalidad, ¿cuál es la diferencia clave entre GPT y BERT?. GPT es bidireccional con MLM y BERT es unidireccional con predicción de siguiente palabra. GPT es decoder-only con representación unidireccional, mientras que BERT es encoder-only con representación bidireccional gracias al MLM. Ambos comparten arquitectura idéntica y solo difieren en el tamaño. GPT no se basa en Transformers, BERT sí. |





