Fundamentos del Procesamiento de Lenguaje Natural (NLP)

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Fundamentos del Procesamiento de Lenguaje Natural (NLP)

Descripción:
Preguntas y respuestas generadas por ChatGPT a partir de los apuntes

Autor:

MrFaçade

OTROS TESTS DEL AUTOR

Fecha de Creación: 2024/12/29

Categoría: Otros

Número Preguntas: 85

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Qué tarea de NLP se centra en asignar categorías gramaticales a cada palabra en una oración?. Named Entity Recognition. Part-of-Speech Tagging. Syntactic Parsing. Word Sense Disambiguation.

¿Qué método en NLP identifica todas las frases nominales que se refieren a la misma entidad del mundo real?. Coreference Resolution. Semantic Role Labelling. Word Sense Disambiguation. Syntactic Parsing.

En la técnica de Word2Vec, ¿qué método predice el contexto de las palabras (palabras de salida) a partir de una palabra de entrada?. CBOW. Skip-gram. Glove. FastText.

¿Qué tarea busca determinar el significado correcto de una palabra en un contexto dado?. Tokenization. Word Sense Disambiguation. Coreference Resolution. Part-of-Speech Tagging.

¿Qué tipo de token especial indica el final de una secuencia en modelos de Transformers?. [CLS]. [SEP]. [PAD]. [MASK].

¿Qué ventaja tiene el Transfer Learning en NLP?. Permite entrenar desde cero modelos complejos. Mejora la comprensión de los datos no estructurados. Reutiliza conocimiento adquirido previamente para nuevas tareas. Evita el uso de modelos generales.

¿Qué tipo de modelo de Transformer utiliza únicamente el encoder?. GPT. BERT. DistilBERT. FastText.

¿Cuál de los siguientes es un token especial utilizado para entrenar modelos de masked language modeling (MLM)?. [SEP]. [PAD]. [MASK]. [UNK].

¿Qué técnica reduce el tamaño de BERT para entornos con recursos limitados?. Fine-tuning. Knowledge Distillation. Feature Extraction. Subword Tokenization.

¿Qué mecanismo en los Transformers permite paralelizar el procesamiento de secuencias?. Mecanismo de atención. Self-Attention. Transfer Learning. Tokenization.

¿Qué mide la similitud coseno en NLP?. La frecuencia de palabras en documentos. La dirección y distancia entre vectores en un espacio. El número de tokens únicos en un corpus. La probabilidad de una secuencia de palabras.

¿Cuál es la diferencia principal entre Stemming y Lemmatization?. El stemming utiliza datos anotados. El lemmatization considera el contexto para encontrar el lema. El stemming es más preciso. No hay diferencia.

¿Qué enfoque de normalización reduce palabras como "viviendas" a "viviend"?. Lemmatization. Stemming. Case Folding. Tokenization.

¿Cuál de los siguientes modelos genera representaciones vectoriales a nivel de subpalabra?. Word2Vec. FastText. Glove. BERT.

¿Qué método de decodificación es ideal para generar textos creativos y variados?. Beam Search Decoding. Sampling. Greedy Search Decoding. Masked Language Modeling.

¿Qué ocurre al reducir la temperatura en un modelo basado en Sampling?. Aumenta la diversidad en el texto generado. La distribución se vuelve más puntiaguda y enfocada en palabras comunes. Disminuye la probabilidad de todas las palabras. No afecta al texto generado.

¿Qué modelo basado en Transformers incluye la tarea de Next Sentence Prediction (NSP)?. GPT. BERT. DistilBERT. RoBERTa.

¿Cuál es una ventaja de DistilBERT sobre BERT?. Tiene más parámetros. Es más rápido y usa menos recursos. Incluye NSP como tarea principal. Utiliza 160GB de datos.

¿Qué tarea realiza el modelo GPT?. Masked Language Modeling. Language Modeling. Transfer Learning. Fine-tuning.

¿Qué término describe la alta proporción de valores cero en representaciones numéricas de texto?. Sparsity. Variación. Escalabilidad. Ambigüedad.

¿Qué tarea de NLP se representa típicamente como un árbol y está relacionada con Part-of-Speech Tagging?. Named Entity Recognition. Coreference Resolution. Syntactic Parsing. Word Sense Disambiguation.

¿Cuál es una característica clave del Summarization extractivo?. Genera nuevo contenido basado en comprensión del texto. Selecciona partes específicas del texto original. Requiere datos anotados para funcionar. Utiliza mecanismos de atención.

¿Qué tipo de preguntas en Question Answering requieren combinar varias piezas de información para responderse?. Factoides. Simples. Composicionales. De dominio cerrado.

¿Qué nivel de segmentación se refiere a dividir el texto en palabras, puntuación o números?. Documentos. Párrafos. Oraciones. Tokens.

¿Qué técnica consolida diferentes formas de una palabra en minúsculas para reducir el tamaño del vocabulario?. Stemming. Lemmatization. Case Folding. Normalización del vocabulario.

¿Qué tipo de vectores suelen ser más pequeños, densos y efectivos para capturar sinónimos?. Vectores dispersos. Vectores densos. N-gramas. Bag of Words.

¿Cuál es una limitación de TF-IDF?. No puede utilizar n-gramas. No considera la polisemia ni la homonimia. Es ineficaz para representar texto en múltiples dimensiones. Es menos eficiente que Word2Vec.

¿Qué algoritmo cuenta las co-ocurrencias de palabras y utiliza SVD para generar representaciones vectoriales?. Word2Vec. Glove. FastText. LDA.

¿Qué técnica de representación de palabras predice las palabras que rodean a un término objetivo?. CBOW. Skip-gram. FastText. LSA.

¿Qué herramienta es más útil para idiomas con morfología compleja como el árabe o el ruso?. Word2Vec. FastText. Glove. BERT.

¿Qué diferencia principal tiene el Fine-tuning frente a la extracción de características (Feature Extraction)?. No utiliza pesos preentrenados. Fine-tuning actualiza los pesos del modelo. La extracción de características requiere más datos. Fine-tuning es más rápido y eficiente.

¿Qué modelo combina características de CBOW y Skip-gram trabajando a nivel de subpalabra?. Word2Vec. Glove. FastText. RoBERTa.

¿Cuál es la función principal de los mecanismos de atención en NLP?. Sustituir embeddings por vectores dispersos. Identificar el foco relevante de información. Reemplazar tareas de preentrenamiento. Reducir el tamaño del modelo.

¿Qué paso de ULMFiT adapta el modelo al dominio de la tarea específica con corpus no anotado?. Pretraining. Domain adaptation. Fine-tuning. Tokenization.

¿Qué modelo de Transformer utiliza únicamente el decoder?. GPT. BERT. DistilBERT. RoBERTa.

¿Qué diferencia principal tiene RoBERTa respecto a BERT?. Añade la tarea de Next Sentence Prediction. Utiliza más datos de entrenamiento y elimina NSP. Es más rápido y utiliza menos recursos. Reduce los parámetros del modelo.

¿Qué modelo está optimizado para entornos de baja memoria y altas velocidades?. GPT. BERT. RoBERTa. DistilBERT.

¿Qué indica el positional embedding en la arquitectura Transformer?. El token desconocido en la secuencia. El significado semántico del token. La posición del token dentro de la secuencia. El tamaño del vocabulario del modelo.

¿Qué tarea del entrenamiento de BERT involucra ocultar un porcentaje de los tokens de entrada?. Next Sentence Prediction. Masked Language Modeling. Token Embedding. Greedy Search Decoding.

¿Qué parámetro afecta la aleatoriedad en la generación de texto en Sampling?. Beam Size. Temperatura. Número de Tokens. Scaled Dot-Product.

¿Qué tarea de NLP asigna roles semánticos a palabras o frases en una oración?. Part-of-Speech Tagging. Semantic Role Labelling. Coreference Resolution. Named Entity Recognition.

¿Qué método ayuda a entender qué palabra elegir cuando tiene múltiples significados posibles en un contexto?. Tokenization. Word Sense Disambiguation. Syntactic Parsing. Coreference Resolution.

¿Qué tipo de pregunta se clasifica como de dominio cerrado?. ¿Quién escribió "El Quijote"?. ¿Qué opinas sobre el arte moderno?. ¿Cómo afecta el cambio climático?. ¿Por qué las matemáticas son importantes?.

¿Qué característica del NLP se relaciona con la variabilidad del lenguaje en diferentes contextos, como tweets o discursos políticos?. Escalabilidad. Variación. Sparsity. Ambigüedad.

¿Qué nivel de segmentación divide un texto en párrafos?. Tokens. Oraciones. Párrafos. Documentos.

¿Cuál es la ventaja principal de utilizar vectores densos en NLP?. Representan sinónimos de forma más efectiva. Generan representaciones dispersas. Reducen la capacidad de generalización. Requieren más memoria computacional.

¿Qué mide el IDF (Inverse Document Frequency) en una palabra?. La frecuencia de aparición de la palabra en un corpus. Cuán poco frecuente es una palabra en los documentos. El número de n-gramas relacionados con la palabra. La importancia del token en un vector disperso.

¿Qué técnica permite trabajar con datos no anotados para aprender el significado de las palabras?. Lemmatization. Word2Vec. TF-IDF. Stemming.

¿Qué técnica utiliza Word2Vec para analizar las palabras que rodean a una palabra objetivo en una ventana?. Lemmatization. Skip-gram. Glove. FastText.

¿Qué enfoque de Word2Vec es más rápido y adecuado para palabras frecuentes?. Skip-gram. CBOW. LSA. Glove.

¿Qué método de representación vectorial combina caracteres y palabras para manejar mejor palabras raras o errores ortográficos?. Bag of Words. Subword Tokenization. TF-IDF. Stemming.

¿Qué mecanismo de atención en Transformers asigna diferentes pesos a cada token en la secuencia?. Self-Attention. Beam Search Decoding. Greedy Search Decoding. Embedding.

¿Qué paso de ULMFiT utiliza datos anotados para entrenar un modelo en una tarea específica?. Pretraining. Fine-tuning. Domain Adaptation. Tokenization.

¿Qué modelo basado en Transformers reemplazó la secuencialidad con Self-Attention?. BERT. GPT. Transformer. DistilBERT.

¿Qué tarea de ULMFiT adapta un modelo al dominio del corpus con el que trabajará, usando datos no anotados?. Pretraining. Domain Adaptation. Tokenization. Fine-tuning.

¿Qué modelo basado en Transformers utiliza solo el decoder y no el encoder?. BERT. GPT. DistilBERT. RoBERTa.

¿Qué técnica permite reducir los recursos computacionales necesarios para entrenar un modelo como BERT?. Self-Attention. Knowledge Distillation. Fine-tuning. Tokenization.

¿Qué tarea de BERT incluye predecir si dos oraciones están relacionadas entre sí?. Masked Language Modeling. Next Sentence Prediction. Self-Attention. Token Embedding.

¿Qué modelo es más rápido y utiliza menos memoria que BERT, pero conserva un 97% de su rendimiento?. RoBERTa. DistilBERT. GPT. FastText.

¿Qué método de decodificación explora múltiples secuencias a la hora de seleccionar el token más adecuado?. Greedy Search Decoding. Beam Search Decoding. Sampling. Next Sentence Prediction.

¿Qué tipo de representación se usa para las palabras en la capa de entrada de Word2Vec?. Token embeddings. One-hot encoding. Positional encoding. Subword embeddings.

¿Qué ocurre con la capa de salida en Word2Vec después de entrenar el modelo?. Se utiliza para ajustar el tamaño del vocabulario. Se descarta. Se convierte en la capa de entrada. Se aplica para generar embeddings.

¿Cuál es la principal función de los pesos entre la capa de entrada y la capa oculta?. Representar el vocabulario completo. Calcular la probabilidad de palabras del contexto. Almacenar los embeddings de las palabras. Ajustar la dimensionalidad de la capa oculta.

¿Qué tamaño suele tener la capa oculta en un modelo Word2Vec típico?. 10 neuronas. 300 neuronas. 10,000 neuronas. 1,000 neuronas.

¿Qué tarea realiza el encoder en un modelo Transformer?. Predice el próximo token de la secuencia. Genera representaciones contextuales de los tokens. Traduce palabras al idioma de destino. Clasifica el texto en diferentes categorías.

¿Qué se añade a los embeddings para incorporar información sobre el orden de los tokens?. Softmax Layer. Attention Weights. Positional Embeddings. Subword Tokens.

¿Qué elemento conecta el flujo del encoder con el del decoder?. Self-attention. Hidden States del encoder. Token embeddings. Positional encodings.

¿Cuál es la función principal del decoder en un Transformer?. Aplicar embeddings posicionales. Generar predicciones token por token. Realizar self-attention en los tokens de entrada. Crear representaciones contextuales.

¿Qué significa el bloque etiquetado como "K, V" en el flujo del encoder?. Representan las claves y valores para el mecanismo de atención. Son los embeddings iniciales de los tokens. Indican los pesos finales del modelo. Se utilizan para ajustar las predicciones del decoder.

¿Qué significa que un LLM actúe como un algoritmo de compresión "lossy"?. Almacena todo el texto original de manera comprimida. Pierde información detallada del texto durante el entrenamiento. No utiliza modelos neuronales para el pre-entrenamiento. Solo comprime datos de alta calidad.

¿Cuál es la proporción típica entre el tamaño del texto utilizado en el pre-entrenamiento y el tamaño de los pesos de un LLM como GPT-3 o GPT-4?. x2. x10. x100. x1,000.

¿Qué propósito tiene el proceso de "fine-tuning" en un LLM?. Reducir el número de parámetros del modelo. Adaptar el modelo para tareas específicas como ser un asistente. Incrementar el tamaño del dataset de pre-entrenamiento. Convertir un modelo supervisado en uno no supervisado.

¿Qué tipo de datos se utilizan para realizar el ajuste fino (fine-tuning) de un LLM?. Datos sin etiquetar descargados masivamente de la web. Datos de alta calidad generados y anotados por humanos. Datos provenientes exclusivamente de libros académicos. Datos comprimidos con algoritmos "lossless".

¿Qué etapa del desarrollo de un LLM requiere miles de GPUs y varios días de entrenamiento?. Fine-tuning. Pre-training. Inference. Real-time monitoring.

¿Qué pasos forman parte de la fase de pre-entrenamiento (Pre-Training)?. Descargar datos anotados manualmente. Descargar 10 TB de texto y entrenar el modelo base con miles de GPUs. Monitorear los errores reportados por los usuarios. Evaluar el modelo con ejemplos de Q/A.

¿Con qué frecuencia se realiza típicamente la fase de ajuste fino (fine-tuning)?. Una vez al mes. Una vez al año. Una vez a la semana. Continuamente en tiempo real.

¿Cuál es el objetivo principal de monitorear los errores reportados durante la operación de un LLM como asistente?. Reducir el tamaño de los pesos del modelo. Mejorar continuamente el modelo con base en datos reales. Ampliar el dataset de pre-entrenamiento. Eliminar datos de baja calidad del modelo.

¿Cuánto tiempo suele tomar el proceso de fine-tuning en comparación con el pre-entrenamiento?. Fine-tuning toma más tiempo que el pre-entrenamiento. Fine-tuning toma menos tiempo que el pre-entrenamiento. Ambos procesos requieren la misma cantidad de tiempo. Depende del tamaño del dataset anotado.

¿Qué tipo de ejemplos se generan manualmente para el ajuste fino de un LLM?. Datos de baja calidad como texto sin estructurar. Preguntas y respuestas, comparaciones, y otros casos similares. Grandes volúmenes de texto no etiquetado. Datos comprimidos de forma "lossy".

¿Cuál de las siguientes afirmaciones describe mejor el pre-entrenamiento (Pre-Training)?. Es un proceso supervisado usando datos de alta calidad anotados. Es un proceso no supervisado que utiliza grandes volúmenes de datos no etiquetados. Es un proceso supervisado que se realiza semanalmente. Es un proceso supervisado que ajusta los pesos con datos reales.

¿Qué tipo de ejemplos son típicamente necesarios para enseñar al modelo a ser un asistente?. Frases aleatorias del corpus de pre-entrenamiento. Ejemplos generados automáticamente sin supervisión. Datos anotados de alta calidad generados manualmente. Información obtenida de los errores reportados.

¿Qué ocurre después de desplegar un asistente basado en un LLM?. El modelo deja de recibir actualizaciones. Se realiza monitoreo en tiempo real para recolectar errores. Se detiene el uso del fine-tuning. El modelo comienza un nuevo ciclo de pre-entrenamiento.

¿Por qué el uso de datos de baja calidad en el pre-entrenamiento sigue siendo efectivo?. Porque estos datos tienen mayor densidad semántica. Porque el modelo es capaz de extraer patrones generales del lenguaje. Porque facilita el proceso de anotación manual. Porque reduce el tiempo de entrenamiento.

¿Qué ventaja principal tiene el ajuste fino (fine-tuning) sobre el pre-entrenamiento?. Es más barato y rápido. Requiere más GPUs pero menos memoria. Produce datos más comprimidos. Utiliza un corpus más extenso de texto.

¿Qué diferencia hay entre el modelo base obtenido en el pre-entrenamiento y el asistente final?. El modelo base es más grande que el asistente final. El asistente final está adaptado con datos anotados para tareas específicas. El modelo base puede hacer inferencias más rápido. El asistente final requiere un nuevo pre-entrenamiento.

Denunciar Test

▲