Tema 3.1 Semantica Vectorial PLN UJA

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Tema 3.1 Semantica Vectorial PLN UJA

Descripción:
Tipo Test hecho por Claude en base al temario

Autor:

Pablo

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/05/27

Categoría: Otros

Número Preguntas: 28

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Por qué es necesario transformar el texto en números para que pueda ser procesado por algoritmos de aprendizaje automático?. Porque el texto es un dato no estructurado y una máquina no puede procesarlo de manera directa. Porque los textos suelen tener errores ortográficos que hay que normalizar. Porque el almacenamiento en caracteres ocupa más espacio que en números enteros. Porque los algoritmos solo aceptan datos en formato hexadecimal.

¿Cuáles son los dos requisitos principales que debe cumplir una buena representación de texto?. Ocupar el mínimo espacio en memoria y usar siempre codificación UTF-8. Representar el significado (semántica) e ser independiente de la longitud de la palabra. Estar codificada en binario puro y usar solo caracteres ASCII. Conservar todos los caracteres originales y respetar el orden alfabético.

¿Cuál es una limitación importante de la codificación one-hot?. Que depende directamente del número de caracteres de cada palabra. Que solo se puede usar con palabras en mayúsculas. Que no representa el significado y adolece de una gran dispersión (un único valor a 1). Que produce vectores de gran densidad difíciles de almacenar.

¿Qué caracteriza al Modelo de Espacio Vectorial como representación semántica?. Representa objetos semánticos como vectores de longitud finita de números reales, permitiendo aplicar operaciones algebraicas como medir la similitud. Solo permite representar palabras aisladas, nunca documentos u oraciones. El tamaño del vector debe coincidir exactamente con el tamaño del vocabulario. No admite una representación continua, únicamente representación discreta.

¿Qué característica define a la representación Bolsa de Palabras (BoW)?. No tiene en cuenta el orden de las palabras y solo presta atención a los pesos/importancia de los términos. Preserva siempre el orden sintáctico y las relaciones gramaticales. Codifica únicamente bigramas y trigramas, nunca palabras aisladas. Se basa exclusivamente en redes neuronales recurrentes.

¿Qué pretende medir el peso TF-IDF?. La complejidad sintáctica de cada oración del documento. La capacidad de discriminación de un término entre clases, dando más peso a palabras poco frecuentes a nivel global pero muy frecuentes en un subconjunto. La similitud léxica entre dos documentos cualesquiera. El número total de caracteres únicos del corpus.

La hipótesis distribucional del lenguaje (Firth, 1957), base de los word embeddings, sostiene que: Las palabras que aparecen en contextos similares tienen significados similares. Cada palabra tiene un significado único e independiente de su contexto. El significado de una palabra depende solo de su etimología. Las palabras con la misma raíz morfológica siempre comparten significado.

¿Qué propiedad destacable muestran los word embeddings?. Que codifican las palabras únicamente en formato binario. Que no pueden combinarse mediante operaciones aritméticas. Que su dimensión coincide siempre con el tamaño del vocabulario. Que muestran propiedades algebraicas, permitiendo operaciones del estilo (Rey - Hombre) + Mujer = Reina.

En el modelo Word2Vec, ¿cuál es la diferencia fundamental entre CBOW y Skip-gram?. CBOW aprende una palabra dado su contexto, mientras que Skip-gram aprende el contexto dada una palabra. CBOW utiliza redes recurrentes y Skip-gram utiliza solo bolsas de palabras. CBOW funciona únicamente con bigramas y Skip-gram con trigramas. CBOW es supervisado y Skip-gram es totalmente no supervisado.

¿Para qué resulta especialmente útil FastText frente a otros modelos de word embeddings?. Para representar palabras fuera del vocabulario (OOV) gracias al uso de información de subpalabras. Para entrenar exclusivamente sobre corpus en chino y japonés. Para reducir la dimensionalidad mediante descomposición por valores singulares. Para sustituir la necesidad de utilizar redes neuronales.

¿Cómo se distinguen la evaluación intrínseca y extrínseca de los word embeddings?. La intrínseca comprueba propiedades lingüísticas con conjuntos específicos (SimLex-999, WordSim-353); la extrínseca prueba el rendimiento en tareas finales como el análisis de opiniones. La intrínseca mide solo el tiempo de entrenamiento; la extrínseca mide el uso de memoria. La intrínseca evalúa solo en inglés y la extrínseca en otros idiomas. Son exactamente lo mismo y se usan indistintamente.

¿Cuáles son los tres grandes tipos de aprendizaje automático?. Lineal, no lineal y polinómico. Profundo, superficial y vectorial. Supervisado, no supervisado e híbrido (semi-supervisado). Estadístico, simbólico y conexionista.

¿Qué caracteriza al aprendizaje no supervisado en PLN?. Los datos no están anotados y el modelo deduce la estructura y particularidades de los datos de entrada. Requiere obligatoriamente un conjunto amplio de datos anotados manualmente. Solo puede aplicarse a problemas de regresión. Necesita siempre una función de coste etiquetada por humanos.

¿Por qué se prefieren las redes neuronales frente a algoritmos como la SVM lineal o la regresión lineal?. Porque las redes neuronales aproximan funciones no lineales, que se ajustan a un mayor número de problemas del mundo real. Porque son siempre más rápidas de entrenar en cualquier conjunto de datos. Porque no necesitan datos de entrenamiento ni función de coste. Porque garantizan una precisión del 100% en cualquier tarea.

Matemáticamente, una red neuronal se expresa como y = f(x, θ). ¿Qué representa esto?. Una composición de funciones que utiliza un conjunto de parámetros θ que se ajustan iterativamente para aproximar la función que describe los datos. Una función lineal del tipo y = α + βx sin parámetros entrenables. Una operación booleana sin posibilidad de optimización. Una función determinista que no necesita entrenamiento.

¿Qué describe correctamente una capa oculta en una red neuronal?. Una transformación afín lineal seguida de una transformación no lineal (función de activación): g(Wᵀx + b). Una capa que no participa en el flujo de información de la red. Una capa que únicamente se activa durante la fase de inferencia. Una capa idéntica a la de entrada y sin transformación alguna.

¿Qué función de activación es la más adecuada en la capa de salida para una tarea de clasificación multiclase?. Softmax, ya que normaliza los valores como una distribución de probabilidad cuya suma es 1. ReLU, porque devuelve siempre valores positivos. Tangente hiperbólica, porque devuelve valores entre -1 y 1. Identidad, porque no transforma los valores.

¿Cuál es la función principal de la función de coste en una red neuronal?. Medir el error o diferencia entre la salida predicha por la red y la clase real durante el entrenamiento. Determinar la profundidad o el número de capas de la red. Servir únicamente durante la fase de inferencia, no en el entrenamiento. Inicializar de forma aleatoria los parámetros de la red.

¿Qué algoritmo se utiliza para actualizar los parámetros de una red neuronal durante el entrenamiento?. El algoritmo de back-propagation (propagación hacia atrás) dirigido por el gradiente. El algoritmo Apriori de reglas de asociación. La descomposición por valores singulares (SVD). El algoritmo KMeans de clustering.

¿Qué permiten hacer las Redes Neuronales Recurrentes (RNN) que las redes feedforward estándar no permiten?. Procesar secuencias de datos combinando la información actual con la información pasada mediante el estado de las capas ocultas. Aproximar funciones lineales con un único parámetro. Procesar exclusivamente imágenes de alta resolución. Realizar únicamente clasificación binaria.

¿Cuál es el principal problema de las RNN cuando se enfrentan a dependencias lejanas en una secuencia?. El desvanecimiento del gradiente, que retrasa o impide el aprendizaje de la red. La duplicación automática del número de parámetros entrenables. La pérdida total e irrecuperable de toda la entrada inicial. La imposibilidad de aplicar back-propagation.

¿Para qué se utilizan las RNN bidireccionales?. Para entrenar dos modelos completamente independientes que no comparten información. Para codificar el contexto de una palabra teniendo en cuenta tanto las palabras precedentes como las posteriores en la secuencia. Para reducir la dimensionalidad de los embeddings de entrada. Para procesar únicamente palabras aisladas sin ningún contexto.

¿Qué arquitectura se utiliza típicamente en tareas como la traducción automática, donde la secuencia de entrada y de salida pueden tener tamaños diferentes?. La arquitectura secuencia-secuencia o codificador-decodificador (encoder-decoder). Una bolsa de palabras única para entrada y salida. Un único perceptrón simple sin capas ocultas. Una codificación one-hot directa sin transformaciones.

¿Cuál es la principal aportación de las LSTM frente a las RNN clásicas?. Incorporan un conjunto de puertas (entrada, olvido y salida) que les permiten aprender qué información memorizar y qué olvidar. Eliminan completamente la necesidad de aplicar back-propagation. Reducen el número de parámetros entrenables a cero. Permiten procesar texto sin necesidad de vectorización previa.

¿Cuál es el objetivo del mecanismo de atención?. Permitir que la red preste atención dinámicamente a un determinado subconjunto de elementos relevantes de la secuencia. Reducir el tamaño del vocabulario antes del entrenamiento. Sustituir la función de coste por una métrica geométrica. Eliminar la necesidad de funciones de activación no lineales.

¿Qué hace la self-attention (auto-atención)?. Mide la relación entre las palabras de una misma secuencia para representar cada palabra por su contexto más relevante. Solo pondera la relación entre dos secuencias distintas, nunca dentro de una misma. Es una alternativa al softmax que no requiere normalización. Es exclusiva del modelo Word2Vec y no se usa en Transformers.

¿Qué caracteriza a los modelos Transformers?. Procesan toda la secuencia como un todo (no iterativamente), se basan en varias capas de self-attention y no utilizan RNN, por lo que requieren embeddings posicionales. Son exactamente equivalentes a una RNN unidireccional con LSTM. Solo pueden procesar secuencias de longitud fija menor o igual a 10 palabras. Utilizan obligatoriamente redes neuronales recurrentes en cada capa.

¿Qué importancia tienen actualmente los Transformers en el ámbito del PLN?. Son la base de los modelos de lenguaje actuales. Han sido completamente sustituidos por los modelos basados en bolsa de palabras. Únicamente se aplican a tareas de clustering no supervisado. Solo se emplean en sistemas antiguos de recuperación de información.

Denunciar Test