Laboratorio IA Deusto

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Laboratorio IA Deusto

Descripción:
Preguntas ChatGPT

Autor:

Maritxu Abatxolo

OTROS TESTS DEL AUTOR

Fecha de Creación: 2025/12/18

Categoría: Otros

Número Preguntas: 200

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

La diferencia fundamental entre un conjunto clásico y uno difuso es que: Los conjuntos clásicos tienen infinitos elementos y los difusos no. En los conjuntos clásicos un elemento pertenece o no pertenece; en los difusos puede pertenecer parcialmente. Los conjuntos difusos no pueden representarse matemáticamente. Los conjuntos clásicos siempre son numéricos.

Una función de pertenencia triangular se caracteriza por: Tener 4 parámetros. Tener 3 parámetros y alcanzar un único máximo en un solo punto. No ser derivable. Ser equivalente a una gaussiana.

La T-Norma utilizada para representar la intersección suele ser: El máximo. El mínimo. La suma algebraica. El complemento.

En una variable lingüística, los términos “muy” o “ligeramente” son. Conjuntos difusos primarios. Conectores lógicos. Modificadores lingüísticos. Operadores de agregación.

Una regla difusa tiene la forma general: IF <antecedente> THEN <consecuente>. IF <variable> = <número>. <A> AND <B> AND <C>. THEN <antecedente> IF <consecuente>.

El método de defuzzificación más habitual en sistemas Mamdani es: Primeros máximos. Media ponderada. Centro de masas. Producto acotado.

Los sistemas Takagi-Sugeno-Kang se caracterizan por que el consecuente de una regla es: Siempre un conjunto difuso trapezoidal. Una constante o función de las entradas. Únicamente una variable binaria. Una proposición típica “X es A”.

Una T-Conorma se usa para modelar: El operador AND. El operador OR. El operador NOT. La defuzzificación.

El soporte de un conjunto difuso se define como: El rango donde la pertenencia es exactamente 1. El valor máximo de pertenencia. El rango donde la pertenencia es mayor que 0. El área bajo la función de pertenencia.

La etapa que combina las salidas de todas las reglas en un único conjunto difuso se denomina: Fuzzificación. Implicación. Agregación. Continuidad.

Un problema de optimización consiste en: Buscar cualquier solución válida. Encontrar la mejor solución dentro del conjunto de soluciones factibles. Evaluar todas las soluciones posibles. Minimizar el tamaño del espacio de búsqueda.

La explosión combinatoria ocurre cuando: Aumenta la calidad de las soluciones. Disminuye el número de variables del problema. El espacio de búsqueda crece exponencialmente con el número de variables o valores. No existen soluciones factibles.

Los algoritmos bioinspirados se caracterizan por ser: Métodos deterministas que siempre encuentran el óptimo. Métodos heurísticos no deterministas y adaptativos. Métodos exactos. Algoritmos exclusivamente basados en redes neuronales.Métodos exactos.

En un Algoritmo Genético, la función de evaluación (fitness): Debe ser siempre una función lineal. Mide la aptitud de cada individuo. Se usa solo al final de cada generación. No influye en la selección.

El operador de selección por torneo: Selecciona siempre al peor individuo. Selecciona K individuos al azar y elige el mejor. No tiene presión selectiva. No depende del valor del fitness.

La probabilidad típica de aplicar el operador de cruce (Pc) es: Muy baja (0.01–0.1). Moderada (0.3–0.4). Alta (0.6–0.9). Siempre igual a 1.

La mutación en un algoritmo genético debe: Aplicarse siempre con probabilidad alta para todos los individuos. Permitir alcanzar cualquier parte del espacio de búsqueda. Ser la principal responsable de la explotación del espacio. Sustituir completamente al cruce.

El modelo generacional se caracteriza por: Reemplazar toda la población por hijos en cada iteración. Reemplazar solo uno o dos individuos por generación. Ser incompatible con elitismo. Ser incompatible con elitismo.

La convergencia prematura en un algoritmo genético ocurre cuando: La población alcanza el óptimo global. Hay demasiada diversidad. Todos los individuos se vuelven muy parecidos y la búsqueda se estanca en un subóptimo. La mutación es demasiado alta.

En problemas multimodales: Solo interesa obtener una solución. Se requiere converger a varios óptimos locales. No se utilizan técnicas de niching. La función de fitness no tiene varios picos.

Según la definición de Mitchell (1997), un sistema “aprende” cuando: Reduce siempre el error de entrenamiento. Mejora su rendimiento en una tarea T, medido por P, gracias a la experiencia E. Clasifica correctamente todos los ejemplos. Se comporta igual en entrenamiento y test.

En clasificación, el modelo aprende una función: f:Rn→R. f:Rn→{1,…,k}. f:{1,…,k}→Rn. 𝑓:𝑅→𝑅.

La tarea de regresión se caracteriza por: Predecir etiquetas categóricas. Predecir un valor numérico. Agrupar ejemplos no anotados. Detectar ejemplos atípicos.

El clustering (análisis de clusters) se diferencia de la clasificación en que: Usa funciones no matemáticas. No necesita etiquetas en los datos. Solo funciona con imágenes. Siempre usa redes neuronales.

La accuracy puede ser una métrica engañosa porque: No se puede calcular automáticamente. Solo funciona con regresión. Puede ocultar problemas en datasets desbalanceados. Siempre produce valores continuos.

La diferencia entre training set, validation set y test set es que: El test set puede usarse para elegir hiperparámetros. El validation set forma parte del training set pero no se usa para entrenar. El training set es para evaluar, no para entrenar. El validation set se mezcla con el test set.

El overfitting ocurre cuando: El modelo no aprende nada. El error de entrenamiento es muy alto. El modelo memoriza el training set y no generaliza bien al test set. El modelo no tiene la capacidad suficiente.

Un modelo con muy poca capacidad tiende a: Sobreajustar. Subajustar (underfitting). Aprender cualquier función compleja. Tener siempre alta accuracy.

El “No Free Lunch Theorem” afirma que: Hay un algoritmo universalmente mejor para todos los problemas. Los algoritmos de ML no pueden aprender sin etiquetas. Todos los algoritmos tienen el mismo rendimiento promedio si se consideran todas las posibles distribuciones de datos. Deep Learning es siempre superior.

El fenómeno conocido como maldición de la dimensionalidad implica que: Más dimensiones hacen que el problema sea más fácil. Aumentar el número de variables reduce el espacio de búsqueda. El número de configuraciones posibles crece demasiado rápido comparado con los datos disponibles. No afecta a modelos de deep learning.

Una de las ideas clave que inspiraron las CNNs desde la biología es que: Todas las neuronas visuales procesan toda la imagen completa. Las neuronas visuales responden solo a regiones locales del campo visual. Las CNNs funcionan igual que las RNNs. La visión humana no es jerárquica.

¿Cuál es el principal problema de usar capas fully connected directamente sobre imágenes grandes?. No pueden aprender patrones complejos. Generan demasiados pesos, haciendo el modelo lento y propenso a overfitting. No pueden usarse con imágenes a color. No funcionan con GPU.

En una CNN, el depth del input suele ser 3 porque: Se refiere a la resolución de la imagen. Representa los 3 canales RGB de la imagen. Es el número de filtros usados. Siempre se fija a 3 por convención.

Un filtro convolucional de tamaño 5×5×3 aplicado sobre una imagen: Aprende un único patrón que detecta en toda la imagen. Sirve solo para pooling. Solo se aplica una vez en la esquina superior izquierda. No tiene parámetros entrenables.

El hiperparámetro stride controla: El número de filtros usados. Cuánto se desplaza la ventana (sliding window) sobre la imagen. El tamaño del zero-padding. El número de canales de salida.

La fórmula del tamaño espacial de salida de una convolución es: (W+F)/S. (W−F+2P)/S+1. (W⋅F)/P. W−S+F.

¿Qué efecto tiene usar zero-padding?. Reduce la dimensionalidad siempre. Aumenta el número de filtros. Permite controlar el tamaño del output, pudiendo mantener el tamaño espacial. Elimina información de los bordes.

En una pooling layer, ¿qué afirmación es correcta?. Tiene parámetros entrenables. Cambia el número de canales (depth). Reduce el tamaño espacial y no aprende nada. Aumenta el número de pesos del modelo.

Las arquitecturas modernas como Inception o ResNet introducen mejoras como: Filtros enormes (15×15 aprox.) para absorber más información. Convoluciones en paralelo o conexiones residuales. Sustituir todas las convoluciones por pooling. Trabajar solo con imágenes en escala de grise.

En las recomendaciones generales del final del documento, se sugiere: Evitar usar filtros pequeños. Usar stride=4 para acelerar el cálculo. Usar filtros pequeños (3×3, 5×5) para reducir parámetros. No usar padding nunca.

En una matriz de confusión, un false negative (FN) representa: Un ejemplo positivo clasificado como negativo. Un ejemplo negativo clasificado como positivo. Un ejemplo negativo clasificado como positivo. Un ejemplo positivo clasificado correctamente.

La accuracy se define como: TP/TP+FN. TP+TN/TP+TN+FP+FN. TN/TN+FP. TP/TP+FP.

El "error rate" es equivalente a: 1−recall. 1−precision. 1−accuracy. FN/FP+TN.

La sensibilidad (sensitivity o recall) mide: La proporción de negativos clasificados correctamente. La proporción de positivos clasificados correctamente. La proporción de predicciones positivas correctas. La media armónica de precisión y recall.

La precision indica: Qué porcentaje de predicciones positivas son realmente po. Qué porcentaje de ítems positivos fueron detectados. Qué porcentaje de negativos fueron clasificados correctamente. El balance entre sensibilidad y especificidad.

La F1 score es: La media aritmética de precisión y recall. La media geométrica de sensibilidad y especificidad. La media armónica de precisión y recall. La media ponderada por clases.

En problemas multiclase, la macro-F1 se calcula: Sumando todos los TP, FP, FN y calculándolo como si fuera un único problema. Calculando la métrica por clase y haciendo la media sin ponderar. Ponderando la métrica según el tamaño de cada clase. Usando solo las clases minoritarias.

En una curva ROC, el eje vertical (Y) representa: La tasa de falsos positivos (FPR). La tasa de verdaderos positivos (TPR o sensibilidad). La accuracy. La especificidad.

El método k-fold cross validation. El método k-fold cross validation. Evalúa todos los ejemplos exactamente una vez como test. Es menos fiable que holdout porque usa menos datos. No se puede estratificar.

¿Cuál de las siguientes métricas es más sensible al desbalanceo de clases?. Sensitivity. Specificity. Accuracy. Recall.

Si un clasificador tiene muchos false positives pero pocos false negatives, ¿qué métrica tiende a bajar más?. Recall. Precision. Specificity. Sensitivity.

La medida F1 es especialmente útil cuando: Hay equilibrio perfecto entre clases. El coste de los falsos negativos es cero. Necesitamos balancear precisión y recall. La clase negativa es más importante.

En macro-average, cada clase: Tiene un peso proporcional a su frecuencia. Tiene el mismo peso independientemente del tamaño de clase. Se combina usando media geométrica. Se descarta si tiene pocos ejemplos.

En una curva ROC, un clasificador “perfecto” estaría: En la diagonal. Abajo a la derecha. Arriba a la izquierda. En el centro.

En stratified k-fold cross validation, se garantiza qu. Todas las clases tienen el mismo número de ejemplos. Cada fold tiene una distribución de clases similar al dataset original. Solo se evalúan ejemplos positivos. No se repite ningún ejemplo entre folds.

El oversampling: Reduce el número de ejemplos de la clase mayoritaria. Añade copias o ejemplos sintéticos de la clase minoritaria. Elimina ejemplos ruidosos. Requiere modificar el umbral de decisión.

Un AUC cercano a 0.5 significa: Modelo perfecto. Modelo mejor que uno trivial. Modelo equivalente a adivinar al azar. Modelo con muy alta sensibilidad.

El problema del threshold moving busca: Modificar los datos para balancear las clases. Crear nuevos datos sintéticos. Ajustar el umbral de decisión para priorizar la clase minoritaria. Ajustar el número de folds en la validación.

En el ejemplo del jugador de damas, la experiencia de entrenamiento E consiste en: Partidas jugadas contra expertos humanos. Estados del tablero anotados por un maestro. Partidas jugadas contra sí mismo. Simulaciones aleatorias sin reglas.

La retroalimentación indirecta del entrenamiento provoca principalmente: Problemas de overfitting. Problemas de asignación de crédito. Imposibilidad de medir rendimiento. Reducción de la complejidad del aprendizaje.

¿Qué tipo de aprendizaje es aquel donde el sistema propone ejemplos confusos y pide la respuesta al maestro?. Supervisado. No supervisado. Aprendizaje activo. Aprendizaje por refuerzo.

El objetivo de la función V : B → ℝ es: Elegir directamente el mejor movimiento. Generar estados aleatorios del tablero. Asignar un valor numérico a cada estado del tablero. Quitar estados inválidos del espacio de búsqueda.

La definición recursiva ideal de V(b) es: Operativa y rápida de computar. No operativa por requerir búsqueda completa del juego. Equivalente a una tabla lookup. Necesaria solo en aprendizaje no supervisado.

La representación elegida en el ejemplo usa una función: No lineal basada en redes neuronales. Polinómica de segundo grado. Tabla con un valor para cada estado posible. Lineal en un conjunto de características 𝑥1…𝑥6.

La regla de entrenamiento usada para estados intermedios es: Vtrain(b) = 0 siempre. Vtrain(b) = resultado final del juego. Vtrain(b) = V̂(Successor(b)). Vtrain(b) = número de piezas capturadas.

El algoritmo utilizado para ajustar los pesos ωᵢ es: Gradiente descendente estocástico. LMS (Least Mean Squares). Regla delta de perceptrón. Softmax regression.

En el diseño final, el módulo Critic se encarga de: Seleccionar nuevos tableros iniciales. Jugar la partida completa. Generar ejemplos de entrenamiento usando la traza del juego. Ajustar los pesos del modelo.

Según la última diapositiva, los dos pasos adicionales que faltaban son: Según la última diapositiva, los dos pasos adicionales que faltaban son:. Feature selection y tuning. Preprocesamiento de datos y despliegue del modelo (MLOps). Validación cruzada y entrenamiento supervisado.

La diferencia entre clasificación y regresión es que: La clasificación predice valores numéricos. La regresión predice clases. La clasificación predice categorías y la regresión valores continuos. Ambas realizan exactamente la misma tarea.

En clustering, los datos: Están anotados. No tienen etiquetas. Solo pueden ser imágenes. Deben tener siempre dos clases.

El principal problema de la accuracy en datasets desbalanceados es que: El principal problema de la accuracy en datasets desbalanceados es que:. Puede ser muy alta aunque el modelo falle en la clase minoritaria. No se puede calcular. Depende del tamaño de batch.

La F1 score es: Media aritmética de precision y recall. Media armónica de precision y recall. Media geométrica de sensitivity y specificity. Un tipo de accuracy mejorado.

El eje vertical de la curva ROC representa: FPR. Specificity. TPR / Sensitivity. Precision.

En CNNs, el stride controla: El número de filtros. Cuánto se desplaza la ventana de convolución. El número de canales de salida. El tamaño del kernel.

El zero-padding permite: Reducir el número de parámetros. Mantener el tamaño espacial de la imagen tras la convolución. Cambiar la profundidad del volumen. Evitar la necesidad de pooling.

Una pooling layer: Aprende pesos. Reduce el tamaño espacial sin aprender parámetros. Cambia el depth del volumen. Aumenta la resolución de la imagen.

En redes convolucionales, usar filtros pequeños (como 3×3): Reduce parámetros y mejora la expresividad con varias capas. Siempre empeora el rendimiento. Impide el uso de backpropagation. Se usa solo en redes antiguas.

Se usa solo en redes antiguas. El modelo no aprende nada. El modelo memoriza el training set pero falla en test. El modelo generaliza perfectamente. Hay pocas features.

El aprendizaje activo se caracteriza por que: El sistema genera sus propias respuestas. El sistema pide ejemplos al maestro cuando tiene dudas. No se usan etiquetas. No requiere entrenamiento.

El aprendizaje por refuerzo se diferencia por: Recibir ejemplos etiquetados. Interactuar con el entorno y recibir recompensas. Usar únicamente redes convolucionales. No tener retroalimentación.

En el ejemplo del jugador de damas, la función objetivo V(b): Devuelve un movimiento. Evalúa numéricamente un estado del tablero. Genera el tablero siguiente. Es directamente computable sin búsqueda.

La representación elegida V̂ para en el ejemplo es: Una tabla enorme con todos los estados posibles. Una función lineal sobre características del tablero. Una red convolucional. Una política basada en Q-learning.

El valor de entrenamiento para estados intermedios se estima como: El resultado final del juego. Un valor aleatorio. V̂(Successor(b)). Número de piezas capturadas.

El algoritmo usado para ajustar los pesos es: Perceptrón. LMS (Least Mean Squares). KNN. Softmax Gradient.

En el diseño final, el módulo Critic hace: Ajusta los pesos. Genera nuevos tableros iniciales. Produce ejemplos de entrenamiento a partir de la traza del juego. Juega contra el sistema.

Los dos pasos adicionales al final del proceso de ML son: Cross-validation y regularización. Preprocesado de datos y despliegue (MLOps). Feature engineering y tuning. Data augmentation y sampling.

El objetivo principal del NLP es. Convertir texto en imágenes. Permitir que los ordenadores comprendan lenguaje natural. Traducir binario a texto. Sustituir completamente a los humanos en comunicación.

En la figura de la diapositiva 4, el NLP se muestra como: Una parte de Deep Learning exclusivamente. Un campo independiente de la IA. Una subárea dentro de la IA que solapa con ML y DL. Una técnica simbólica únicamente.

Un corpus es: Un algoritmo de aprendizaje. Un conjunto de librerías NLP. Una colección de textos o documentos. Un modelo preentrenado.

El etiquetado (annotation) consiste en: Limpiar los datos automáticamente. Añadir metadatos irrelevantes. Añadir metadatos irrelevantes. Convertir texto a audios.

RLHF consiste en: Entrenar modelos usando datos sintéticos. Entrenar modelos basados en recompensas generadas por humanos. Q-learning aplicado al lenguaje. Aprender directamente de corpus no procesados.

Vectorizar un texto significa: Convertirlo en imágenes. Convertirlo en un conjunto de números (vectores). Convertirlo en sonidos. Eliminar palabras irrelevantes.

¿Cuál de estas NO es una librería de NLP clásica mencionada?. NLTK. spaCy. Gensim. React.js.

HuggingFace se caracteriza por: Proveer exclusivamente modelos de visión. Ofrecer modelos preentrenados de NLP y herramientas asociadas. Ser una base de datos de imágenes. Ser un compilador de Python.

En la taxonomía de tareas de la diapositiva 6, multilinguality hace referencia a: Crear corpus sintéticos. Procesar lenguaje en múltiples idiomas. Analizar sintaxis. Entrenar modelos sin datos.

Un ejemplo clásico de un hito temprano en NLP es: Transformers. Eliza (1966). GPT-4. BERT.

¿Qué problema surge al intentar que una máquina entienda “buenos días” como saludo?. No existen corpus. El lenguaje no tiene estructura. El lenguaje debe convertirse en números que representen significado. Los modelos no pueden procesar texto largo.

La vectorización permite luego aplicar: Álgebra lineal y modelos de ML. Solo redes convolucionales. Solo reglas simbólicas. Solo clustering.

¿Cuál de estas plataformas permite AutoML para NLP?. AutoTrain (HuggingFace). MySQL. Adobe Animate. Unity.

Un sistema NLP tradicional se describe como un pipeline porque: Usa únicamente modelos neuronales. Procesa texto en paralelo siempre. Es una secuencia de etapas donde la salida de una es la entrada de la siguiente. No necesita datos etiquetados.

Una limitación clave del NLP tradicional es: No puede procesar frases largas. No reconoce semántica ni dependencias a largo plazo. No puede tokenizar texto. No puede usar diccionarios (lexicones).

El enfoque basado en patrones incluye métodos como: Bag-of-Words. TF-IDF. Regresión logística. Expresiones regulares y n-gramas simples.

Un problema del enfoque basado en patrones es que: Requiere redes neuronales. Exige muy pocos datos. Depende mucho del dominio y requiere trabajo manual. No puede detectar ninguna palabra clave.

En el enfoque basado en vectores, cada documento se convierte en: Una imagen. Un conjunto de números (vector). Un árbol sintáctico. Una red semántica.

Los one-hot vectors se caracterizan por: Ser densos y compactos. Representar palabras con valores continuos. Ser muy dispersos, con un 1 y el resto ceros. Requerir poca memoria.

Bag-of-Words: Conserva el orden de las palabras. Ignora el orden y cuenta frecuencias. Usa embeddings avanzados. Detecta automáticamente la semántica.

Para reducir la dimensionalidad del vocabulario se usan técnicas como: Tokenización inversa. Oversampling. Lematización y stopwords. Data augmentation textual.

La similitud del coseno se usa para: Medir qué tan similares son dos vectores de texto. Calcular el error de clasificación. Reducir el tamaño del corpus. Evaluar modelos supervisados.

VADER es un método de análisis de sentimiento que se basa en: Redes neuronales recurrentes. Transformers. Un lexicón + heurísticas manuales. Modelos estadísticos supervisados.

Una desventaja de VADER es que: No funciona en inglés. No usa ningún diccionario. No reconoce argot o variaciones fuera del lexicón. Necesita millones de datos etiquetados.

En Naive Bayes para NLP se asume que: Todas las palabras dependen de todas. Todas las palabras son independientes entre sí dadas las clases. El orden de palabras es fundamental. Solo funciona con TF-IDF.

Una ventaja de la regresión logística es. Captura relaciones no lineales automáticamente. Tiene alta interpretabilidad de coeficientes. Es lenta de entrenar. Siempre supera a SVM.

Una desventaja de SVM en NLP es: No maneja alta dimensionalidad. No funciona con datos no lineales. Entrenamiento lento y poca interpretabilidad. No acepta texto como entrada.

LDA (Latent Dirichlet Allocation) se utiliza para: Clasificar documentos supervisadamente. Encontrar temas latentes de forma no supervisada. Traducir documentos. Generar palabras sintéticas.

Los word embeddings solucionan parcialmente un problema de los métodos tradicionales porque: Codifican el texto como one-hot vectors. Incorporan contexto y relaciones semánticas. Aumentan la dimensionalidad del vocabulario. Reemplazan totalmente a TF-IDF.

Un word embedding se caracteriza por ser: Un vector disperso lleno de ceros. Un vector denso que captura significado semántico. Un índice entero que representa el ID de la palabra. Un vector TF-IDF normalizado.

Word2vec es un modelo: Supervisado. Basado en reglas. No supervisado, entrenado con texto sin anotar. Que requiere etiquetas manuales por palabra.

En Word2vec, lo realmente útil del entrenamiento son: Las palabras predichas. Los pesos de la última capa (embeddings). Las etiquetas manuales. La matriz de coocurrencia.

CBOW (Continuous Bag of Words) predice: El contexto a partir de una palabra. Una palabra objetivo a partir de palabras del contexto. Palabras aleatorias. La sintaxis completa de la oración.

Skip-gram se usa típicamente cuando: El corpus es enorme y las palabras son comunes. El corpus es pequeño y hay palabras raras. No hay contexto disponible. Se quiere evitar embeddings densos.

Una ventaja importante de GloVe frente a Word2vec es que: No necesita corpus. Entrena más rápido y maneja mejor coocurrencias. Funciona solo con caracteres. Es supervisado.

fastText tiene como principal ventaja: Es siempre más rápido que Word2vec. No usa embeddings. Aprende a nivel de subpalabras, útil para palabras raras o con errores. Ignora los n-grams.

Un problema de los word embeddings clásicos es que: No se pueden usar para analogías. Representan todos los significados de una palabra en un solo vector (no desambiguación). No funcionan con corpus grandes. Necesitan etiquetas para entrenarse.

Las CNN aplicadas a texto funcionan porque: Capturan dependencias largas automáticamente. Detectan patrones locales como n-gramas importantes. Ignoran completamente el tamaño del filtro. No requieren embeddings.

En CNN para texto, el feature map representa: Un conjunto de índices. La activación del filtro a lo largo de la secuencia. El vector embedding original. La salida final de clasificación.

El principal aporte de las RNN frente a las CNN es que: Son más rápidas. Pueden recordar estados anteriores y procesar secuencias completas. No necesitan entrenamiento. No utilizan backpropagation.

El problema más conocido de una RNN clásica es: No puede leer embeddings. No puede manejar secuencias. El gradiente desvanecido. Necesita un diccionario enorme.

Las LSTM introducen: Tres puertas (forget, candidate y output) para mantener memoria a largo plazo. Más filtros convolucionales. Una única activación ReLU. Vectores one-hot más grandes.

Una ventaja de LSTM sobre RNN simples es que: No necesitan backpropagation. Capturan dependencias a largo plazo evitando el desvanecimiento del gradiente. No usan embeddings. Siempre son más rápidas de entrenar.

Una de las principales ventajas de los Transformers frente a las RNN es: Mejor capacidad para paralelizar el procesamiento de la secuencia. Menos parámetros en todos los casos. No requieren embeddings. No usan backpropagation.

En BERT, el objetivo de pre-entrenamiento masked modeling consiste en: Predecir la siguiente palabra. Predecir palabras enmascaradas dentro de la secuencia. Predecir emociones. Clasificar tokens como positivos o negativos.

GPT se entrena con: Mask modeling objective. Sequence labeling. Causal modeling: predecir siguiente token. Cross-attention desde el encoder.

Un LLM, según el PDF, se define como: Cualquier modelo con más de 1.000 parámetros. Un modelo fundacional basado en transformers, con >100M de parámetros. Un perceptrón multicapa. Un modelo supervisado con embeddings.

La gran mejora de los Transformers respecto a LSTM para traducción se debe a: Mejor manejo del orden explícito sin embeddings posicionales. Capacidades simbólicas. Acceso global al contexto mediante self-attention. Uso de ventanas fijas como en CNNs.

En self-attention, los vectores creados para cada token son: Query, Key, Value. Order, Topic, Relevance. Feature, Window, Embedding. Source, Target, Mask.

La matriz de atención se obtiene aplicando softmax sobre: Valores V. La multiplicación entre Query y Key. La convolución entre filtros. La suma de embeddings posicionales.

La mayor ventaja del encoder-decoder transformer sobre Seq2Seq clásico es: No necesita decoder. Se entrena sin GPU. Captura dependencias larguísimas y puede paralelizar todo. Usa embeddings one-hot.

El transfer learning en NLP consiste en: Entrenar un modelo desde cero para cada tarea. Reutilizar conocimiento previo de un modelo pre-entrenado. Evitar el uso de embeddings. Entrenar solo con datos etiquetados.

En el proceso completo del transfer learning (pág. 56 del PDF), los pasos son: Training → Evaluation. Pre-training → Domain adaptation → Fine-tuning. Masking → Sampling → Backpropagation. Embedding → Tokenización → Evaluación.

Fine-tuning tradicional tiene como desventaja: Requiere muy pocos datos. Es barato y rápido. Riesgo de sobreajuste y alto coste computacional. Sustituye el modelo base por completo.

Métodos como LoRA o Adapters funcionan porque: Modifican todos los pesos del modelo. Añaden pequeñas capas entrenables manteniendo congelado el modelo base. Eliminan la necesidad de preentrenamiento. Reemplazan el mecanismo de atención.

RLHF se usa para: Ajustar embeddings. Optimizar un modelo usando retroalimentación humana como señal de recompensa. Realizar tokenización. Evitar el fine-tuning.

Una limitación importante de los LLMs descrita en el PDF es: No pueden procesar texto. Generan siempre respuestas perfectas. Reproducen sesgos presentes en los datos. No pueden usar atención.

Una serie temporal se define como: Una secuencia de valores aleatorios sin estructura. Una secuencia de valores aleatorios sin estructura. Una sucesión de valores de una variable tomados a lo largo del tiempo. Una variable categórica codificada numéricamente.

Para que algo sea considerado serie temporal, según las diapositivas, debe cumplir que: Los datos se obtienen de sensores externos. El orden de los datos sí importa. El orden de los datos es irrelevante. Debe ser un dataset con más de 1000 valores.

¿Cuál de las siguientes NO es una aplicación típica de series temporales?. Precios bursátiles. Population trends (demografía). Reconocimiento facial. Monitorización de constantes médicas.

La tendencia en una serie temporal representa: Fluctuaciones completamente aleatorias. Variaciones periódicas en intervalos cortos. El comportamiento a largo plazo sin variaciones de corto plazo. El ruido que no se puede explicar.

La componente estacional se caracteriza por: Movimientos repetitivos de largo periodo. Movimientos repetitivos de periodo corto-medi. Cambios aleatorios. Ausencia de periodicidad.

La componente cíclica se diferencia de la estacional porque: Tiene periodos más largos. Tiene periodos más cortos. Siempre es aleatoria. No se usa en modelos de series temporales.

La componente aleatoria representa: Patrones ocultos deterministas. Variaciones no explicadas por ninguna otra componente. Nuevas tendencias futuras. Valores perdidos en la serie.

Una serie estacionaria se caracteriza por: Tener tendencia y estacionalidad fuertes. Tener tendencia y estacionalidad fuertes. No poder analizarse. Cambiar completamente en cada instante.

Un problema de las series NO estacionarias en ML clásico es que: No permiten usar regresión lineal. Introducen correlación entre variables que deberían ser independientes. Se vuelven binarias. No pueden representarse gráficamente.

Para convertir una serie no estacionaria en estacionaria podemos: Añadir más ruido. Eliminar tendencia, suavizar o eliminar ciclos. Aumentar la frecuencia de muestreo. Aplicar redes neuronales sin procesar la serie.

La descomposición de series temporales sirve para: Predecir automáticamente futuros valores sin modelos. Separar la serie en componentes (tendencia, estacionalidad, etc.). Eliminar datos atípicos. Convertir datos numéricos en categóricos.

Una de las limitaciones principales de las redes neuronales “normales” para series temporales es que: Solo procesan imágenes. No recuerdan información previa (amnesia). No pueden tener más de una capa. No pueden usar funciones de activación.

Una RNN se diferencia de una red convencional porque: Tiene menos parámetros. Utiliza la entrada actual y la activación previa. No usa funciones de activación. No permite retropropagación.

En RNN, el vector ht representa: El estado oculto en el instante t. La salida final del modelo. La entrada del siguiente modelo. El gradiente acumulado.

Las arquitecturas RNN one-to-many se usan para: Traducción automática. Clasificación de una frase completa. Generación de texto, música o secuencias. Calcular métricas de evaluación.

RNN many-to-many se usa para tareas como: Bag-of-Words. Embeddings. Traducción de secuencias completas. Clasificación estática.

El mayor problema de las RNN clásicas con secuencias largas es: Saturación del softmax. Desvanecimiento de la memoria a corto plazo. Precisión excesiva. No tener suficientes pesos entrenables.

Las LSTM introducen un nuevo elemento clave: Un vector de convolución. Una celda de memoria. Un mecanismo de pooling. Un embedding adicional.

En una LSTM, la forget gate sirve para: Añadir información nueva. Eliminar información irrelevante del estado anterior. Generar la salida final. Actualizar los pesos W y U.

En una LSTM, la store gate (o input gate) sirve para: Eliminar memoria antigua. Almacenar nueva información relevante. Decidir qué se envía hacia la salida. Convertir texto en números.

La update gate permite: Acumular ruido. Actualizar de forma selectiva la celda de estado. Reiniciar toda la memoria. Calcular funciones de pérdida.

La output gate controla: Qué información de la celda de estado se envía como salida. Qué pesos se ponen a cero. Qué parte del gradiente se descarta. Qué embedding usar.

¿Qué ventaja clave ofrecen las LSTM frente a las RNN simples?. Memoria a corto y largo plazo. Entrenan más rápido siempre. No usan activación. No tienen celda de estado.

En una RNN o LSTM, el input xt representa: El gradiente entrante. La entrada de la secuencia en el instante t. El embedding de salida. La activación de la celda anterior.

Según el PDF, ¿qué dato es un ejemplo de secuencia aplicable a RNN?. Una imagen estática. Un único número aislado. Texto, audio, vídeo o cotización temporal. Un valor constante no correlacionado.

Las LSTM resuelven el problema del largo plazo porque: Guardan siempre todos los valores anteriores. Tienen dos memorias: corto y largo plazo. Usan embeddings más grandes. Funcionan sin gradiente.

La media móvil se basa en: Incrementar la varianza de la serie. Suavizar pequeñas variaciones mediante promedios. Eliminar todos los valores atípicos. Ajustar automáticamente la tendencia.

Un efecto de aplicar una media móvil es: Amplificar fluctuaciones. Generar una nueva serie más “comprimida”. Desordenar los datos en el tiempo. Convertir la serie en estacionaria sin necesidad de diferencias.

La media móvil asume que: La serie es estacionaria. Las componentes dependientes del tiempo ya han sido extraídas. La estacionalidad es siempre multiplicativa. No existe tendencia.

El suavizado exponencial utiliza: Pesos idénticos para todos los valores. Pesos decrecientes para valores más antiguos. Eliminación completa de ruido. Medias móviles inversas.

Para aplicar Machine Learning a series temporales, debemo. Ignorar el orden de los datos. Transformar el problema en regresión o clasificación. Utilizar redes neuronales profundas siempre. Aplicar ARIMA antes de entrenar.

Cuando usamos ML clásico, necesitamos ventanizar la serie porque: ML no permite trabajar con secuencias. Necesitamos convertir valores pasados en variables de entrada. Es obligatorio normalizar todos los valores. Evita totalmente el sobreajuste.

El primer enfoque de ML para series temporales consiste en: Generar features artificiales a partir de valores previos. Usar los valores directamente como entrada del modelo. Aplicar deep learning. Convertir los datos en categorías.

El segundo enfoque de ML consiste en: Usar ventanas fijas sin ingeniería de características. Crear nuevas variables derivadas de los valores previos. Aplicar un filtro de Fourier. Sustituir ARIMA por RNN.

Un ejemplo de nueva característica derivada en ML podría ser: El número de parámetros del modelo. Día de la semana, valor medio de la ventana, etc. El valor futuro real. Un índice aleatorio.

los modelos de ML se entrenan: Solo si la serie es estacionaria. Con los datos generados por cualquiera de los dos enfoques de ventana. Únicamente tras aplicar ARIMA. Sin necesidad de normalizar nunca.

una anomalía es: Un valor grande. Un valor pequeño. Un valor que se aleja de la normalidad. Un valor duplicado dentro de la serie.

Para detectar anomalías con AutoEncoders, se usa principalmente: El error de predicción ARIMA. El error de reconstrucción. El gradiente de la LSTM. La matriz de correlación.

El principio de un AutoEncoder es: Aumentar la dimensionalidad. Reconstruir la entrada a partir de una representación comprimida. Clasificar valores como normales o anómalos directamente. Transformar la serie en ruido blanco.

Una anomalía se detecta cuando el error de reconstrucción es: Muy bajo. Igual a cero. Superior a un umbral definido. Estacionario.

el clustering se define como: Predecir valores futuros. Agrupar elementos por características comunes. Eliminar valores atípicos. Representar tendencias temporales.

para clustering de series temporales se usa la librería: scikit-image. pandas-ts. tslearn. timetools.

Al realizar clustering de series temporales con tslearn, se obtienen: Pesos optimizados por gradiente. Centroides que representan cada grupo. Solo grupos sin representación. Predicciones de valores futuros.

Los Variational AutoEncoders se utilizan en clustering porque: No necesitan entrenamiento. Eliminan ruido. Producen una representación latente compacta. Sustituyen completamente a k-means.

La representación latente (capa intermedia) en un VAE sirve para: Almacenar la serie original completa. Clasificar directamente en categorías. Capturar características esenciales de la serie. Eliminar la estacionalidad.

el vector latente se utiliza para: Predecir valores futuros. Agrupar series temporales en clusters. Convertir las series en imágenes. Normalizar los datos.

Reinforcement Learning se diferencia del aprendizaje supervisado porque: El entorno proporciona etiquetas fijas. Se aprende por retroalimentación mediante recompensas. No requiere interacción con un entorno. Siempre trabaja con datos estáticos.

RL consiste en aprender: Los pesos óptimos de una red neuronal. Qué acción maximiza una señal de recompensa. Qué datos deben ser etiquetados. Cómo estimar una media móvil.

En RL, un episodio es: Una acción aislada. Una secuencia completa desde un estado inicial hasta un estado terminal. Una tabla de valores. El conjunto de todas las políticas.

Un agente en RL es: El entorno. El programa que toma acciones y aprende. Una tabla de recompensas. Un dataset etiquetado.

Una recompensa es: Una recompensa es:. Un vector de probabilidades. Una señal numérica (positiva o negativa) que indica lo bien que actuó el agente. Un estado terminal.

El Proceso de Decisión de Markov (MDP) se caracteriza por: Los estados dependen de todos los pasos anteriores. Las probabilidades dependen solo del estado y acción actuales. No existe probabilidad en las transiciones. No puede tener recompensas negativas.

Las tareas episódicas se caracterizan por: No tener fin. Terminación en un estado terminal. No generar recompensas. Ser siempre deterministas.

Las tareas continuas se caracterizan por: Tener un estado terminal fijo. Ser infinitas, sin estado final. Ser incompatibles con RL. Depender solo de recompensas positivas.

El retorno (Gt) se define como: La recompensa inmediata. La suma (posiblemente descontada) de todas las recompensas futuras del episodio. El valor óptimo de la política. La media de recompensas de todos los agentes.

El factor de descuento γ: Reduce la importancia de recompensas futuras. Aumenta el peso de recompensas lejanas. Se usa solo en tareas continuas. Siempre es igual a 1.

La función de valor vπ mide: Qué tan bueno es un estado siguiendo la política π. El máximo retorno posible. La recompensa inmediata por acción. Los errores de predicción.

Denunciar Test

▲