Aprendizaje Automático Parcial 1

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Aprendizaje Automático Parcial 1

Descripción:
Universidad Siglo 21

Autor:

GF#512

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/04/06

Categoría: Otros

Número Preguntas: 60

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Cuál es la diferencia fundamental entre regresión y clasificación en machine learning?. La regresión usa árboles de decisión y la clasificación usa redes neuronales. La regresión predice valores continuos mientras la clasificación predice categorías discretas. La regresión solo funciona con datos numéricos y la clasificación con datos textuales. La regresión es supervisada y la clasificación no supervisada.

En un árbol de decisión, ¿qué es un "nodo hoja"?. El primer nodo que divide los datos. Un nodo que aplica reglas de decisión sobre los atributos. El nodo que define la clasificación final de una muestra. Un nodo que conecta dos ramas del árbol.

¿Qué significa que una partición en un árbol de decisión sea "pura"?. Que todos los datos han sido procesados. Que el nodo no tiene ramas descendientes. Que todos los ejemplos pertenecen a la misma clase. Que el error del nodo es exactamente cero.

El clasificador Naive Bayes recibe el nombre "naive" (ingenuo) porque: Es un algoritmo simple que no usa matemáticas avanzadas. Asume independencia condicional entre todas las características. Solo funciona con datos de texto pequeños. No puede manejar características continuas.

Según el Teorema de Bayes, P(A|B) es igual a: P(A) × P(B). P(B|A) × P(A) / P(B). P(A) / P(B). P(A∩B) + P(B).

En el perceptrón simple, ¿qué representa el "bias" (b)?. El error de predicción del modelo. La velocidad de convergencia del algoritmo. Un valor que ajusta el umbral de la función de activación. La suma ponderada de las entradas.

¿Cuál es la principal limitación del perceptrón simple?. Solo puede procesar datos numéricos. Requiere normalización previa de los datos. No puede resolver problemas no linealmente separables. Es demasiado lento para datos grandes.

El problema XOR demostró ser irresoluble para el perceptrón simple porque: Tiene demasiadas variables de entrada. No existe una línea recta que separe correctamente sus clases. Sus valores son flotantes y no enteros. Requiere más de una salida.

En el MLP (Perceptrón Multicapa), ¿cuál es la función de las capas ocultas?. Recibir los datos de entrada del problema. Generar la predicción final del modelo. Aprender representaciones no lineales entre entradas y salidas. Almacenar los datos de entrenamiento.

En la retropropagación, la "fase backward" consiste en: Propagar las entradas hacia la capa de salida. Retropropagar el error para calcular gradientes y ajustar pesos. Inicializar los pesos aleatoriamente. Evaluar el modelo en el conjunto de prueba.

En SVM, los "vectores de soporte" son: Todos los puntos del conjunto de entrenamiento. Los puntos más lejanos de la frontera de decisión. Las muestras más cercanas a la frontera de decisión que la definen. Los vectores que apuntan en la dirección del gradiente.

¿Qué ocurre cuando el parámetro C en Soft SVM toma un valor muy pequeño?. El modelo se vuelve más "hard" y estricto. Se permiten menos errores de clasificación. El modelo se regulariza y acepta más muestras mal clasificadas. El margen se reduce al mínimo.

El "kernel trick" en SVM sirve para: Acelerar el cálculo del hiperplano en espacios de baja dimensión. Transformar datos a un espacio de mayor dimensión donde son separables. Reducir el número de vectores de soporte necesarios. Aplicar regularización al modelo.

En regresión lineal simple, y = w₀ + w₁x, ¿qué representa w₁?. La intersección con el eje. La pendiente de la línea — cambio en y por unidad de x. El error cuadrático medio del modelo. La variable independiente.

El Error Cuadrático Medio (MSE) se calcula como: (1/n) × Σ|yᵢ - ŷᵢ|. √[(1/n) × Σ(yᵢ - ŷᵢ)²]. (1/n) × Σ(yᵢ - ŷᵢ)². 1 - (SS_res / SS_tot).

Un valor de R² = 0.78 significa que: El modelo tiene un error del 22%. El modelo explica el 78% de la variabilidad de los datos. El 78% de las predicciones son correctas. El MSE del modelo es 0.78.

En la validación cruzada k-fold con k=5, ¿cuántos modelos se entrenan?. 1. 3. 5. 10.

La principal ventaja de la validación cruzada k-fold sobre train-test split es que: Es más rápida de computar. Usa todos los datos para entrenar y validar, reduciendo la dependencia de una partición. Siempre produce un R² más alto. No requiere normalización de datos.

Para un dataset pequeño, ¿qué valor de k se recomienda en la validación cruzada?. K=3. K=5. K=10. K=100.

El Bagging (Bootstrap Aggregating) combina múltiples modelos principalmente para: Reducir el sesgo del modelo. Reducir la varianza del modelo. Aumentar la velocidad de entrenamiento. Disminuir el número de características necesarias.

¿Cómo se crean los subconjuntos de datos en Bagging?. Dividiendo el dataset en partes iguales sin reemplazo. Seleccionando aleatoriamente muestras CON reemplazo. Ordenando los datos por la variable objetivo. Aplicando PCA antes de muestrear.

¿Qué distingue a Random Forests de Bagging simple?. Random Forests usa boosting en lugar de bagging. Random Forests considera un subconjunto aleatorio de características en cada split. Random Forests usa regresión logística como clasificador base. Random Forests no usa muestreo con reemplazo.

En Boosting (AdaBoost), las muestras incorrectamente clasificadas en una iteración: Son eliminadas del dataset. Reciben un peso menor en la siguiente iteración. Reciben un peso mayor en la siguiente iteración. Se procesan de forma independiente.

El Boosting, a diferencia del Bagging, entrena sus modelos de forma: Paralela — todos simultáneamente. Aleatoria — sin orden definido. Secuencial — cada modelo corrige errores del anterior. Recursiva — cada modelo entrena sobre el anterior.

¿Cuál algoritmo de ensamble es más susceptible al sobreajuste en datos ruidosos?. Bagging. Random Forests. Boosting. Todos por igual.

En el descenso del gradiente, la tasa de aprendizaje (α) controla: El número de iteraciones del algoritmo. El tamaño de los pasos en la actualización de pesos. La proporción train-test del dataset. El grado del polinomio en regresión polinomial.

¿Cuál es la diferencia entre LinearRegression y SGDRegressor en scikit-learn?. LinearRegression usa descenso de gradiente; SGDRegressor usa mínimos cuadrados. LinearRegression usa mínimos cuadrados (analítico); SGDRegressor usa descenso de gradiente estocástico. No hay diferencia, ambos producen exactamente el mismo resultado. LinearRegression solo funciona con una variable; SGDRegressor con múltiples.

En regresión polinomial, ¿cuándo se recomienda usar regularización Ridge o Lasso?. Siempre que el grado del polinomio sea mayor a 1. Cuando el modelo muestra signos de sobreajuste con grados altos. Solo cuando el dataset tiene menos de 100 muestras. Cuando el R² en entrenamiento es menor a 0.5.

La regularización Lasso se diferencia de Ridge en que: Lasso penaliza con el cuadrado de los coeficientes. Lasso puede forzar algunos coeficientes exactamente a cero, realizando selección de variables. Lasso aumenta el sesgo menos que Ridge. Lasso solo funciona en regresión lineal, no polinomial.

El "problema del desvanecimiento del gradiente" en redes neuronales profundas ocurre porque: Los pesos iniciales son demasiado grandes. Los gradientes se vuelven muy pequeños en capas profundas impidiendo actualización efectiva. La tasa de aprendizaje es muy alta. El dataset de entrenamiento es muy pequeño.

¿Qué función de activación ayuda a mitigar el problema del desvanecimiento del gradiente?. Sigmoide. Tanh. ReLU. Softmax.

En la clasificación con árboles de decisión, ¿qué ventaja tienen frente a las SVM?. Siempre producen mayor precisión. No requieren normalización de datos y son más interpretables. Son mejores para datasets de alta dimensionalidad. No pueden sufrir sobreajuste.

Una curva de validación muestra que la exactitud de entrenamiento sube continuamente pero la de validación alcanza un pico y luego baja. Esto indica: Subajuste — el modelo necesita más complejidad. El modelo óptimo se encuentra en el pico de la curva de validación. El dataset de validación es insuficiente. La tasa de aprendizaje es incorrecta.

En el contexto del aprendizaje supervisado, "etiqueta" se refiere a: El nombre del algoritmo utilizado. La variable dependiente/objetivo cuyo valor se conoce en el entrenamiento. La cantidad de características del dataset. El identificador único de cada muestra.

¿Cuál de estos algoritmos usa el concepto de "margen máximo"?. Árbol de decisión. Naive Bayes. SVM. K-Fold Cross Validation.

El aprendizaje supervisado se distingue de otros tipos porque: Usa datos sin procesar directamente. El modelo aprende de datos con respuestas correctas conocidas (etiquetas). No requiere función de costo. Solo puede usarse en clasificación.

En Naive Bayes para clasificación de texto, P(spam | "dinero", "ganó") se calcula usando: Solo la frecuencia de "dinero" en el corpus. l Teorema de Bayes asumiendo independencia entre palabras. Un árbol de decisión sobre el vocabulario. La distancia euclidiana entre vectores de palabras.

Al dividir datos para regresión en scikit-learn con train_test_split(X, y, test_size=0.3), ¿qué porcentaje va a entrenamiento?. 30%. 50%. 70%. 90%.

Un modelo con sesgo (bias) alto presenta: Muy buen rendimiento en entrenamiento pero malo en prueba. Rendimiento malo tanto en entrenamiento como en prueba. Muy buen rendimiento en ambos conjuntos. Alta varianza pero bajo error.

La función de activación softmax en la capa de salida de un MLP se utiliza para: Resolver el problema del desvanecimiento del gradiente. Producir probabilidades que suman 1 para clasificación multiclase. Normalizar los pesos de la red. Calcular el gradiente durante backpropagation.

¿Cuáles de las siguientes son características del clasificador Naive Bayes? (Selecciona 3). Asume independencia condicional entre características. Es eficiente en términos computacionales para grandes volúmenes de texto. Siempre supera a las redes neuronales en precisión. Es útil para análisis de sentimientos y filtrado de spam. Requiere normalización obligatoria de los datos.

¿Cuáles de las siguientes son limitaciones del Soft SVM? (Selecciona 2). No puede manejar datos no linealmente separables con kernels. Bajo rendimiento en conjuntos de datos muy grandes. No puede realizar clasificación binaria. No es adecuado cuando las clases objetivo se superponen demasiado. No tiene hiperparámetros ajustables.

¿Cuáles son ventajas de Random Forests sobre un árbol de decisión simple? (Selecciona 3). Reduce la varianza mediante el promedio de múltiples árboles. Es más interpretable y explicable. Menos propenso al sobreajuste. Identifica automáticamente las características más relevantes. Siempre entrena más rápido.

¿Cuáles de las siguientes afirmaciones sobre la validación cruzada k-fold son correctas? (Selecciona 3). Usa todos los datos tanto para entrenar como para validar. Requiere siempre k=10 independientemente del tamaño del dataset. Reduce la dependencia del modelo respecto a una partición específica. El valor de k=10 es recomendado para datasets pequeños. Es equivalente a hacer train-test split repetidamente con diferentes seeds.

¿Cuáles métricas son apropiadas para evaluar un modelo de REGRESIÓN? (Selecciona 3). Error Cuadrático Medio (MSE). Accuracy (proporción de aciertos). Coeficiente de Determinación R². Error Absoluto Medio (MAE). F1-Score.

¿Cuáles características distinguen al Perceptrón Multicapa (MLP) del perceptrón simple? (Selecciona 4). Incluye una o más capas ocultas. Puede resolver problemas no linealmente separables como XOR. No utiliza función de activación. Usa el algoritmo de retropropagación para entrenamiento. Las capas ocultas aplican transformaciones no lineales.

¿Cuáles de los siguientes problemas se clasifican correctamente como problemas de CLASIFICACIÓN? (Selecciona 3). Determinar si un email es spam o no spam. Predecir el precio de venta de una propiedad. Diagnosticar si un tumor es maligno o benigno. Identificar la especie de una flor iris. Estimar la temperatura de mañana.

Sobre el parámetro C en SVM, ¿cuáles afirmaciones son correctas? (Selecciona 3). C grande genera un enfoque más "hard" con pocos errores permitidos. C pequeño permite mayor número de muestras mal clasificadas. C solo se aplica al kernel RBF, no al kernel lineal. C equilibra el tamaño del margen y las clasificaciones erróneas. C negativo produce el modelo más restrictivo.

¿Cuáles son diferencias correctas entre Bagging y Boosting? (Selecciona 3). Bagging entrena modelos en paralelo; Boosting de forma secuencial. Bagging reduce varianza; Boosting reduce principalmente sesgo. Bagging usa solo árboles; Boosting puede usar cualquier clasificador. Boosting asigna pesos crecientes a muestras mal clasificadas. Bagging siempre supera a Boosting en datasets ruidosos.

¿Cuáles de las siguientes son etapas del proceso de construcción de un árbol de decisión? (Selecciona 3). Seleccionar el atributo que maximiza la pureza de la partición. Normalizar todos los atributos antes de iniciar. Dividir recursivamente los datos según las reglas aprendidas. Continuar hasta alcanzar pureza en los nodos hoja o umbral predefinido. Calcular el gradiente del error en cada nodo.

¿Cuáles afirmaciones sobre la retropropagación (backpropagation) son correctas? (Selecciona 3). Calcula gradientes usando derivadas parciales. Fue fundamental para superar las limitaciones del perceptrón simple. Solo funciona con funciones de activación sigmoide. Puede sufrir el problema del desvanecimiento del gradiente en redes muy profundas. Ajusta los pesos de forma aleatoria en cada iteración.

¿Cuáles técnicas son apropiadas para combatir el sobreajuste en regresión polinomial? (Selecciona 3). Regularización Ridge. Regularización Lasso. Aumentar el grado del polinomio. Validación cruzada para seleccionar el grado óptimo. Eliminar el conjunto de prueba.

Respecto a la regresión lineal múltiple, ¿cuáles afirmaciones son correctas? (Selecciona 3). Extiende la regresión simple incorporando múltiples variables independientes. No puede usarse cuando existe multicolinealidad entre variables. El R² indica la proporción de variabilidad explicada por el modelo. La normalización mejora la convergencia en métodos de optimización iterativos. Siempre produce mejores resultados que la regresión simple.

¿Cuáles son aplicaciones correctas del clasificador Naive Bayes según los materiales? (Selecciona 3). Filtrado de spam en correos electrónicos. Análisis de sentimientos en redes sociales. Segmentación de imágenes de alta resolución. Diagnóstico médico mediante identificación de síntomas. Predicción de series temporales financieras.

¿Cuáles características hacen que SVM sea eficaz? (Selecciona 3). Funciona correctamente en espacios de alta dimensionalidad. Usa solo los vectores de soporte (muestras frontera) para definir el hiperplano. Es el algoritmo más rápido en datasets de millones de registros. Con el kernel trick puede manejar problemas no lineales. No tiene hiperparámetros que ajustar.

En un árbol de decisión, es obligatorio alcanzar pureza completa (100%) en todos los nodos hoja para que el modelo sea válido. Falso. Verdadero.

La validación cruzada k-fold siempre produce un mejor modelo que simplemente dividir los datos en 70% entrenamiento y 30% prueba. Falso. Verdadero.

En Boosting (AdaBoost), los modelos base pueden entrenarse en paralelo para reducir el tiempo computacional. Falso. Verdadero.

Un modelo de regresión lineal con R² = 0.95 en el conjunto de entrenamiento y R² = 0.45 en el conjunto de prueba indica sobreajuste. Falso. Verdadero.

El clasificador Naive Bayes puede tener una performance competitiva aunque su supuesto de independencia entre features no se cumpla en los datos reales. Falso. Verdadero.

Denunciar Test

▲