Machine Learning

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Machine Learning

Descripción:
Rama de la IA.

Autor:
C.C

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/04/22

Categoría: Otros

Número Preguntas: 66

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Cuál es la diferencia fundamental en el enfoque de Machine Learning frente a la programación tradicional?. Escribimos reglas condicionales más complejas. El modelo aprende automáticamente las reglas a partir de los datos y resultados esperados. No requiere datos históricos, solo una lógica de negocio clara.

¿Cuál de las siguientes situaciones es el mejor caso de uso para implementar Machine Learning?. Cuando una consulta SQL o una regla de negocio simple (if/else) puede resolver el problema. Cuando no hay datos históricos disponibles. Cuando los patrones son complejos, no evidentes, y las reglas cambian constantemente.

¿Qué caracteriza al "Aprendizaje Supervisado"?. El modelo busca patrones ocultos en datos sin clasificar. El modelo se entrena interactuando con un entorno a través de recompensas. El modelo se entrena con datos etiquetados donde cada entrada tiene una salida conocida.

¿Cuál es la ventaja principal del Aprendizaje No Supervisado?. Descubre información, estructuras o agrupaciones ocultas en datos sin etiquetas. Requiere un gran volumen de etiquetado manual realizado por expertos. Es más fácil de evaluar que el aprendizaje supervisado.

¿Cuándo se justifica el uso del Aprendizaje Semi-Supervisado?. Cuando todos los datos están perfectamente clasificados. Cuando etiquetar grandes volúmenes de datos requiere expertos y resulta muy costoso. Cuando se busca que un agente aprenda a través de castigos y recompensas.

¿Cómo aprende un agente en el "Aprendizaje por Refuerzo"?. A través de la memorización de casos vecinos. Minimizando el error entre las entradas y las etiquetas conocidas. Interactuando con un entorno, tomando acciones y recibiendo recompensas o castigos.

¿Qué define al Aprendizaje por Lotes (Batch Learning)?. El modelo se actualiza continuamente con datos en tiempo real. El modelo se entrena usando todo el dataset de una sola vez y luego permanece estático. Es ideal para escenarios con recursos limitados de memoria en producción.

¿Cuál es el caso de uso típico del Aprendizaje en Línea (Online Learning)?. Sistemas en producción que manejan datos en streaming y necesitan adaptarse a cambios en tiempo real. Modelos que son inmutables y estables en el tiempo. Escenarios donde se dispone de todo el tiempo del mundo para procesar un único dataset offline.

En un sistema "Basado en Instancias" (como KNN), ¿cómo se toman las decisiones?. Creando una fórmula matemática compleja que resume todos los datos. Memorizando los ejemplos de entrenamiento y comparando los nuevos datos con los vecinos más parecidos. Re-escribiendo el código manualmente cada vez que ingresa un dato nuevo.

¿Cuál es una característica de los sistemas "Basados en Modelos"?. El trabajo computacional más pesado ocurre en la inferencia, no en el entrenamiento. Analizan todos los datos para aprender reglas generales y representarlas matemáticamente, sin necesidad de guardar los datos originales. Son muy costosos en memoria porque deben almacenar toda la base histórica.

¿Cuál de los siguientes es un claro indicador de que NO debes usar Machine Learning?. El problema trabaja con incertidumbre probabilística. Necesitas predecir el comportamiento en escenarios nunca antes vistos. El problema es una validación de negocio que se puede resolver con un bloque "if/else".

¿Qué significa que Machine Learning trabaje con "probabilidades y no certezas absolutas"?. Que nunca sirve para tomar decisiones reales. Que siempre entrega un resultado 100% libre de errores. Que produce estimaciones de riesgo o propensión, asumiendo que un pequeño margen de error es aceptable.

Si desarrollamos algoritmos y modelos estadísticos que ajustan sus parámetros para minimizar errores a partir de datos históricos, estamos aplicando la definición técnica de: Bases de datos relacionales. Machine Learning. Programación orientada a objetos.

¿Cuál de las siguientes es una aplicación común de Machine Learning en procesamiento de lenguaje natural?. Detección de tumores en escaneos cerebrales. Resumen automático de documentos largos y creación de chatbots. Clasificación de productos en líneas de ensamblaje.

En el enfoque manual de detección de spam, ¿cuál es el problema principal de escalabilidad?. Las computadoras no tienen memoria suficiente para almacenar el texto. Todas las reglas deben ser programadas a mano, generando un código gigante de if/else difícil de mantener ante nuevas técnicas de spam. Los correos ya no traen la palabra "oferta".

¿Qué se requiere indispensablemente para que el Machine Learning funcione, dado que "aprende de ejemplos"?. Reglas de programación rígidas. Gran cantidad de datos históricos disponibles. Respuestas exactas y libres de incertidumbre estadística.

Al aplicar ML para detección de fraude financiero, el tipo de aprendizaje que suele generar una probabilidad para la clase "es fraude" o "no es fraude" se denomina: Aprendizaje No Supervisado. Regresión. Clasificación (Aprendizaje Supervisado).

Cuando no tienes los datos originales a la mano, pero tu sistema toma decisiones rápidamente gracias a una fórmula aprendida previamente, estás usando: Aprendizaje Basado en Instancias. Aprendizaje Basado en Modelos. Programación por lotes pura.

El algoritmo K-Nearest Neighbors (KNN) es un claro ejemplo de: Aprendizaje Basado en Instancias. Aprendizaje Basado en Modelos. Aprendizaje por Refuerzo.

¿Cuál es el principal desafío del Aprendizaje Supervisado frente al No Supervisado?. Es incapaz de hacer regresiones numéricas. Generar resultados controlables y métricas claras. Requiere conjuntos masivos de datos correctamente etiquetados, lo cual suele ser costoso en tiempo y dinero.

Tu empresa quiere crear un sistema que agrupe a los usuarios de su sitio web en "perfiles de compradores" basándose en el historial de navegación, clics y tiempos de sesión. Nadie sabe cuántos perfiles existen ni cómo se llaman. ¿Qué tipo de Machine Learning necesitas implementar?. Aprendizaje Supervisado (Regresión). Aprendizaje No Supervisado. Aprendizaje por Refuerzo.

Estás construyendo un sistema de recomendación para una plataforma de streaming. Los gustos de los usuarios cambian rápidamente dependiendo de las tendencias diarias de internet. Necesitas que el modelo aprenda incrementalmente con cada click que da el usuario hoy. ¿Qué metodología de aprendizaje en el tiempo es la adecuada?. Batch Learning. Online Learning. Aprendizaje Basado en Instancias Estático.

Según el documento, ¿cuál es el mayor error en un proyecto de Machine Learning?. Elegir el algoritmo matemático equivocado. Asumir que los datos representan la realidad cuando en verdad los datos son el problema principal. Entrenar modelos durante demasiadas horas computacionales.

¿Qué ocurre cuando tenemos "Non-representative Training Set" (Datos no representativos)?. El modelo generaliza perfectamente en cualquier contexto. El modelo asume erróneamente que el mundo real es exactamente igual al sesgo que vio en el entrenamiento. El conjunto de datos es perfectamente aleatorio.

El "Sampling Noise" (Ruido de muestreo) ocurre principalmente debido a: Que los datos están seleccionados intencionalmente con sesgo. Que el conjunto de datos es representativo pero demasiado pequeño, generando que el modelo aprenda patrones producto del azar. Que el modelo tiene demasiada capacidad matemática.

A diferencia del ruido de muestreo, el "Sampling Bias" (Sesgo de muestreo) es un problema de: Falta de capacidad en la computadora. El tamaño diminuto de la base de datos. La forma defectuosa en la que se recolectaron los datos, provocando que ciertos casos tengan más probabilidad de ser elegidos.

¿Qué es un Outlier (Valor Atípico)?. El promedio exacto de todas las observaciones. Un punto de datos que se aleja significativamente del resto y rompe el patrón general del dataset. Una variable que falta en la base de datos.

¿Qué acción inmediata se debe tomar frente a los outliers descubiertos en los datos?. Eliminarlos todos de forma automática para no dañar el promedio. Multiplicarlos por la mediana para suavizarlos. Analizarlos, ya que pueden ser errores de medición que sí se deben limpiar, o eventos infrecuentes pero reales que podrían ser vitales para el objetivo del modelo.

¿Cuál es el concepto central detrás del "Overfitting" (Sobreajuste)?. El modelo es demasiado simple y no aprende los patrones de la realidad. El modelo memoriza el ruido, coincidencias y detalles inútiles del set de entrenamiento, pero falla estrepitosamente al generalizar con datos nuevos. El algoritmo descarta las variables más importantes por accidente.

Si notas que tu modelo tiene un rendimiento del 99% en los datos de entrenamiento, pero solo del 60% en el set de validación/prueba, estás frente a un claro caso de: Underfitting. Optimización perfecta. Overfitting.

¿Cuál de las siguientes es una técnica principal para combatir el Overfitting?. Aplicar regularización para imponer límites al aprendizaje y evitar que el modelo se complique en exceso. Eliminar la mayor cantidad posible de datos de entrenamiento. Entrenar el modelo con ecuaciones y arquitecturas aún más complejas.

Por el contrario, ¿qué caracteriza al "Underfitting" (Subajuste)?. El modelo memoriza los datos a la perfección. El modelo sufre por exceso de datos de calidad. El modelo es demasiado simple y tiene bajo rendimiento tanto en entrenamiento como en datos nuevos porque no captura la relación real.

Un modelo no "razona" ni entiende el contexto; simplemente: Asume que el training data es toda la representación de la realidad y busca patrones ahí. Busca información complementaria en internet si el dataset es pequeño. Comprende implícitamente por qué las personas compran ciertos productos.

En la analogía del estudiante, ¿qué logra el estudiante que "comprende" (Regularización) en comparación con el que memoriza (Overfitting)?. Saca 10 perfecto en las prácticas. Aprende las ideas principales, no se obsesiona con detalles y logra aprobar el examen real. Falla ambos exámenes por falta de variables predictivas.

¿Qué suele ocurrir cuando el modelo confunde "coincidencias" con "patrones reales"?. Se produce Underfitting. Se produce Overfitting. Desaparecen los outliers.

Una forma eficaz de resolver el Underfitting es: Agregar regularización matemática muy estricta. Usar validación cruzada para forzar el sesgo. Dotar al modelo de mayor capacidad (mayor complejidad) y agregar características (features) más predictivas.

Las variaciones aleatorias que no reflejan la realidad debido a la falta de tamaño de la muestra se denominan: Sesgo probabilístico. Underfitting geográfico. Sampling Noise.

¿Qué ocurre estadísticamente con un modelo de regresión simple si dejamos un outlier masivo generado por un error de tipeo en el sistema?. Lo ignorará por ser único. Puede "arrastrar" y desviar completamente el modelo o distorsionar la media matemática. Generalizará la frontera de decisión para clasificar mejor.

Si los patrones aprendidos por el modelo son "producto del AZAR", ¿cuál es la solución principal?. Simplificar las ecuaciones matemáticas del modelo. Aumentar drásticamente el volumen de datos recolectados (aumentar la muestra). Normalizar las variables utilizando el límite superior del modelo.

En el Overfitting, el modelo aprende aspectos que: No son de la realidad, sino particularidades del entrenamiento. Son extremadamente complejos y 100% ciertos para la población general. Representan el promedio simple de las etiquetas provistas.

¿Por qué es crítico solucionar un dataset sesgado (Sampling Bias) desde el principio del ciclo de ML?. Porque es la única forma de habilitar el aprendizaje por lotes (Batch). Porque los datos de entrenamiento provienen de "otro mundo", lo que convierte al modelo bien entrenado en inútil al implementarlo. Porque la validación cruzada consume más memoria RAM si hay sesgos.

¿Qué se prioriza primero al atacar "El verdadero reto" en un proyecto de ML?. Elegir la última red neuronal profunda publicada. Entender exhaustivamente tus datos, su representación y su volumen. Forzar al modelo a tener la mínima capacidad posible.

Tu empresa analiza la propensión de pago de facturas. El ingeniero reporta: "Nuestro algoritmo de predicción es muy sofisticado y nos dio un 95% de precisión entrenando. Pero al ponerlo en vivo, la exactitud bajó al 40%". ¿Qué fenómeno está ocurriendo y qué debes sugerir aplicar?. Ocurre Underfitting. Sugiero hacer el algoritmo aún más complejo. Ocurre Overfitting. Sugiero recolectar más datos diversos y aplicar técnicas de regularización. Ocurre Sampling Noise puro. Sugiero solo cambiar la métrica de medición.

Quieres crear un modelo de ML para identificar qué características tienen las empresas tecnológicas exitosas para aplicar a inversión. Solo recolectas datos históricos financieros de Google, Apple, Microsoft y Amazon. ¿Qué problema crítico de datos tienes aquí?. Outliers (Valores atípicos extremos). Underfitting matemático crónico. Sampling Bias y Datos no representativos.

¿Qué factor es considerado frecuentemente como "lo más importante y costoso" en un proyecto de Machine Learning?. Comprar servidores en la nube. Licenciar los algoritmos estadísticos. La calidad y recolección de los datos.

¿Qué plataforma se describe como una colección colaborativa de miles de datasets útiles para ML, ideal para resolver la falta de datos internos?. SQL Server. Kaggle. C++ Compiler.

En el famoso dataset de California Housing Prices, ¿qué representa cada fila estadística individual?. Una vivienda o casa específica del estado. Una estimación de precios del mercado de 2026. Un "Census Block Group", es decir, un barrio o conjunto de varias manzanas geográficas.

¿Qué es una característica (Feature) en el contexto de Machine Learning usando Scikit-Learn?. La predicción o el número final que intenta adivinar el modelo. La etiqueta histórica de la métrica de evaluación (ej. el RMSE final). Las variables de entrada que el modelo analiza para encontrar los patrones matemáticos.

¿A qué nos referimos con la Variable Objetivo (Target)?. Es el objetivo de negocio de la gerencia de la empresa matriz. Es la predicción que intentamos realizar, la variable de salida (Y). Es la métrica técnica de validación estadística cruzada.

¿Qué función principal desempeña la librería Scikit-learn en Python?. Es un motor gráfico para renderizar videojuegos 3D. Es una librería enfocada exclusivamente en el desarrollo web front-end de plataformas cloud. Es una librería matemática enfocada en tareas clásicas de ML como preprocesamiento, selección de features, entrenamiento de algoritmos y evaluación de métricas.

Según la Guía Estructurada de ML (Checklist), ¿cuál es el Paso 1 obligatorio que previene "construir un modelo a ciegas"?. Frame the Problem (Definir correctamente el problema comercial). Select & Train Models (Seleccionar el algoritmo más veloz). Launch & Monitor (Lanzar directo a la nube).

Si se tiene el dataset de California Housing y el objetivo es estimar el precio en USD futuro, ¿qué tipo de problema técnico de Machine Learning se tiene en las manos?. Aprendizaje No Supervisado - Agrupación Espacial. Aprendizaje Supervisado - Problema de Regresión Múltiple. Aprendizaje Supervisado - Problema de Clasificación Lineal.

Al buscar comparar tu futuro modelo contra el entorno actual de negocio (workarounds o soluciones vigentes), ¿por qué lo hacemos?. Porque es un requisito legal de Scikit-learn. Para asegurar que el modelo se compare contra algo real (procesos manuales, sistemas antiguos en Excel) y validar si la implementación de ML realmente aporta una mejora valiosa al problema de la compañía. Porque no queremos que el modelo supere el 50% de precisión.

"Correctamente" no es una sensación, es un número. A este número evaluativo clave en un pipeline de ML se le llama: Sesgo logístico. Métrica. Factor de Muestreo (Sampling rate).

¿Cuáles son algunas de las métricas clásicas utilizadas específicamente para problemas de Regresión?. Accuracy, Precision, Recall y F1-score. Clustering Coeficient y Davies-Bouldin. RMSE (Root Mean Squared Error), MAE (Mean Absolute Error) y $R^2$.

En la métrica RMSE (Root Mean Squared Error), ¿cuál es su comportamiento característico frente a la dispersión de datos?. Ignora el signo del error manteniéndolo absoluto y tratando todos los errores equitativamente. Promedia los aciertos mediante clasificación binaria, donde un error anula el otro. Castiga matemáticamente mucho más fuerte a los errores grandes o extremos debido a que los errores se elevan al cuadrado.

Por el contrario, ¿qué caracteriza a la métrica MAE (Mean Absolute Error)?. Ofrece una visión del error promedio "honesta" tratando a todos los errores (pequeños y grandes) con la misma ponderación lineal (valor absoluto). Disminuye penalizaciones si hay un comportamiento online en lotes continuos. Solo funciona para variables de clasificación.

Estás evaluando un modelo predictivo para el mercado de Bienes Raíces (Precios de casas), el cual por naturaleza tiene gran presencia de outliers "normales" (mansiones extremadamente costosas). ¿Qué métrica deberías considerar principal para no sesgar drásticamente el error promedio?. MAE (Mean Absolute Error). Accuracy probabilístico. RMSE (Root Mean Squared Error).

Estás gestionando el Machine Learning para un reactor industrial o la dosis de radiación en un paciente (Medicina). Un pequeño error normal no hace nada, pero un "error gigante" en la predicción puede ser letal o sumamente costoso. ¿Qué métrica guiará mejor tu entrenamiento?. MAE (Mean Absolute Error). F1-Score general. RMSE (Root Mean Squared Error).

Si tu predicción $h(x)$ es 30, y el valor real de la etiqueta $y$ es 25, ¿cuál es el "Error Absoluto" de ese registro específico para calcular MAE?. -5. 25. 5.

Si usamos Machine Learning para estimar la "probabilidad de que un cliente abandone la suscripción" (0 o 1) y evaluar qué tanto acierta en separar los que se van de los que se quedan, debemos usar métricas de: Regresión. Modelado Físico Temporal. Clasificación.

En el dataset California Housing, el campo "AveBedrms" es el "Promedio de dormitorios por hogar" en la cuadra. Esto influye en el cálculo predictivo como: La Métrica de penalización final. Un Hyperparámetro Scikit. Una variable predictiva o "Feature".

Completar el proceso lógico de los 3 pasos iniciales comerciales de Frame the Problem: "Entender (la compañía) -> Identificar (qué queremos predecir) -> ____". Codificar el Pipeline Algorítmico Rápido. Definir (el problema correctamente de principio a fin). Contratar a un arquitecto cloud empresarial.

De los conceptos generales mostrados, "Regresión Lineal, XGBoost, etc." pertenecen explícitamente a: El tipo comercial abstracto de problema y su clase de negocio. Plataformas exclusivas de recolección gubernamental de datos (como Data.gov). Los algoritmos específicos y modelos subyacentes que ejecutan un problema del tipo Regresión.

Tienes un pequeño sistema que predice la temperatura ambiente de servidores. En tres horas distintas predijo $h(x)$: [18, 20, 22]. Los sensores reales mostraron $y$: [20, 19, 21]. Usando la fórmula del MAE (Mean Absolute Error), ¿cuál es el resultado del error promedio del modelo?. MAE = 2 grados. MAE = 1 grado. MAE = 4 grados.

Eres el Ingeniero de ML a cargo de optimizar el consumo eléctrico de turbinas industriales. Un error general pequeño es aceptable en la producción, pero un pico de error grande puede causar una sobrecarga de red extremadamente costosa y destruir el equipamiento logístico crítico de la empresa. Al configurar la función de costo de tu modelo en código, ¿qué métrica configuraras como guía de minimización?. F1-Score (Clasificación). MAE (Porque da una lectura neutral). RMSE (Root Mean Squared Error).

Denunciar Test

▲