option
Cuestiones
ayuda
daypo
buscar.php

Preguntas exámenes anteriores TAA

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Preguntas exámenes anteriores TAA

Descripción:
Preguntas exámenes anteriores TAA

Fecha de Creación: 2026/02/23

Categoría: Otros

Número Preguntas: 35

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

Un científico de datos utiliza la un modelo de SVM para crear un modelo de detección de fraude. El modelo tiene una exactitud del 99%, pero no detecta el 85% de los casos de fraude. ¿Qué puede estar pasando?. El conjunto de datos está muy desbalanceado y existen más instancias de transacciones no fraudulentas que fraudulentas, por eso una exactitud tan alta. Un valor de exactitud del 99% es muy improbable, debe revisarse la forma en que se calcula está métrica. Debe existir un error en las instancias categorizadas como fraudulentas, si la exactitud es alta debería detectarlas. Debe existir un error en las instancias categorizadas como no fraudulentas.

Se tiene un conjunto de datos médicos de registro de signos vitales de pacientes de un servicio de UCI adulto: presión arterial, frecuencia cardiaca, temperatura y frecuencia respiratoria. En este conjunto de datos existe un 5% de datos faltantes en la presión arterial y en la frecuencia respiratoria. ¿Cuál sería la mejor estrategia para trabajar con los datos faltantes?. Eliminarlos. Reemplazarlos por el promedio de todos los los valores de presión arterial y frecuencia respiratoria.. Reemplazarlos por la moda de todos los valores de presión arterial y frecuencia respiratoria. Reemplazar el valor faltante de presión arterial y frecuencia respiratoria por una medición anterior del mismo paciente.

Cuál de las siguientes afirmaciones describe el aprendizaje automático. El estudio científico de algoritmos y modelos estadísticos para realizar tareas mediante el uso de inferencia en lugar de instrucciones. La creación de máquinas que pueden realizar tareas de manera autónoma mediante el aprendizaje. La compilación de un gran número de reglas estadísticas que cubre todas las posibles soluciones. Un conjunto de instrucciones que describen cómo lograr un resultado deseado.

En cada iteración de AdaBoost, la penalización por clasificación errónea para una observación de entrenamiento en particular aumenta pasando de la ronda t a la ronda t + 1 si la observación fue: A = Clasificada incorrectamente por el modelo débil entrenado en la ronda t. B = Clasificada incorrectamente por el conjunto completo entrenado hasta la ronda t. C = Clasificada incorrectamente por la mayoría de los modelos débiles entrenados hasta la ronda t. B y C son correctas.

El kernel lineal es la única opción eficaz en SVM para manejar conjuntos de datos no linealmente separables. Falso. SVM con kernels no lineales, como el polinómico o el radial, son opciones efectivas para manejar conjuntos de datos no linealmente separables. Verdadero. Las funciones de kernel lineal en SVM, a pesar de su aparente simplicidad, demuestran ser eficaces en escenarios donde la relación entre las características no es lineal. Falso. El kernel lineal realiza una transformación en los datos de entrada para trabajar con datos complejos y con relaciones no lineales. Verdadero. Las funciones de kernel lineal en Máquinas de Soporte Vectorial (SVM) ofrecen simplicidad y eficiencia computacional al proporcionar una solución elegante para conjuntos de datos no linealmente separables.

¿Cuál de las siguientes métricas MAE, MSE o RMSE de los modelos de regresión es más robusta a los valores anómalos?. La métrica más robusta es el MAE ya que El MAE penaliza de manera significativa los errores grandes en las predicciones, asignando un peso proporcional al cuadrado de la diferencia entre la predicción y el valor real. Las métricas más robustas son MSE o RMSE dado que no se ven afectadas por los valores extremos debido al término del cuadrado. La métrica más robusta es el MAE dado que se calcula tomando el promedio de las diferencias absolutas de las predicciones y los valores reales. El RMSE siempre produce un valor más pequeño que MAE, lo que demuestra que es una métrica más precisa y robusta en todos los casos de evaluación de modelos de regresión.

¿Por qué el clasificador Naive Bayes es llamado ingenuo?. Porque obtiene buenos resultados con pocas instancias de datos. Porque asume igualdad de importancia e independencia entre todas las variables. Porque considera que las características son todas iguales a la clase objetivo. Ninguna de las anteriores es correcta.

Un científico de datos está utilizando Máquinas de Vectores de Soporte (SVM) para un problema de clasificación binaria. Después de entrenar el modelo, observa que hay un pequeño margen de separación entre las clases y sospecha que el modelo podría beneficiarse de una transformación no lineal de las características. ¿Qué técnica sería más apropiada para introducir no linealidades en el espacio de características y mejorar la capacidad del SVM para clasificar datos más complejos?. Ajustar el parámetro de regularización (C). Utilizar la función de kernel. Incrementar la dimensión del espacio de características. Reducir el ruido en los datos de entrenamiento.

Un científico de datos está desarrollando un modelo de clasificación utilizando Naïve Bayes para predecir si un correo electrónico es spam o no spam. Ha calculado la tabla de verosimilitud para dos palabras clave: "oferta" y "urgente". Los resultados se presentan a continuación: oferta urgente Sí No Sí No spam 4/20 16/20 10/20 10/20 No spam 1/80 79/80 1/80 79/80 Basándose en esta información y haciendo uso de la fórmula de la probabilidad a posteriori: P(A|B)=P(A)·P(B|A)/P(B). ¿Cuál es la probabilidad a posteriori de que un correo electrónico sea spam dado que contiene la palabra clave "urgente"?. 0.12. 3.63. 4.65. 0.9.

El Out-of-Bag (OOB) error es una métrica utilizada en el método de Bagging que permite: Evaluar el rendimiento de un modelo en el conjunto de datos de entrenamiento, utilizando la técnica de validación cruzada. Medir la varianza del modelo mediante la generación de múltiples conjuntos de entrenamiento a partir de reemplazos aleatorios del conjunto de datos original. Estimar la precisión de un modelo en el conjunto de prueba, utilizando únicamente las muestras que no se utilizaron en el proceso de entrenamiento. Reducir el sesgo en la estimación de un modelo mediante la agregación de múltiples clasificadores débiles.

Si usted está entrenando un modelo con un conjunto de datos médicos para diagnóstico de una enfermedad rara. ¿Qué métricas de validación del modelo debería compartir para que los especialistas puedan concluir que es un buen modelo?. Presentar los valores de verdaderos positivos y verdaderos negativos. Mostrar la matriz de confusión. Calcular y explicar los resultados de exactitud, sensibilidad y especificidad. Mostrar el resultado de especificidad ya que mide la tasa de casos negativos clasificados correctamente.

Señale la afirmación falsa sobre el aprendizaje automático: Existe un solo algoritmo de aprendizaje automático que se puede adaptar a cualquier circunstancia. El aprendizaje automático es una de las áreas de la inteligencia artificial. El aprendizaje profundo es un área del aprendizaje automático. Aprendizaje automático y machine learning hacen referencia a lo mismo.

Dispone de un conjunto de datos históricos del precio de venta de 10.000 viviendas y las 10 características más importantes resultantes del análisis de componentes principales. Debe desarrollar un modelo que prediga si una casa se venderá en uno de los siguientes rangos de precios igualmente distribuidos: 200-300k, 300-400k, 400-500k, 500-600k o 600-700k. Desea utilizar el enfoque algorítmico y evaluativo más simple. ¿Qué debe hacer?. Definir una tarea de clasificación uno contra uno donde cada rango de precio es una etiqueta categórica. Utilizar la puntuación F1 como métrica de evaluación. Definir una tarea de clasificación de varias clases en la que cada rango de precios sea una etiqueta categórica. Utilizar la precisión como métrica de evaluación. Definir una tarea de regresión donde la etiqueta sea el precio de venta representado como un número entero. Utilizar el error absoluto medio como métrica. Definir una tarea de regresión donde la etiqueta sea el promedio del rango de precios que corresponde al precio de venta de la casa representado como un número entero. Utilizar el error cuadrático medio de la raíz como la métrica.

Un científico de datos está desarrollando un modelo de clasificación utilizando Naïve Bayes para predecir si un correo electrónico es spam o no spam. Ha calculado la tabla de verosimilitud para dos palabras clave: "oferta" y "urgente". Los resultados se presentan a continuación: oferta urgente Sí No Sí No spam 4/20 16/20 10/20 10/20 No spam 1/80 79/80 1/80 79/80 Basándose en esta información y haciendo uso de la fórmula de la probabilidad a posteriori: P(A|B)=P(A)·P(B|A)/P(B). Responda la siguiente pregunta: ¿Cuál es la probabilidad a posteriori de que un correo electrónico sea spam dado que contiene ambas palabras clave "oferta" y "urgente"?. 0.12. 3.63. 4.65. 0.48.

¿Cuál de las siguientes visualizaciones es más adecuada para evaluar los errores en un modelo de regresión?. Gráfico de barras de frecuencia de errores absolutos. Gráfico de dispersión de residuos vs. valores predichos. Gráfico de línea de errores relativos vs. iteraciones de entrenamiento. Gráfico de pastel de errores cuadráticos medios.

Un científico de datos está trabajando en un problema de clasificación utilizando un modelo de Random Forest. Observa que su modelo tiene un rendimiento excepcionalmente alto en el conjunto de entrenamiento, pero cuando evalúa el modelo en un conjunto de prueba, nota una disminución significativa en la precisión. ¿Cuál de las siguientes estrategias podría ayudar a mejorar la generalización del modelo de Random Forest?. Aumentar el número de árboles en el bosque. Reducir la cantidad de datos de entrenamiento. Aumentar la profundidad máxima de cada árbol. Utilizar un conjunto de características más pequeño.

El término varianza de un modelo habla de: Un modelo que cambia constantemente en su ejecución. Un modelo que se entrena varias veces y da resultados diferentes. Cuánto cambia un modelo dependiendo de los datos de entrenamiento utilizados. Construir modelos que no cambien cuando se modifican los datos de entrenamiento.

Un científico de datos está trabajando en la evaluación de varios modelos de clasificación binaria para una tarea empresarial crítica. La empresa valora más la identificación correcta de casos positivos que la identificación de casos negativos, y se establece que un resultado falso positivo es 8 veces más costoso que un resultado falso negativo. Enumere dos métricas de evaluación de modelos que podrían ser relevantes, teniendo en cuenta que la tasa de falsos positivos debe ser máximo del 8 % y la proporción de casos positivos reales identificados por el algoritmo debe ser superior al 80%. Sensibilidad y tasa de falsos positivos. Especificidad y tasa de verdaderos positivos. Exactitud y tasa de falsos positivos. Especificidad y tasa de falsos positivos.

Bootstrapping significa: Método de remuestreo aleatorio simple. Método estadístico de muestreo con reemplazamiento. Método estadístico para ver cuánto de significativo es un resultado. Método de ensamble de modelos que utiliza datos aleatorios con reemplazo.

Está creando una solución de aprendizaje automático para un centro de llamadas. El objetivo del sistema es dirigir a los clientes al departamento apropiado, y hay ocho departamentos posibles. ¿Qué tipo de problema de aprendizaje automático describe esta solución?. Agrupación en clusteres. Clasificación binaria. Clasificación multiclase. Detección de anomalías.

¿Qué indica un coeficiente de regresión negativo en un modelo lineal?. La variable predictora tiene un efecto negativo en la variable de respuesta. No hay relación entre la variable predictora y la variable de respuesta. La variable predictora tiene un efecto positivo en la variable de respuesta. El modelo no es adecuado para hacer predicciones.

Una empresa ha recopilado los comentarios de los clientes sobre sus productos, calificándolos como seguros o inseguros, utilizando árboles de decisión. El conjunto de datos de entrenamiento tiene las siguientes características: identificación, fecha, revisión completa, resumen de revisión completo y una etiqueta binaria segura/no segura. Durante el entrenamiento, se eliminó cualquier muestra de datos con características faltantes. En algunos casos, se descubrió que al conjunto de prueba le faltaba el campo de texto de revisión completo. Para este caso de uso, ¿cuál es la manera más efectiva para abordar las instancias de datos con características faltantes?. Descartar las muestras de test a las que les faltan campos de texto de revisión completos. Copiar los campos de texto de resumen y utilizarlos para completar los campos de texto de revisión completos que faltan. Usar un algoritmo que maneje los datos faltantes mejor que los árboles de decisión. Generar datos sintéticos para completar los campos a los que les faltan datos.

Si la probabilidad de pertenencia de una instancia es de 0,55 para la clase 1 y de 0,45 para la clase 2. Se puede afirmar que: El límite de pertenencia a la clase 1 y a la clase 2 están muy cercanos, pero pertenece a la clase 1. Pertenece a la clase 2. Pertenece a la clase 1 y a la clase 2. No debería clasificarse la instancia.

¿Qué puede aprender examinando las estadísticas de sus datos?. Identificación de anomalías en los datos. Verificación de que los datos estén formateados correctamente. Eliminación de valores atípicos. Compleción de datos faltantes.

Un científico de datos está utilizando árboles de decisión para clasificar clientes en dos categorías: "Comprador" y "No Comprador". Durante el proceso de construcción del árbol, elige la variable "Ingresos Anuales" como la primera característica para dividir los datos. Sin embargo, nota que el árbol resultante tiene muchas divisiones, algunas de las cuales parecen específicas para casos excepcionales en el conjunto de entrenamiento.¿Cuál de las siguientes acciones sería una estrategia efectiva para abordar el sobreajuste en este árbol de decisión?. Incrementar la profundidad máxima del árbol. Utilizar un conjunto de datos de entrenamiento más pequeño. Aplicar la poda del árbol (pruning). Aumentar la tasa de aprendizaje.

Cuál de las siguientes afirmaciones sobre el parámetro de regularización C en SVM es falsa. El parámetro de regularización C en SVM controla el equilibrio entre maximizar el margen y minimizar el error de clasificación en los datos de entrenamiento. Un valor más pequeño de C conduce a un margen más amplio, pero puede dar lugar a más errores de entrenamiento permitidos por el modelo. Un valor mayor de C da como resultado un margen más estrecho, pero reduce la cantidad de errores de entrenamiento tolerados por el modelo, lo que podría provocar un sobreajuste de los datos de entrenamiento. Aumentar el valor de C en SVM siempre mejora el rendimiento del modelo en datos no vistos.

¿Qué representa el intercepto en un modelo de regresión lineal?. El valor esperado de la variable de respuesta cuando todas las variables predictoras son cero. La pendiente de la línea de regresión. La suma de los cuadrados de los residuos. La varianza explicada por el modelo.

¿Cuál es la principal característica del método de hold-out en el contexto de validación de modelos en machine learning?. Consiste en dividir los datos en k particiones para realizar múltiples iteraciones de entrenamiento y evaluación. Consiste en separar los datos disponibles en dos conjuntos: uno para entrenamiento y otro para test. Se utiliza para realizar ajustes continuos de los hiperparámetros del modelo durante la fase de entrenamiento. Es exclusivamente aplicable a problemas de clasificación y no a problemas de regresión.

¿Cuál es el propósito de una matriz de confusión?. Trazar las etiquetas del conjunto de datos previsto. Mostrar los verdaderos o falsos positivos, junto con los verdaderos o falsos negativos. Mostrar la correlación entre dos columnas en el conjunto de datos. Estratificar las clases a través de conjuntos de datos de entrenamiento y pruebas.

¿Cuál es el objetivo de un trabajo de ajuste de hiperparámetros?. Optimizar las métricas de validación para el entrenamiento. Optimizar los parámetros del modelo para producir el mejor modelo. Optimizar las entradas de datos para producir la predicción más rápida. Optimizar la elección del algoritmo para producir el mejor modelo.

Un ingeniero de aprendizaje automático está preparando un dataframe de datos para un problema de aprendizaje supervisado. El ingeniero de ML se da cuenta de que las clases de etiquetas de salida están muy desequilibradas y varias columnas de características contienen valores faltantes. La proporción de valores faltantes en todo el dataframe de datos es inferior al 5 %. ¿Qué debe hacer el ingeniero de ML para minimizar el sesgo debido a valores faltantes?. Reemplazar cada valor que falta por la media o la mediana de los valores que no faltan en la misma fila. Eliminar las observaciones con valores faltantes ya que representan el 5% de los datos. Reemplazar cada valor que falta por la media o la mediana de los valores que no faltan en la misma columna. Para cada característica, calcular los valores que faltan mediante aprendizaje supervisado basado en las otras características.

La matriz de gráficos de dispersión facilita: Graficar tres atributos o variables en un mismo gráfico. Emparejar datos numéricos y saber si una variable afecta a la otra. La comparación de las variables en una sola pantalla e identificar dependencias. En un espacio pequeño asociar múltiples variables.

¿Cuál de las siguientes afirmaciones describe incorrectamente el índice Gini en árboles de decisión?. El índice Gini mide la impureza de un conjunto de datos, donde un valor más alto indica una mayor impureza y una mezcla más desigual de clases. El índice Gini se utiliza para seleccionar la mejor división en un nodo de un árbol de decisión, buscando minimizar la impureza en los nodos hijos. El índice Gini asigna un valor de 0 cuando todos los ejemplos en un nodo pertenecen a la misma clase, lo que indica una pureza máxima. El índice Gini es una medida de la ganancia de información, utilizada para determinar qué característica proporciona la mayor separación entre las clases objetivo en un conjunto de datos.

Usted ha desarrollado un modelo para una tarea de clasificación donde la clase minoritaria aparece en el 10% del conjunto de datos. Ejecutó el entrenamiento en el conjunto de datos desequilibrado original y verificó el rendimiento del modelo resultante. La matriz de confusión indica que el modelo no aprendió la clase minoritaria. Usted desea mejorar el rendimiento del modelo mientras minimiza el tiempo de ejecución y mantiene las predicciones calibradas. ¿Qué debería hacer?. Actualizar los pesos de la función de clasificación para penalizar clasificaciones erróneas de la clase minoritaria. Ajuste el umbral de clasificación y calibre el modelo con una regresión en el conjunto de validación, de modo que la línea ajustada no sea decreciente en todas partes y se encuentre lo más cerca posible de las observaciones. Realice un muestreo ascendente de la clase minoritaria en el conjunto de entrenamiento y actualice el peso de la clase muestreada ascendentemente con el mismo factor de muestreo. Reduzca la muestra de la clase mayoritaria en el conjunto de entrenamiento y actualice el peso de la clase reducida por el mismo factor de muestreo.

Si decimos que la probabilidad de tener cáncer de mama es de 0.15 estamos hablando de: Probabilidad a posteriori. Probabilidad a priori. Probabilidad condicionada. Probabilidad de cáncer dada una condición.

Denunciar Test