AA

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

AA

Descripción:
TEST DE AA

Autor:

AMi

OTROS TESTS DEL AUTOR

Fecha de Creación: 2024/02/22

Categoría: Universidad

Número Preguntas: 142

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

¿Cuáles de las siguientes afirmaciones son correctas?. El aprendizaje automático utiliza siempre ejemplos con clases conocidas previamente. El aprendizaje automático sirve únicamente para resolver problemas de predicción numérica. El aprendizaje supervisado busca automáticamente los mecanismos que relacionan una entrada con una salida. B y C son correctas.

En el caso de los progresos de regresión: A. La variable respuesta que se desea predecir es de tipo cualitativa. B. La variable respuesta que se desea predecir es de tipo cuantitativa. C. No siempre existe una variable respuesta. D. Ninguna de las anteriores es correcta.

En los problemas de clasificación: A. La variable respuesta contiene siempre más de dos categorías. B. La variable respuesta contiene siempre dos o más categorías. C. La variable respuesta es de tipo numérico. D. Ninguna de las anteriores es correcta.

En la fase de entrenamiento de los modelos: Se realiza la extracción de características y se utiliza para generar posteriormente una predicción. Se elige que modelo es el mejor. Se aprende un modelo que podrá ser utilizado posteriormente. Ninguna de las anteriores es correcta.

En el aprendizaje automático. A. El conjunto de entrenamiento se utiliza para construir un modelo. B. El conjunto de test se utiliza para evaluar un modelo. C. Si un modelo tiene un error mínimo en el conjunto de entrenamiento también lo tendrá en el conjunto de test. D. Todas las anteriores son correctas.

A la hora de construir los conjuntos de entrenamiento y test: A. Es necesario que no haya diferencias sistemáticas entre uno y otro. B. Es necesario que haya diferencias sistemáticas entre uno y otro. C. Ninguna de las anteriores es correcta.

El método de hold-out: A. Consiste en separar los datos en k particiones distintas. B. Consiste en separar los datos disponibles en entrenamiento y test. C. Ninguno de los anteriores es correcto.

El método k-cross validation: A. Consiste en dividir los datos disponibles k grupos de tamaño variable cada uno de ellos. B. Consiste en dividir los datos disponibles en k grupos del mismo tamaño. C. Ninguna de las anteriores es correcta.

Las técnicas de agrupamiento: A. Se utilizan para agrupar los datos cuando se conoce el valor de las clases. B. Se utilizan para agrupar los datos cuando no se conoce el valor de las clases. C. Se utiliza para clasificar las variables en función de una clase target. D. Ninguna de las anteriores es correcta.

Los algoritmos de detección de anomalías: A. Siempre son algoritmos de detección supervisada. B. Siempre son algoritmos de detección no supervisada. C. Se puede clasificar entre algoritmos de detección supervisada y no supervisada.

En el aprendizaje supervisado: Para cada una de las observaciones puede existir o no una medida de la variable repuesta. Para cada una de las observaciones existe una medida de la variable respuesta.

Con cuáles de los siguientes nombres se conoce a la variable respuesta. Estimador. Variable objetivo. Target. Regressors.

Con cuáles de los siguientes nombres se conocen a las variables predictoras: Inputs. Variables independientes. Modelos. Features.

A la función f(x) ideal se conoce con el nombre de: Función de regresión. Función estimadora. Función perfecta.

La función predictora óptima es aquella: Que se obtiene más rápidamente. Tiene un error cuadrático medio menor. Abarca el mayor número de ejemplos.

El cálculo del error en la función predictora óptima se divide en: Error reducible y error irreducible. El error aleatorio y el error futuro. Ninguna de las anteriores es correcta.

Cuáles de las siguientes métricas se utilizan para evaluar los problemas de regresión: MAE. MSE. RMSE. RMSLE.

El root mean square error (RMSE): Penaliza los errores pequeños. Amplifica y penaliza los errores grandes. Los errores grandes y pequeños se tratan igual.

El root mean square logarithmic error (RMSLE): Penaliza más un under-prediction que un over-prediction. Penaliza más un over-prediction que un under-predcition. Ninguna de las anteriores es correcta.

El coeficiente de determinación permite: Obtener una métrica de la bondad del ajuste. Determinar la varianza en la predicción de los datos. Todas las anteriores son correctas.

Los algoritmos de clasificación tienen como objetivo: Predecir la clase más probable de entre varias posibles. Predecir la distribución de probabilidad de las clases de cada instancia. Predecir un valor numérico como variable objetivo.

Los algoritmos de clasificación tienen como objetivo. Predecir la clase más probable de entre varias posibles. Predecir la distribución de probabilidad de las clases de cada instancia. Predecir un valor numérico como variable objetivo.

Dado dos clasificadores binarios si se equivocan en las clases más probables de las mismas instancias. Son igual de buenos. Si uno tiene una mayor incertidumbre que el otro es peor clasificador. Ninguna de las anteriores.

Cuáles de las siguientes métricas son utilizadas en los modelos de clasificación: Precisión. Recall. MSE. F-measure.

Un matriz de confusión es: Una tabla que organiza las predicciones en función de los valores reales de los datos. Una tabla que tiene las predicciones de los diferentes clasificadores. Una tabla que contiene el valor real y el valor deseado.

La métrica de accuracy: Se conoce como la ratio de éxito. Representa el número de predicciones correctas entre el total de predicciones. Representa el número de falsos detectados. Ninguna de las anteriores es correcta.

Un modelo con gran valor de precisión: Indica que la mayoría de las veces que se predice la clase negativa está en lo cierto. Indica que la mayoría de las veces que se predice la clase positiva está en lo cierto. Las dos anteriores son correctas.

Un modelo con gran valor de recall: Captura un gran porcentaje de ejemplos negativos. Captura un gran porcentaje de ejemplos positivos. Las dos anteriores son correctas.

La métrica F1: Se trata de una forma de calcular el AUC. Combina precisión y recall. Combina sensibilidad y especificidad.

El área bajo la curva (AUC): Es un valor comprendido entre o y 1. Es un valor comprendido entre 0 y 100. Es un porcentaje entre o y 100 %.

La curva ROC mide: La ratio de verdaderos positivos y falsos positivos. La ratio de verdaderos positivos y falsos negativos. La ratio de verdaderos negativos y falsos positivos.

El teorema de Bayes: Fue propuesto por el reverendo Thomas Bayes. Relaciona la probabilidad de dos eventos A y B utilizando la dependencia condicional de uno de ellos. Relaciona la probabilidad de dos eventos A y B utilizando la dependencia condicional de ambos de ellos.

En el teorema de Bayes: Los eventos deben ser dependientes y mutuamente excluyentes. Los eventos deben ser independientes y mutuamente excluyentes. Los eventos deben ser independientes.

Si dos eventos son exhaustivos: Deben ocurrir los dos. Al menos debe ocurrir uno de ellos. Ninguna de las anteriores es correcta.

Dos eventos son mutuamente excluyente: Cuando siempre debe ocurrir el mismo evento. Cuando dos resultados diferentes de un mismo evento no pueden ocurrir al mismo tiempo. Ninguna de las anteriores es correcta.

Las tablas de frecuencias: Indican el número de veces que el evento aparece en cada una de las situaciones. Sirven para medir el éxito del modelo. Son la base para la construcción del modelo Naive Bayes.

Los eventos dependientes: Permiten estimar la presencia de un evento en función del otro. Siempre ocurren a la vez. Implica que la existencia de uno puede conllevar la existencia del otro.

¿Cuáles de las siguientes afirmaciones son ciertas sobre el clasificador de Naive Bayes?. Utiliza datos históricos para obtener la probabilidad observada de cada evento en función de su vector de características. Asume independencia condicional entre los eventos. El cálculo riguroso del teorema de Bayes es computacionalmente costoso.

Cuando existen combinaciones desconocidas en los datos de entrada: Las probabilidades a posteriori obtenidas pueden no tener sentido. El teorema de Bayes utiliza el estimador de Laplace. Se eliminan estas combinaciones de los datos de entrada.

La discretización de variables: Es una técnica que se aplica para utilizar el clasificador Naive Bayes con variables numéricas. Es ideal cuando hay grandes cantidades de datos. Funciona mejor cuando hay pocos datos.

La discretización de variables: Siempre se traduce en reducción de información. Nunca se traduce en reducción de información. Ninguna es correcta.

Los árboles de decisión: Son una técnica nueva para solucionar problemas de clasificación. Son una técnica especifica de los problemas de regresión. Se llevan utilizando durante muchos años en el área de la minería de datos.

Los árboles de decisión: Son métodos simples y difíciles de interpretar. Son métodos complejos y fáciles de interpretar. Son métodos simples y fáciles de interpretar.

Los árboles de decisión: Transforman las variables de entrada utilizando funciones kernel. Dividen el espacio de las variables en una serie de regiones. Ejecutan diversas operaciones modificando las variables de entrada.

Los árboles de decisión: Predicen la moda en el caso de un problema de regresión. Predicen la media en el caso de un problema de regresión. Predicen la moda en el caso de un problema de clasificación. Predicen la moda en el caso de un problema de regresión.

Un árbol de decisión se obtiene: Por medio de un algoritmo que elige primero una variable aleatoria. Por medio de un algoritmo que elige primero aquella variable más predictiva. Por medio de un algoritmo que elige primero aquella variable menos predictiva.

El criterio de parada de la construcción de un árbol de decisión viene dado por: Todos, o casi todos, los ejemplos del nodo son de la misma clase. No existen variables para distinguir entre los ejemplos. El árbol ha alcanzado un tamaño predefinido.

En el caso de la entropía: Un valor de 0 indica desorden completo. Un valor de 1 indica orden completo. Ninguna de las anteriores es correcta.

La poda de los árboles se realiza: Para reducir recursos computacionales. Para evitar el sobre‐ajuste. Para generalizar las predicciones.

En los árboles de decisión para hacer la división: Se puede utilizar el criterio de Gini index. Se puede utilizar el criterio de entropía cruzada. Se puede utilizar el criterio de ganancia de información.

Cuáles de las siguientes afirmaciones son verdaderas: Un árbol de decisión y una regresión lineal pueden modelar problemas de similares. Un árbol de decisión modela bien problemas con dependencia no lineal. Una regresión lineal modela bien problemas con dependencia lineal.

Los métodos de ensembles se pueden dividir en: Average y random methods. Average y boosting methods. Average y gradient methods.

La técnica de bootstrapping: Es una técnica estadística que consiste en obtener una métrica sobre una muestra aleatoria con reemplazamiento. Permite la estimación de la distribución de la muestra de cualquier estadístico. Ninguna de las anteriores es correcta.

En la técnica de bootstrapping: La inferencia de la población se lleva a cabo re‐muestreando los datos de la muestra. Como el valor de la muestra es conocido, la calidad de la inferencia de la muestra verdadera a partir de los datos muestreados es medible. Ninguna de las anteriores es correcta.

El método de bagging: Es una técnica de ensembles que se puede aplicar únicamente a tareas de clasificación. Es una técnica de ensembles que se puede aplicar únicamente a tareas de regresión. Es una técnica de ensembles que se puede utilizar en modelos de clasificación o regresión.

El método bagging: Se puede utilizar sin necesidad de modificar los clasificadores base. Necesita que se modifiquen los algoritmos de los clasificadores base. Agrega las predicciones de varios clasificadores para llevar a cabo una predicción única.

El método bagging: Se utiliza siempre junto con el método boosting. Mejora los modelos por medio de combinarse con el método boosting. Se trata de un método para reducir el overfitting.

En el método boosting: Los modelos se generan de forma secuencial e incremental. Se muestrean los datos de entrada para obtener diversos clasificadores. Se trata de un meta‐algoritmo para reducir sesgo y varianza.

El método de boosting: Combina los clasificadores más potentes para mejorar la precisión. Utiliza una serie de clasificadores débiles. Es incremental donde nuevos modelos mejoran o se mantienen respecto de iteraciones previas.

Cuáles de los siguientes son algoritmos de boosting: TotalBoost. OptimalBoosting. AdaBoost.

El algoritmo original de boosting: Fue propuesto por Freund y Schapire en 1997. Fue propuesto por Freund y Shapire en 1977. Ninguna de las anteriores es correcta.

El método random forests: Se basa en los árboles de decisión y fue inventado en los años 90. Se basa en el método bagging y en los árboles de decisión. Fue inventado en el año 2001 por Leo Breiman.

El método random forests: Combina las técnicas de bagging con la selección de variables aleatorias para incluir diversidad. Es un método de ensemble basado en árboles de decisión. Se basa en los principios de los números aleatorios para realizar las predicciones.

Los modelos de random forests: En los problemas de clasificación predicen utilizando la moda de la clase más probable. En los problemas de regresión predicen utilizando la media de las predicciones de cada árbol. Tanto en los problemas de clasificación como regresión utilizan la mediana de las predicciones.

El motivo de utilizar un gran número de árboles en random forests: Cuantos más árboles mejor funciona la aleatoriedad. Las variables tienen más probabilidades de aparecer en los diferentes cortes. Ninguna de las anteriores es correcta.

En los random forests respecto de los árboles de decisión: La varianza de los árboles se suele incrementar. La varianza de los árboles es el mismo. La varianza de los árboles suele decrecer.

En los random forests respecto de los árboles de decisión. El sesgo de los árboles se suele incrementar. El sesgo de los árboles es el mismo. El sesgo de los árboles suele decrecer.

El out-of-bag error: Consiste en aquellos errores que se quedan fuera de un umbral. Es una forma sencilla de estimar el error en test en un modelo bagged. Está formado por los errores en cada una de las iteraciones.

Un modelo de random forests: Hay que entrenarlo siempre con validación cruzada. Se puede entrenar. Ninguna de las anteriores es correcta.

En cuanto al número de árboles de un modelo de random forests: Cuantos más árboles tenga mejor. Existe un punto óptimo en lo referente al número de árboles. La capacidad predictiva siempre es la misma a partir de 100 árboles.

Los random forests tienen como parámetros: Principalmente el número de árboles y el número de variables aleatorias elegidas en cada corte. Bastantes parámetros que son muy sensibles y afectan a su precisión. Ninguna de las anteriores es correcta.

Cuáles de las siguientes afirmaciones sobre las máquinas de vector de soporte son ciertas: Su objetivo es buscar un plano que separe las clases en feature space. Modifican la definición de separación. Mejoran y enriquecen el feature space original.

Cuáles de las siguientes afirmaciones sobre los hiperplanos son ciertas: Un hiperplano solo se define para 2 dimensiones. En un espacio de 2 dimensiones el hiperplano es una recta. Un hiperplano está definido para n dimensiones.

El vector normal: Puede apuntar a una dirección ortogonal al hiperplano. Debe apuntar a una dirección ortogonal al hiperplano. No requiere ningún tipo de ortogonalidad.

Cuáles de las siguientes afirmaciones son ciertas: Para una serie de datos de entrenamiento de un problema binario existen múltiples hiperplanos posibles. Solo existe un hiperplano posible para cada uno de los conjuntos de datos. Los hiperplanos hay que crearlos únicamente para realizar predicciones.

Indique las afirmaciones ciertas sobre un maximal classifier en una clasificación binaria: Proporciona la mayor diferencia (gap) entre las instancias de cada uno de los ejemplos. Proporciona información sobre cuanto margen de mejora existe. Habitualmente los datos no son fácilmente separables por una recta y el modelo falla.

De las siguientes afirmaciones soft-margin indique cuáles son correctas: Reduce de forma significativa el margen disponible para trabajar. Utiliza desarrollo software para poder ejecutarse. Permite separar puntos que no son linealmente separables.

Cuáles de las siguientes afirmaciones sobre la función de coste son apropiadas: Cuanto más grande es el parámetro de coste mayor es el margen. Cuanto más pequeño sea el parámetro de coste mayor es el margen. La función de coste sirve para determinar el balance coste-beneficio de utilizar un modelo de clasificación.

La expansión en forma de polinomios: Tiene un alto coste computacional. Permite obtener fronteras de decisión no lineales sobre el espacio original. Ninguna de las anteriores es correcta.

Cuáles de las siguientes afirmaciones son una ventaja de los kernels: Permiten utilizar un menor volumen de información. El coste computacional es menor al utilizar kernels. Los kernels permiten obtener fronteras de decisión no lineales.

Cuáles de las siguientes afirmaciones sobre los kernels son ciertas: Se apoyan en el concepto de producto vectorial. Se trata de funciones que reciben dos vectores como parámetro. Se trata de funciones que reducen la información y pueden recibir cualquier parámetro.

Las redes de neuronas artificiales: Se pueden aplicar únicamente a problemas de regresión. Se pueden aplicar únicamente a problemas de clasificación. Se pueden aplicar tanto a problemas de clasificación como de regresión.

Cuáles de las siguientes afirmaciones sobre el número de neuronas son ciertas: El número de neuronas de la capa de entrada viene determinado por el número de variables de entrada. El número de neuronas de salida viene determinado por el número de salidas a modelar. No hay una regla para determinar el número de cada capa.

Según el teorema de aproximación universal de Cybenko: La aproximación de una función matemática depende en gran medida de la semilla utilizada para generar el número aleatorio. Existe una pequeña probabilidad de no poder aproximar una función matemática con una red de neuronas. Ninguna de las anteriores es correcta.

Cuáles de las siguientes afirmaciones sobre la dirección de información son ciertas: Las redes feed-forward tienen bucles que permiten feedback en los datos. Las redes recurrentes siempre tienen un delay que permite modelar la memoria. Ninguna de las anteriores es correcta.

En cuanto a las capas de una red de neuronas: Una red de neuronas multi-capa añade una o más capas ocultas con un número de neuronas variable en cada una. Una red de neuronas multi-capa añade una o más capas ocultas con el mismo número de neuronas en cada una. Están siempre definidas de antemano en todos los problemas.

En una neurona artificial: La salida de cada neurona es obtenida después de aplicar la función de activación. La señal de cada dendrita es ponderada con los pesos de acuerdo a su importancia. Los valores de entrada y de salida siempre son iguales.

La función de activación gaussiana: Da lugar a un modelo de red de base radial. Fue aplicada por Gauss la primera vez. Se puede utilizar únicamente en las neuronas de la primera capa.

La función de activación lineal: Genera en la salida la misma información que la entrada. Da lugar a un modelo de regresión lineal. Se utiliza únicamente en las últimas capas.

En la técnica conocida como descenso de gradiente: Los pesos se modifican siguiendo la dirección que produce una menor reducción del error. Los pesos se modifican siguiendo la dirección que produce una mayor reducción del error. Se utiliza la derivada de la activación de cada neurona para identificar el gradiente.

Cuáles de las siguientes afirmaciones sobre el algoritmo back-propagation son ciertas: Itera en ciclos llamados epochs utilizando tres fases en cada ciclo. Se utiliza para encontrar el valor óptimo de los pesos de una red. Modifica la estructura de la red para realizar el entrenamiento.

En el aprendizaje no supervisado: Puede existir o no información de la variable objetivo. El valor de la variable objetivo se desconoce y se desea agrupar los datos. Se conoce la variable objetivo y se utiliza en estos algoritmos.

Los algoritmos de aprendizaje no supervisado: Buscan patrones en los datos con el objetivo de realizar agrupaciones. Buscan patrones en los datos con el objetivo de predecir una variable. Ninguna de las anteriores es correcta.

La división entre grupos similares, se lleva a cabo: Indicando las características de cada grupo. Utilizando variables de los diferentes grupos, pero sin indicarle las características de los grupos. Agrupando los grupos en función de una variable objetivo.

Los algoritmos de agrupación: Tienen definidos el número de grupos de antemano. Comienzan en un punto y van iterando. Son la base para el aprendizaje supervisado.

Los algoritmos jerárquicos: En cada iteración solo un objeto cambia de grupo. Los grupos están anidados en pasos anteriores. Si un objeto ha sido asignado a un grupo, ya no se vuelve a cambiar.

El algoritmo k-medias: Se trata de un algoritmo iterativo. Utiliza K iteraciones. Se compone de 2 fases, de asignación y re-asignación.

El valor de K: Siempre se elige de forma óptima. Para seleccionarlo se requiere de un cierto balance. Se puede utilizar el criterio de negocio.

En el cluster jerárquico: No se conoce de antemano cuantos grupos son necesarios. Se conoce de antemano cuantos grupos se desean. Se utiliza una representación en árbol llamada dendrograma.

Los algoritmos jerárquicos aglomerativos: Son un método top-down. Son un método bottom-up.

Los algoritmos jerárquicos divisivos: Son un método top-down. Son un método bottom-up.

Los problemas de detección de anomalías: Utilizan únicamente técnicas de aprendizaje supervisado. Utilizan únicamente técnicas de aprendizaje no supervisado. Ninguna de las anteriores es correcta.

En los problemas de detección de anomalías: Partimos de un conjunto de ejemplos distribuido de forma equitativa entre casos normales y anómalos. Partimos de un conjunto de ejemplos que son en su mayoría normales. Partimos de un conjunto de ejemplos distribuido principalmente en observaciones anómalos.

Para detectar una anomalía se utiliza: Un umbral de probabilidad definido en función del nivel de certeza que queremos tener. Un conjunto de test independiente. Ninguna de las anteriores es correcta.

En los problemas de detección de anomalías: Se multiplica la probabilidad de cada una de las variables y asumimos que cada una de ellas se distribuye siguiendo una distribución de Poisson. Se multiplica la probabilidad de cada una de las variables y asumimos que cada una de ellas se distribuye siguiendo una distribución gaussiana. Ninguna de las anteriores es correcta.

¿Qué métrica es apropiada en los sistemas de detección de anomalías?. El área bajo la curva. La métrica f‐measure. Todas las anteriores son correctas.

La principal diferencia de la detección de anomalías respecto al aprendizaje supervisado viene dada por: El número de ejemplos de la clase positiva respecto de la clase negativa. El desbalanceo de clases. El tipo de algoritmos que se utilizan.

La principal diferencia de la detección de anomalías respecto al aprendizaje no supervisado viene dada por: El tipo de algoritmos que se utilizan. El objetivo de cada uno de los algoritmos. Ninguna de las anteriores es correcta.

En el caso de la detección de anomalías: Hay veces en que las anomalías son muy diferentes entre sí y no se puede encontrar un patrón. Las anomalías suelen ser siempre iguales. Ninguna de las anteriores es correcta.

En el aprendizaje supervisado: Tenemos un número razonable de clases positivas y negativas. Esperamos que todas las anomalías se comporten de forma similar. Ninguna de las anteriores es correcta.

En los métodos de detección de anomalías: Automáticamente se detecta la anomalía sin necesidad de fijar ningún parámetro. Es necesario definir un parámetro épsilon de sensibilidad. El parámetro épsilon es opcional.

El aprendizaje por refuerzo: Es un tipo de aprendizaje supervisado. Es un tipo de aprendizaje no supervisado. Ninguna de las anteriores es correcta.

El aprendizaje por refuerzo: Va aprendiendo del feedback obtenido por cada acción. Se utiliza en las situaciones en las que un agente puede observar el entorno. Comprende los algoritmos que son capaces de aprender del entorno.

En un proceso de decisión de Markov: Solo se tienen en cuenta los estados posteriores. Solo se tienen en cuenta el estado previo. Se tienen en cuenta el estado previo y los siguientes.

En el algoritmo Q-learning: Si una acción en un estado es la causante de un resultado no deseado, esta acción no se usará en el futuro. Si una acción en un estado es la causante de un resultado deseado, se aplicará esa acción es ese estado. La mejora del algoritmo Q-learning es porque no es necesario utilizar el estado.

Los parámetros de learning rate y discount rate del algoritmo Q-learning: Es mejor que estén cercanos a 1. Es mejor que estén cercanos a 0. Idealmente deberían estar alejados de los extremos.

La ecuación de Bellman: Actualmente está en desuso. Se utiliza como punto inicial del aprendizaje. Permite definir el valor de forma recursiva.

El algoritmo de aprendizaje por refuerzo de fuerza bruta: Es una forma óptima de solucionar el problema. Explora todas las posibles combinaciones. Es un método costoso.

El algoritmo Q-learning: Únicamente tiene en cuenta las recompensas a largo plazo. El valor Q contiene la suma de todas las posibles recompensas futuras. Tiene en cuenta tanto las recompensas a largo plazo como a corto.

La velocidad de aprendizaje del algoritmo Q-learning: Es un valor entre 0 y 1 que indica cuanto se puede aprender en cada episodio. En el caso de 0 no se aprende nada. En el caso de 1 se borra lo anterior y se aprende de nuevo.

El factor de descuento del algoritmo Q-learning: Es un valor entre 0 y 100 que indica la importancia del largo plazo respecto del corto plazo. Es un valor entre 0 y 1 que indica la importancia del largo plazo respecto del corto. Es un valor entre 0 y 1 que indica la importancia de las instancias.

Los hiperparámetros: Son específicos de cada modelo. Son generales para todos los modelos. Sirven para mejorar solo el conjunto de test.

Los hiperparámetros: Sirven para optimizar los modelos. Su optimización puede generar sobreajuste a los datos de entrenamiento. Su optimización nunca genera sobreajuste pues no modifican los datos de entrenamiento.

El método cartesian grid search: Consiste en una búsqueda aleatoria de los parámetros. Consiste en una búsqueda exhaustiva de los parámetros. Consiste en una búsqueda estocástica de los parámetros.

La optimización de hiperparámetros: Permite controlar el overfitting. Permite controlar el underfitting. Ninguna de las anteriores es correcta.

El método de cartesian grid search: No se puede paralelizar. Se puede paralelizar. Se puede calcular de forma distribuida.

El método de optimización evolutiva: Consiste en ejecutar algoritmos evolutivos para encontrar el mejor conjunto de parámetros. Es una evolución del método cartesiano. Es una evolución del método bayesiano.

Para la mayoría de los conjuntos de datos: Todos los hiperparámetros son relevantes. Solo algunos de los hiperparámetros son relevantes. La relevancia o no de los hiperparámetros depende del volumen de los datos.

El número de modelos necesarios para converger a un óptimo global: Por lo general es siempre el mismo. Puede variar bastante y el criterio de parada lo debe considerar. No es algo que debe ser tenido en cuenta.

Los modelos de procesos gaussianos: Son un método de optimización de hiperparámetros basado en búsqueda cartesiana. Se utilizan para optimizar parámetros de modelos complejos. Son un tipo de automatic sequential optimization.

La búsqueda aleatoria de hiperparámetros: Siempre es suficiente. En algunos modelos complejos puede ser insuficiente. Que sea suficiente o insuficiente depende de los datos de entrenamiento.

Un ingeniero de aprendizaje automático está preparando un dataframe de datos para un problema de aprendizaje supervisado. El ingeniero de ML se da cuenta de que las clases de etiquetas de salida están muy desequilibradas y varias columnas de características contienen valores faltantes. La proporción de valores faltantes en todo el dataframe de datos es inferior al 5 %. ¿Qué debe hacer el ingeniero de ML para minimizar el sesgo debido a valores faltantes?. Reemplazar cada valor que falta por la media o la mediana de los valores que no faltan en la misma fila. Eliminar las observaciones con valores faltantes ya que representan el 5% de los datos. Reemplazar cada valor que falta por la media o la mediana de los valores que no faltan en la misma columna. Para cada característica, calcular los valores que faltan mediante aprendizaje supervisado basado en las otras características.

¿Por qué el clasificador Naive Bayes es llamado ingenuo?. Porque obtiene buenos resultados con pocas instancias de datos. Porque asume igualdad de importancia e independencia entre todas las variables. Porque considera que las características son todas iguales a la clase objetivo. Ninguna de las anteriores es correcta.

Cuál de las siguientes afirmaciones describe el aprendizaje automático. El estudio científico de algoritmos y modelos estadísticos para realizar tareas mediante el uso de inferencia en lugar de instrucciones. La creación de máquinas que pueden realizar tareas de manera autónoma mediante el aprendizaje. La compilación de un gran número de reglas estadísticas que cubre todas las posibles soluciones. Un conjunto de instrucciones que describen cómo lograr un resultado deseado.

Si decimos que la probabilidad de tener cáncer de mama es de 0.15 estamos hablando de: Probabilidad a posteriori. Probabilidad a priori. Probabilidad condicionada. Probabilidad de cáncer dada una condición.

El término varianza de un modelo habla de: Un modelo que cambia constantemente en su ejecución. Un modelo que se entrena varias veces y da resultados diferentes. Cuánto cambia un modelo dependiendo de los datos de entrenamiento utilizados. Construir modelos que no cambien cuando se modifican los datos de entrenamiento.

Bootstrapping significa: Método de remuestreo aleatorio simple. Método estadístico de muestreo con reemplazamiento. Método estadístico para ver cuánto de significativo es un resultado. Método de ensamble de modelos que utiliza datos aleatorios con reemplazo.

Una empresa ha recopilado los comentarios de los clientes sobre sus productos, calificándolos como seguros o inseguros, utilizando árboles de decisión. El conjunto de datos de entrenamiento tiene las siguientes características: identificación, fecha, revisión completa, resumen de revisión completo y una etiqueta binaria segura/no segura. Durante el entrenamiento, se eliminó cualquier muestra de datos con características faltantes. En algunos casos, se descubrió que al conjunto de prueba le faltaba el campo de texto de revisión completo. Para este caso de uso, ¿cuál es la manera más efectiva para abordar las instancias de datos con características faltantes?. Descartar las muestras de test a las que les faltan campos de texto de revisión completos. Copiar los campos de texto de resumen y utilizarlos para completar los campos de texto de revisión completos que faltan. Usar un algoritmo que maneje los datos faltantes mejor que los árboles de decisión. Generar datos sintéticos para completar los campos a los que les faltan datos.

¿Qué puede aprender examinando las estadísticas de sus datos?. Identificación de anomalías en los datos. Verificación de que los datos estén formateados correctamente. Eliminación de valores atípicos. Compleción de datos faltantes.

Está creando una solución de aprendizaje automático para un centro de llamadas. El objetivo del sistema es dirigir a los clientes al departamento apropiado, y hay ocho departamentos posibles. ¿Qué tipo de problema de aprendizaje automático describe esta solución?. Agrupación en clusteres. Clasificación binaria. Clasificación multiclase. Detección de anomalías.

¿Cuál es el propósito de una matriz de confusión?. Trazar las etiquetas del conjunto de datos previsto. Mostrar los verdaderos o falsos positivos, junto con los verdaderos o falsos negativos. Mostrar la correlación entre dos columnas en el conjunto de datos. Estratificar las clases a través de conjuntos de datos de entrenamiento y pruebas.

¿Cuál es el objetivo de un trabajo de ajuste de hiperparámetros?. Optimizar las métricas de validación para el entrenamiento. Optimizar los parámetros del modelo para producir el mejor modelo. Optimizar las entradas de datos para producir la predicción más rápida. Optimizar la elección del algoritmo para producir el mejor modelo.

Denunciar Test

▲