INT. CIENCIA DE DATOS

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

INT. CIENCIA DE DATOS

Descripción:
PREGUNTAS

Autor:

XDXDXD

OTROS TESTS DEL AUTOR

Fecha de Creación: 2023/05/01

Categoría: Ciencia

Número Preguntas: 105

Valoración:

(1)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

Como se llama el método que penaliza la función de error según la complejidad del modelo?. Regularización. Normalización. Penalización.

Como se caracteriza una red neuronal?. Por capaz. Por capaz ocultas. Por redes ocultas. Por redes.

La cienci a de datos vino a desterrar numerosos sesgos de la estadística tradicional?. Verdadero. Falso.

Cual de los siguientes algoritmos de partición admite partición blanda?. K vecinos mas cercanos. K-Medias.

El desarrollo de una aplicación para celular que solo admitía celulares de menos de un año, cual fue el error?. Sesgo de muestreo. Sesgo de confirmación. Falacia de correlación.

Que algoritmo sigue el principio de minimización de riesgo estructural?. Maquinas de vectores de soporte. Validación cruzada. Redes Neuronales. Algoritmos de aprendizaje perezoso.

Para mejorar la productividad de maíz en tres provincias, iban a hacer un algoritmo para estiamar la producción, que muestra se debería usar?. Los productores que iban a participar en el incentivo. El tipo de maíz. Las maquinas.

Cual de los siguientes no es un marcador de rendimiento?. Indice de Rand. Métodos bayesianos. Random forest.

Cual de las siguientes medidas se usa para evaluar la calidad de una partición?. Rand, medida V, Silhouette. K-medias. k-mediodes.

Cuando se detiene el algoritmos k medias?. Cuando no tiene sentido reasignar entidades a grupos. Cuando el algoritmo deja de ser sensible a los valores desviados, ya que el valor medio lo es.

Caso de quitar un subsidio (positivo) o no quitarlo, que es mas importante?. Especifidad, para no sacarle el subsidio al que lo necesita. Identificación, para indentificar el sector correcto que debe mantener el subsidio. Eficacia, para que no se quite el subsidio.

En que se pueden convertir los arboles de decisión?. En reglas de clasificación. En muchas ramas. En muchas opciones que se van dividiendo.

Cual fue el sesgo en el estudio de los baches de las calles?. Que solo detectaba baches en barrios ricos. Que detectaba pequeños problemas y no baches. Que la muestra era muy pequeña.

Métodos deCaso de Obama?. Google flu. Yahoo news!. Google. NASA.

Muestreo?. 70/30. 20/40. 50/50.

Sobre una tasa (algo asi). 0.81. 0.44. 0.21. 0.31.

A que es proporcional el error de muestreo?. Inversamente proporcional a la raíz cuadrada del tamaño de la muestra. Directamente proporcional a la raíz cuadrada del tamaño de la muestra. Directamente proporcional a la raíz cúbica del tamaño de la muestra. Inversamente proporcional a la raíz cúbica del tamaño de la muestra.

Que palabras clasificaban a un economista según un estudio?. Homosexual, macroeconomía, director y supervisor. -.

Tabla de 3x3 con datos y pregunta. 3 mil y algo. -.

Modelos descriptivos?. Representaciones de la realidad que capturan relaciones o estructuras ocultas dentro de un conjunto de datos, permiten organizarlos o resumirlos. -.

Modelos predictivos?. Permiten anticipar o estimar valores desconocidos a partir de aquellos que si se conocen. -.

Crear y validar estos modelos?. Se clasifican en tareas descriptivas y tareas predictivas. -.

Aprendizaje automático?. Los algoritmos aprenden a partir de ciertos datos y refinan resultados mediante un ajuste de ciertos parámetros. -.

Aprendizaje supervisado?. El algoritmo aprende por medios de ejemplos . Debe ser capaz a partir de ciertos datos de entrada generar los datos de salida. -.

Aprendizaje no supervisado? produce po r observación. Se produce por observación. -.

Clustering?. Agrupamiento, datos muy similares entre sí y grupos muy distintos entre sí. -.

Proceso de agrupamiento?. Matriz de datos y matriz de similitud. -.

Matriz de datos?. El input es una base de datos, dado que la base consta de n registros caracterizados por m variables se dice que la matriz es de DOS MODOS. -.

Matriz de similitud?. Se le da al algoritmo de agrupamiento es una matriz de similaridad, donde cada posición de la matriz indica la semejanza entre la entidad de la fila y columna. Dado un co njunto de n entidades, la matriz es de UN MODO. -.

Manera segura de elegir grupos?. Condiciones del problema, objetivos del análisis y conocimiento de dominio experto. -.

Parámetros de comparación?. Métodos de agrupamiento y modelos que caracterizan las propiedades de los clústeres. -.

índice de Rand?. Evalúa la similaridad entre los clústeres usando dos criterios diferentes. Mide el grado de homogeneidad y complitud que tiene el resultado de un proceso de agrupami ento.

Medida de V?. Mide el grado de homogeneidad y complitud que tiene el resultado de un proceso de agrupamiento. Evalúa la similaridad entre los clústeres usando dos criterios diferentes.

Coeficiente de Silhouette?. Mide de forma final los grupos obtenido. Evalúa la similaridad entre los clústeres usando dos criterios diferentes.

Medición de similiaridad?. Es necesario indicarle si dos entidades se parecen mucho o nada. Para esto se definen parámetros cuantitativos , que asignan una clasificación numérica al parecido de dos o mas entidades. Es necesario indicarle si dos entidades se parecen mucho o nada. Para esto se definen parámetros cualitativos, que asignan una clasificación numérica al parecido de dos o mas entidades.

Selección de parámetros?. Para medir la distancia depende de las características del problema , es el tipo de variable. En efecto las variables cuantitativas y cualitativas requieren de distintos parámetros. Para medir la distancia depende de las características del problema , es el tipo de variable. En efecto las variables cuantitativas y cualitativas requieren de los mismos parámetros.

Variables cuantitativas? Están asociadas a la distancia Formula?. Distancia euclídea: D(r1,r2): √√(x1 x2)²+(y1 y2 )². -.

Variables cualitativas?. No pueden ser representada ni en una recta, plano ni en el espacio. Hay que distinguir entre variables nominales y ordinales. Definir la Disimilaridad. D(A,B): P m/P. -.

Algoritmos de partición?. Dividen un conjunto de k grupos, donde k tiene que ser menor que n. -.

Algoritmos Jerárquicos?. Genera grupos anidados a partir de una descomposición jerárquicas. Pueden ser aglomerativos o decisivos. -.

Algoritmos Aglomerativos?. Algoritmos Aglomerativos? Parten de las entidades aisladas que comienzan a agrupar en pequeños clústeres, de entidades parecidas entre sí. Hace cumplir cierto criterio. Mientras más entidades se agreguen, la semejanza entre ella se reduce. -.

Algoritmos decisivos?. Parten de un único clúster formado por todas las entidades que dividen en grupos mas pequeños hasta llegar a la entidad aislada, o que se cumpla cierto criterio. -.

Dendograma?. Es un árbol invertido, muestra como se forma los clústeres en distintas escalas de agregación. -.

Vinculación simple?. El proceso se termina cuando las distancia entre los dos clústeres mas cercanos superan cierto umbral. -.

Algoritmos basados en densidad?. Hace crecer grupos a partir de la densidad de entidades alrededor de una cierta región. Son algoritmos glotones, eligen algún punto al azar y empiezan a adicionar entidades vecinas. -.

Algoritmos tipo grilla?. Se centran en un espacio tridimensional y lo dividen en cubos pequeños. Después aplican algoritmos de agrupamiento. -.

Algoritmos basados en modelos?. Proponen como hipótesis algún modelo descriptivo y luego generan grupos que se aproximan lo máximo posible al modelo de trabajo. -.

Algoritmos de partición dura?. (kmedias) una entidad solo puede pertenecer a un único clúster. -.

Algoritmos de partición blanda?. Se asigna a cada entidad una probabilidad de pertenecer a cierto grupo. -.

Selección de algoritmo?. Tener en cuenta: volumen de datos, numero de variables, forma esperada, conocimientos heurísticos, análisis de vínculos. -.

Algoritmo K medias?. Busca minimizar la suma de todas las inercias correspondiente a todos los grupos que forman la partición. -.

Centroides?. Separación de las entidades en grupos al asignar un conjunto de grupos centrales. Cada entidad se asigna al grupo cuyo centroide tenga la menor distancia. -.

Inercia?. Error cuadrático dentro de cada clúster. -.

Aprendizaje automático ?. Supervisado y no supervisado. -.

Predicción numérica?. Cuando la variable en cuantitativa continua o regresión. -.

Hiperparametros?. Determina la complejidad del modelo y divide a cada tipo de modelo en subfamilias. -.

Parámetros?. Ajustados por el algoritmo. -.

Exactitud?. Medida basada en el rendimiento del modelo de clasificación o regresión. -.

Matriz de confusión?. Desagrega la exactitud al analizar las posibles predicciones y compararlas con los resultados reales. -.

Arboles de decisión?. Método de aprendizaje automático. Es una estructura Jerárquica formada por nodos y ramas que se bifurcan. -.

Nodos?. INTERNOS - Representan la prueba o testeo de atr ibutos y variables sobre un conjunto de entidades. TERMINALES - Cierran las ramas y contiene la etiquete de clase que el árbol de decisión predice para esa clase. Ambas son correctas.

Nodo raíz?. Evalúa el valor de una variable dada para todo conjunto inicial de datos. De ellos bifurcan cada uno de los valores de esas variables. -.

Clasi ficación Bayesiana?. Modelo estadístico, suministra probabilidades de pertenencia a distintas clases. Probabilidad de dos eventos, la probabilidad de uno de ellos si a ocurrido el otro. -.

Clasificación Bayesiana ingenua?. Asume que el efecto de una variable sobre la clase es independiente del efecto que las demás variables tengan sobre ella (independencia condicional de clase). -.

Modelo de redes Bayesianas?. Son una forma grafica de representar las dependencias cruzadas entre distintas variables y modelos, relaciones de causalidad. -.

Reglas de clasificación?. Se presentan bajo las condiciones (si entonces) si se cumplen un conjunto de condiciones (antecedente) se da un cierto resultado o consecuencia. -.

Cobertura de la regla?. Numero de entidades cubiertas, divididas por el numero total de entidades de la muestra. -.

Exactitud de la regla?. Se mide como el cociente entre el numero de asignaciones correctas y el número de entidades cubiertas. -.

Reglas de clasificación?. Arboles de decisión, algoritmo secuencial. -.

Redes neuronales?. Unidades conectadas de entrada y salida. Aprendizaje conexionista. -.

Retroprogacion?. Utiliza el tipo de red multicapa proalimentada. Contiene una capa de entrada, al menos una oculta, y una capa de salida. -.

Maquinas de vectores de soporte?. Clasificar datos: lineales y no lineales. -.

Principio de minimización de riesgo?. Reducir lo máximo posible el error generado sobre los datos de entrenamiento. -.

SVM?. Suport vector machine, minimización de riesgo estructural. -.

Sobreajuste?. El modelo tiene demasiada exactitud con la muestra de entrenamiento, pero muy baja con la prueba. -.

Algoritmos de aprendizaje perezoso?. En una determinada muestra de aprendizaje el algoritmo la almacena y espera a recibir la muestra de prueba. Solo entonces realiza algún tipo de proceso de abstracción o generalización. -.

Aprendizaje basado en instancias?. Almacenan entidades de entrenamiento en lugar de modelos ya terminados (KVECINOS MAS CERCANOS, KNEAREST NEIGHBOURNS). -.

Métodos de conjunto?. Buscan generar un modelo de mayor calidad al combinar otros. -.

Métodos de promediado?. Construyen varios modelos independientes en paralelo y luego promedian las predicciones. -.

Random Forest? . Técnica que combina distintos arboles de decisión generados a partir de combinaciones de variables y genera un modelo combinado a partir de alguna técnica de agregación. -.

Métodos de impulso?. Construyen varios modelos de manera secuencial y cada modelo tiene un cierto peso en función de su tasa de éxito. -.

Métodos de regresión?. Lineal o no lineal. -.

Métodos de regresión?. Encontrar un modelo que represente el comportamiento de un conjunto de datos y seleccionar sus parámetros específicos para que el modelo final represente lo mejor posible el comportamiento indicado. -.

Selección de algoritmo?. Exactitud, accionabilidad, tipo de variable, velocidad, robustez y escalabilidad. -.

Variables multicomicas?. ID3, C4.5. -.

ID3?. Ganancia de información. -.

Variables dicotómicas?. CART. -.

C4.5?. Cociente de ganancias. -.

índice de Ginni?. CART. -.

Dilema sesgo varianza?. Tensión entre complejidad y exactitud. Si el modelo es demasiado complejo sobre ajusta, pero si es demasiado simple comete errores. -.

Dimensionalidad?. Números de variables de un problema. -.

Proyección y reducción?. Minimizan el numero de variables redundantes. -.

Aprendizaje profundo?. Esta basado en el uso de redes neuronales con varias capas ocultas. -.

Rendimiento?. Asociado a la exactitud. -.

Evaluación de un modelo?. Depende si la variable es cuantitativa o cualitativa. -.

Matriz de confusión?. Tabla de frecuencias de aciertos y desaciertos del modelo. -.

Error?. Falso positivo, falso negativo. -.

Sensibilidad?. Si el modelo da muy pocos falsos negativos resulto muy sensible, ya que detecta casi todos los casos positivos que se le presentan. -.

Especificidad?. Mide la probabilidad de que arroje falsos positivos. Tiene especificidad cuando tiene muy baja probabilidad de falsos positivos. -.

Error de generalización?. Asociado con las predicciones del modelo fuera de la muestra. -.

Muestreo estratificado?. Cuidan que la selección se realice al azar,pero dentro de subconjuntos homogéneos. -.

Falacia de correlación?. Afirmar que dos variables mantienen una relación de causalidad (causa/efecto) cuando hay una elevada correlación entre ellas. -.

CRISPDM?. Equivale a la etapa de diseminación y consolidación del conocimiento. -.

Objetivos de un proyecto?. Viabilidad técnica, ética y material. -.

Datos a recopilar?. Pasivos y activos. -.

Denunciar Test

▲