option
Cuestiones
ayuda
daypo
buscar.php

Evaluación Final Maestría Data Science IMF_UHE

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Evaluación Final Maestría Data Science IMF_UHE

Descripción:
Evaluación Final Maestría Data Science IMF_UHE

Fecha de Creación: 2024/08/12

Categoría: Otros

Número Preguntas: 100

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

En Python, trabajando con listas, si realizamos my_list.index(n a buscar) y el número a buscar no se encuentra en la lista ¿qué sucede?. Devuelve error. Devuelve cero. Devuelve toda la lista. No devuelve nada.

¿Qué ocurre si realizamos type(‘8.0’)?. Devolverá str. Devolverá int. Devolverá null. Devolverá float.

¿Qué devuelve la operación “5//8”?. 0. 40. 390625. 13.

Para acceder a todos los elementos valor de un diccionario de datos ¿qué función utilizamos?. dict.values(). dict.key(). dict.keys(). dict.values().

¿Qué devolverá 'es' in 'hola'?. False. True. None. Null.

Para acceder a todos los elementos clave de un diccionario de datos ¿qué función deberá utilizarse?. dict.keys(). dict.values(). dict.value(). dict.key().

¿Se puede crear una función que no reciba ningún parámetro de entrada y tampoco devuelva ningún parámetro de salida?. Sí, siempre. No, todas las funciones deben tener un parámetro return. No, puede no recibir parámetros de entrada, pero siempre debe finalizar con return. Siempre debe recibir al menos, un parámetro de entrada.

¿Qué realiza la siguiente operación print('-' * 20)?. Muestra por pantalla 20 guiones. Devuelve error, ya que no se puede multiplicar por 20 un guion. Muestra por pantalla un guion y 20 asteriscos. Muestra 20 espacios por pantalla.

Tomando como referencia la siguiente lista: my_list = [7,8,2,52,36,64,9]. Si realizamos my_list[4:] ¿Cuántos elementos devolverá?. 36, 64, 9. 7, 8, 2, 52. 52, 36, 64, 9. 2, 52, 36, 64.

Tomando como referencia la siguiente lista: my_list = [0, 3, 8, 2, 9, 5] ¿Qué devolverá el comando "my_list[2]"?. 8. 3. 2. 9.

La función ".pop()" en diccionarios de datos: Borra un campo completo del diccionario por su campo clave. Borra el último elemento insertado en el diccionario. Borra un campo completo del diccionario por su valor del índice. Borra todos los elementos de un diccionario de datos.

Si queremos añadir los elementos de una lista al final de otra lista, ¿qué función utilizaremos?. "extend()". "index()". "append()". "insert()".

¿Qué tipo de gráfica produce por defecto plot de un vector categórico?. Gráfico de barras. Histograma. Diagrama de dispersión. Boxplot.

¿Cuáles son las principales características del lenguaje de programación Python?. Orientado a objetos, tipado estático, lenguaje interpretado, multiplataforma. Solo disponible en Linux, tipado dinámico, lenguaje compilado, versátil. Orientado a objetos, tipado dinámico, lenguaje compilado, multiplataforma. Excelente para programación científica, simple, multiplataforma, tipado estático.

El valor generado mendiante la capacidad de procesar flujos de datos es: Toma de decisiones más rápidas. Poder utilizar nuevas métricas. Modelos predictivos más efectivos. Toma de decisiones basadas en nuevas dimensiones.

Poder procesar datos con gran volumen, proporciona el siguiente valor: Modelos predictivos más efectivos. Poder analizar datos en "streamig". Toma de decisiones más rápidas. Decisiones basadas en información no estructurada.

Un aspecto de un modelo de negocio son los clientes. Las macrodatos pueden impactar en los siguientes aspectos relacionados con los clientes: Segmentación, canales, relaciones. Segmentación, canales, productos. Infraestructura, canales, relaciones. Segmentación, finanzas, relacioes.

Un uso habitual del "big data" en lo que se refiere a los canales de distribución en un modelo de negocio es: Optimización de rutas. Segmentación de clientes. Detección de nuevas fuentes de ingresos. Ampliación del catálogo de productos.

Una de las aplicaciones más comunes del "big data" en el sector comercio es: Sistemas de recomendación de productos. Mantenimiento predictivo. Detección de fraude. Detectar abandonos.

Cuales de las siguientes no es una buena práctica DataOps?. Despliegue automatizado de la nueva versión en producciónn y, posteriormente, comprobar los test. Control riguroso de versiones de código. Realización de baterías de test automáticos para probar cada nueva versión. Despliegue automatizado de la nueva versión en producción después de pasar los test.

¿Qué conjunto de herramientas son más caraterísticos de un analista de datos?. Excel, Tableu o PowerBi. R, Python, Azure. Java o Scala. HDFS y MapReduce.

¿Quién utiliza "sandboxes" o laboratorios de datos?. Los científicos de datos. Los ingenieros de datos. Los ingenieros DataOps. Los analistas de datos.

Lo que se busca con una estrategia basada en datos es, en último término: Que la empresa sea más competitiva. Desarrollar una plataforma de autoservicio de datos. Mejorar la cultura de la empresa. Convertirse en un empresa "data-driven".

El modelo basado en capacidades permite: Entender dónde estamos y a dónde queremos ir. Definir el modelo de negocio. Definir maneras de generar valor. Definir en detalle las iniciativas y proyectos a largo plazo.

El modelo basado en capacidades permite: Diseñar una hoja de ruta a partir de las capacidades que es preciso desarrollar para ejecutar la estrategia. Desarrollar mejor las capacidades de las personas. Definir la estrategia a partir de las capacidades que tiene la empresa. Desarrollar la ventaja competitiva de la empresa.

Spark Streaming usa las operaciones de Spark: Cierto. Una vez obtenidos los "microbatches", las operaciones son las mismas. Falso. Utiliza un conjunto propio de operaciones optimizado para dar respuestas rápidas. Cierto. Las operaciones son las mismas, ya que Spark Streaming es una llibrería de Spark. Falso. Utiliza un conjunto de operaciones muy diferente diseñado para tratar con flujos de datos.

El uso de tecnologías big data está justificado cuando tenemos un problema de volumen, de velocidad o de variedad de la información: Cierto. Si tenemos esos tres problemas a la vez, necesitamos tecnologías big data. Falso. Las tecnologías big data son imprescindibles siempre que se necesite extraer valor de los datos. Falso. Las tecnologías big data se necesitan siempre que sea necesario transformar datos en conocimiento. Cierto. Si no tenemos uno de esos problemas, es muy probable que no necesitemso tecnología big data.

¿Qué tipo de análisis es el que tiene por objetivo estimar los valores más probables de una variable desconocida?. El análisis predictivo. El análisis prescriptivo. El análisis descriptivo. El análisis probabilístico.

¿Cómo debe ser el objetivo de un proyecto de ciencia de datos?. Debe definir claramente en qué consiste el éxito o el fracaso del proyecto. Completamente abierto, para permitir que se descubran cosas interesantes durante el proyecto. Muy específico, para evitar tareas innecesarias durante el proyecto. Debe estar expresado en términos matemáticos, ya que, si no, no sería un proyecto de ciencia de datos.

¿Cómo ha evolucionado la disponibilidad que de datos para su uso en la ciencia de datos?. Ha aumentado exponencialmente como consecuencia de la digitalización de muchas actividades humanas. Cada vez hay más datos, pero son de peor calidad. La regulación legal, como el RGPD, hace que cada vez menos datos estén autorizados para su uso en ciencia de datos. Los datos siempre hane estado ahí, lo que ha evolucionado es la capacidad de tratamiento de los mismos.

¿Cómo de importante es saber programar para hacer ciencia de datos?. Es de gran utilidad, porque permite realizar las tareas propias de la ciencia de datos de manera más efectiva. Es irrelevante: existen muchas herramientas para hacer ciencia de datos sin necesidad de programar. Es imprescindible: la ciencia de datos es el nombre que se le da ahora a la programación orientada al tratamiento de los datos. Depende de cada proyecto.

¿Qué se entiende por "datos de calidad"?. Datos que son verificablemente útiles para el uso que se les quiere dar. Aquellos que dicen lo que queremos demostrar. Datos que reflejan de manera fiel la realidad subyacente. Datos que son fáciles de procesar.

Las tareas de mejora de la calidad de datos, ¿se realizan siempre en el contexto de un proyecto de ciencia de datos?. No, en ocasiones se necesita mejorar la calidad de los datos para otros fines. No, porque son tareas realizadas por ingenieros de datos, no cientifícos de datos. Sí, la calidad de datos es parte de la ciencia de datos. No, depende del organigrama de cada organización.

¿Cuál de las siguientes dimensiones de la calidad de datos no se puede afirmar solamente analizando los propios datos?. Veracidad. Integridad. Consitencia. Actualidad.

¿A qué dimensión de la calidad de datos corresponde el problema de tener varios formatos de fechas no homogéneas?. A la consistencia. A la integridad. A la validez. A la veracidad.

¿Es posible completar datos faltantes para poder ejecutar un algoritmo que los necesita?. Sí, asignando valores probables según algún criterio de imputación. Solamente recopilando más datos. No, los datos no pueden modificarse o se estaría invalidando el resultado. Sí, pero so si nadie se da cuenta.

¿Cómo se puede valorar la consistencia de unos datos en un proceso de perfilado de datos?. Agrupando todos los datos sobre cada entidad concreta y comprobando que los datos de distintas fuentes coinciden. Asegurándose de que no hay valores inválidos ni formatos diferentes para los mismos datos. Solamente puede hacerse mentiendo todos los datos en una base de datos. La consistencia de datos no se puede establecer mediante perfilado, es necesario verificar la información.

¿Cuál es la diferencia en "data drifting" y "model drifting"?. "Data drifting" se refiere a la pérdida de rendimiento de los modelos por la actualización de los datos y "model drifting" a la pérdida por cambios esenciales en la realidad modelada. No hay diferencia, son dos formas de decir lo mismo: que los modelos pierden rendimiento con el tiempo. "Data drifting" se refiere a las pruebas de un modelo con distintos datos y "model drifting" a las pruebas de distintos modelos para ver cuál funciona mejor. El "data drifting" corresponde a la fase de análisis y modelado y el "model drifting" a la fase de explotación.

¿En qué consiste la ingeniería de datos?. Es la rama de la ingeniería que se ocupa del tratamiento masivo de datos. Es el diseño de los datos necesarios para resolver un problema. Es lo mismo que la ciencia de datos, cuando se apoya en medios técnicos. Es la aplicación de los métodos de la ciencia de datos a problemas de ingeniería.

¿Qué tipo de herramienta es Tableu Desktop?. Una herramienta de visualización de datos. Una herramienta ELT ("extracción, transformación y carga"). Una librería para generar gráficos desde cógigo Python. Una herramienta de modelado de datos.

Exec sp_columns table_name: Permite conocer la estructura de la tabla. Actualiza la tabla. Borra los datos de la tabla. Inhabilita la tabla.

La inteligencia de negocio sirve para: Consolidar información y tener un única fuente de la verdad. Tomar las decisiones operacionales mediante procesos automatizados. Detectar errores en los sistemas operacionales. Ayudar al almacenaje de datos.

Un "left outer join: b) c) d)". Devolverá como resultado todas las filas de la tabla izquierda del "join", solo aquellas filas que cumplan la condición de la unión de la tabla derecha. Devolverá como resultado solo aquellas filas que cumplan la condición la unión de las tablas. Devolverá como resultado todas las filas de la tabla derecha del "join", solo aquellas filas que cumplan la condición de la unión de la tabla izquierda. Devolverá como resultado todas las filas de la tabla izquierda del "join", y todas las filas de la tabla derecha.

DAX: Es un lenguaje que se puede usar en modelos tabulares. Es un lenguaje que no se puede usar en modelos tabulares. Es un lenguaje que se puede usar en modelos OLAP. Es un lenguaje que se puede usar en modelos no relacionales.

Los paneles PowerBi: Son informes preparados para realizar análisis sobre un conjunto de datos acotado de forma sencilla. Son los llamados 'informes pixel perfect' son informes corporativos o departamentales en que el formato visual está muy estudiado. Se componen de las visualizaciones más destacadas de los informes de PowerBi. Son algoritmos avanzados que se ejecutan sobre la fuente de datos.

Una visualización debe: Debe facilitar la ordenación de valores. Ser lo más sencilla posible aunque no cumpla su función. Debe ser lo más vistosa posible. Ante todo, tiene que ser estética.

Los trabajos o "jobs" son conjuntos de tareas que se procesan para realizar tareas determinadas, estas tareas se lanzan mediante "script" en PDI y para ejecutarse: Se organizan en Jobs o tareas, que se ejecutan con el subprograma Kitchen. Se organizan en Jobs o tareas, que se ejecutan con el subprograma Pan. Se organizan en Jobs o tareas, que se ejecutan con el subprograma Spoon. Se ejecutan con el subprograma Kitchen.

Mediante script PDI puede lanzar un grupo de transformaciones que: Es un subprograma de PDI donde se ejecutan las tareas por "script". Es un subprograma de PDI donde se ejecutan las transformaciones por "script". Es un subprograma de PDI donde se diseña ETL. Es un subprograma de PDI que compone parte del servidor.

El linaje de datos permite: Reconstruir los índices de las tablas una vez acabado el proceso ETL. Centrarse en la operativa de la compañía con métricas a mayor detalle y permiten la toma de decisiones sobre acciones operativas. Listar las acciones a llevar a cabo si la ETL falla. Realizar validaciones como recuentos de filas, o comprobaciones de métricas.

¿Qué es la orquestación de datos?. La automatización de tareas basadas en datos de principio a fin. Un identificador de los principales orígenes de datos que pueden servir para obtener los objetivos de las organizaciones. La operativa de la compañía para diseñar las ETL. Un apoyo para el análisis de datos usando comparaciones, tendencias, correlaciones.

Con relación al SCD tipo 4: Cuenta con una tabla que almacena el historórico de los cambios y otra con los datos actuales de los maestros. Los cambios se almacenan en filas con la ayuda de columnas de periodos de fechas. Los cambios se almacenan en columnas actual y anterior. Es el método tipo híbrido que combina los tipos 1, 2 y 3.

Uno de los beneficios de un "Data warehouse" es: Facilitar una versión única de la verdad. Ayuda en la analítica avanzada. Almacena datos historicós en bruto. Es un almacén de datos no persistente.

Un "data mart" es: Un subconjunto importante de un "data warehouse" orientada a un grupo específico de usuarios y áreas de la empresa. Un conjunto importante de datos que engloba varios "data warehouses". Representan los principales Kpi's de rendimiento que se enfocan en el cumplimiento de los objetivos de las organizaciones. Se centran en la operativa de la compañía con métricas a mayor detalle y permiten la toma de decisiones sobre acciones operativas.

MapReduce es una tecnología que sirve para: Procesar información. Procesar y almacenar información. Hacer analíticas gráficas de datos. Isertar datos en bases de datos NoSQL.

Hadoop forma parte de: Apache Software Foundation. Amazon. Microsoft. Google.

Hadoop se caracteriza por: Escalabilidad y paralelismo. "Machine learning" y paralelismo. Procesamiento en tiempo real. Clústeres con más de 100 nodos.

En un ecosistema de Hadoop, se encuentra típicamente la siguiente herramienta: HBase. Flink. MongoDB. Databricks.

HDFS es: Un sistema de ficheros para el almacenamiento de información. Un sistema de procesamiento de la información. Una base de datos. Un esquema para el almacenamiento de la información.

MapReduce está escrito en el siguiente lenguaje: Java. R. Python. Scala.

Shuffle es un concepto relacionado con: MapReduce. Neo4j. Esquemas de bases de datos. Unidad mínima de almacenamiento HDFS.

En un clúster de Hadoop, existen los siguientes nodos: "Master nodes" y "slave nodes". Solo "master nodes". Solo "slave nodes". "Master nodes" y "yarn nodes".

Hive es una herramienta de: Análisis de datos mediante un lenguaje semi SQL. Gestión del almacenamiento del clúster Hadoop. Proceso de datos. Coordinación de flujos de trabajo.

¿Qué característica no cumple Hive?. Permite el borrado y la actualización de datos. Latencia alta. Permite tratar "petabytes" de datos. Se pueden hacer consultas SQL.

¿Qué significa el concepto de "lazy evaluation"?. Las transformaciones de datos solo se harán cuando una acción se ejecutada. Las transformaciones de datos se harán de forma inmediata. Las transformaciones de datos se almacenan en disco en espera de ser ejecutadas. Una transformación se ejecuta antes de la acción.

¿Qué lenguaje de programación soporta Spark?. Java, Scala, R y Python. Python, Scala, Java. Java, Scala, R. Python, Scala, Java, R y .NET.

Google Dataproc es el servicio de Google Cloud para: Utilizar servicios de big data. El modelo de almacenamiento de datos. La herramienta de análisis de datos IoT. Un gestor de máquinas virtuales.

¿Cuál de las siguuientes herramientas gráficas se debe utilizar para representar dos variables cuantitativas continuas?. Diagrama de dispersión. Diagrama de barras. Histograma. Diagrama de correlación.

Para comparar correctamente, desde un punto de vista descriptivo, la asociación entre dos o más variables cuantitativas, debe usarse: El coeficiente de correlación de Pearson. Chi-cuadrado. ANOVA. La desviación media.

¿Cuál de los siguientes estadísticos descriptivos se debe utilizar para describir una variable cuantitativa continua?. Media y desviación estándar. Test chi cuadrado. ANOVA. Tabla de frecuencias.

¿Cuál de los siguientes estadísticos descriptivos se debe utilizar para describir una variable categórica?. Tabla de frecuencias. Mediana y rango intercuartílico si la variable no es normal. ANOVA. Histograma.

La recopilación de 10 datos correspondientes al número de accidentes de tráfico registrados en la Comunidad de Madrid durante 10 días consecutivos son 15, 5, 10, 5, 5, 6, 5, 6, 5, 6. ¿Qué tipo de varible es?. Cuantitativa discreta. De frecuencias. Categórica. Nominal.

La recopilación de 10 datos correspondientes al número de accidentes de tráfico registrados en la Comunidad de Madrid durante 10 días consecutivos son 15, 5, 10, 5, 5, 6, 5, 6, 5, 6. ¿Cuál es la desviación estándar?. 3,25 accidentes. -3,3 accidentes. No se puede calcular porque es una variable categórica. 6,8 accidentes.

¿Qué afirmación no es correcta?. En los muestreos probabilísticos, la sustitución de elementos de la muestra inicial por falta de respuesta por otros de la lista de reserva nunca introduce sesgos en las estimaciones. Con los muestreos probabilísticos no se asegura totalmente que las muestras sean representativas de la población, pero es muy probable que sean representativas. La afijación de Neyman da una varianza del estimador menor que la obtenida bajo muestreo aleatorio simple. El error de muestreo es el error que hay el cualquier encuesta.

¿Qué afirmación es correcta?. La muestra es un subconjunto de la población seleccionada para estimar el dato poblacional. En un muestreo probabilístico es necesario conocer, al menos de forma teórica, todas las posibles muestras. La afijación proporcional coincide con la de Neyman si los pesos de las estratos coinciden. La precisión de las estimaciones no depende de la forma de agrupar las unidades en estratos.

Si P(A) = 0,4 y P(B) = 0,6, conocieno que A y B son independientes, entonces se puede asegurar que: P(A∩B) = 0,24. P(A/B) = 0,2. A y B son disjuntos. P(AUB) = 0,52.

Se quiere comparar el gasto medio en tarjeta de crédito en alimentación entre dos ciudades en una muestra de hogares en España. Para ello, se han recogido datos sobre el gasto en tarjeta de crédito en alimentación en 100 hogares en Madrid y 100 hogares en Sevilla. El intervalo de confianza al 95% para la diferencia de medias está entre -75,2 y 52,3. Seleccionar la afirmación correcta. El intervalo de confianza al 95% incluye el cero, por lo que se tiene una seguridad al 95% de que no existen diferencias en el gasto medio de tarjeta de crédito en alimentación entre Madrid y Sevilla. No se puede utilizar los intervalos de confianza para ver si existen diferencias significativas entre dos poblaciones independientes. El intervalo de confianza al 95% incluye al cero, por lo que se tiene una seguridad al 95% de que sí existen diferencias en el gasto medio de tarjeta de crédito en alimentación entre Madrid y Sevilla. No se pueden sacar conclusiones, ya que el muestreo no se ha realizado de forma correcta.

Se quiere realizar un contraste de hipótesis para estudiar si la media del gasto medio de tarjeta de crédito en alimentación entre Madrid y Sevilla es igual (es decir, comparar la media de dos poblaciones). ¿Qué contraste se debe realizar?. Test para la diferencia de medias de dos poblaciones independientes. Test para la media de una proporción en una población. Test Chi-cuadrado. ANOVA.

Se quiere comparar el gasto medio en tarjeta de crédito en alimentación entre dos ciudades en una muestra de hogares en España. Para ello, se han recogido datos sobre el gasto en tarjeta de crédito en alimentación en 100 hogares en Madrid y 100 hogares en Sevilla. El intervalo de confianza al 95 % para la diferencia de medias está entre -75,2 y 52,3. Además, se quiere realizar un contraste de hipótesis para estudiar si la media del gasto medio de tarjeta de crédito en alimentación entre Madrid y Sevilla es igual. El p-valor del contraste fue 0,543. Seleccionar la afirmación correcta. No hay suficiente evidencia estadística para rechazar la hipótesis nula de igualdad de medias de gasto de tarjeta de crédito en alimentación entre Madrid y Sevilla. Hay suficiente evidencia estadística para rechazar la hipótesis nula de igualdad de medias de gasto de tarjeta de crédito en alimentación entre Madrid y Sevilla. Hay suficiente evidencia estadística para aceptar la hipótesis de que el gasto de tarjeta de crédito en alimentación en Madrid es inferior a Sevilla. Hay suficiente evidencia estadística para aceptar la hipótesis de que el gasto de tarjeta de crédito en alimentación en Madrid es superior a Sevilla.

Para analizar e interpretar al aplicar ANOVA de un factor, se debe tener en cuenta lo siguiente: Significación: si es menor del 0,05 es que las dos variables están relacionadas y, por tanto, que hay diferencias significativas entre los grupos. Significación: si es mayor del 0,05 es que las dos variables están relacionadas y, por tanto, que hay diferencias significativas entre los grupos. Significación: si es menor del 0,05 es que las dos variables no están relacionadas y, por tanto, que no hay diferencias significativas entre los grupos. Significación: si es mayor del 0,05 es que las dos variables no están relacionadas y, por tanto, que no hay diferencias significativas entre los grupos.

Con respecto a las librerías de aprendizaje automático: Si se quisiera utilizar redes neuronales y se está empezando, se haría con TensorFlow pero no Keras. Si se quiere realizar un modelo de redes neuronales se podría utilizar Sklearn, pero también TensorFlow con Keras. SciPy permitiría realizar redes neuronales de una manera más sencilla que Keras. PyTorch, desarrollado por Google, se suele utilizar para realizar regresiones logísticas.

¿En qué difiere, generalmente, el papel del ingeniero de datos del papel del científico de datos?. El ingeniero de datos crea "pipelines" y el científico de datos utiliza los datos para construir un modelo. El ingeniero de datos realiza el preprocesado y el científico de datos, solo el modelo de aprendizaje automático. El científico de datos es un perfil más técnico y de computación. Las tareas son similares, pero el científico de datos realiza el despliegue de los modelos.

¿Cuál es la relación existente entre aprendizaje automático y ciencia de datos?. La ciencia de datos puede usar técnicas de aprendizaje automático pero no siempre. La ciencia de datos no puede usar técnicas de aprendizaje automático. El aprendizaje automático está incluido siempre en proyectos de ciencia de datos. La ciencia de datos está incluida siempre en proyectos de aprendizaje automático.

BigML es una plataforma de aprendizaje automático cuyo objetivo es automatizar y realizar una gestión de flujo de un proyecto de aprendizaje automático. Una de las siguientes afirmaciones no es correcta sobre BigML. No permite utilizar algoritmos de aprendizaje no spuervisado. Permite realizar algoritmos de aprendizaje supervisado, como árboles o redes neuronales. Se puede utilizar en muchos casos de uso, sobre todo donde los datos son en forma de tabla. Provee tres modos de uso: interfaz web, línea de comandos y vía API.

Una buena práctica en la estructura de los códigos es: Importar las librerías y módulos al comienzo del código. Definir las constantes allá donde se usen. No comentar el código, para que nadie sepa utilizarlo. Las constantes se escriben con minúsculas.

Si se quisiera exportar un entorno en Conda para posteriormente poder usarlo, ¿con qué comando se haría?. conda env export > environment.yml. conda create -- name nombre_entorno. conda export > environment.yml. conda env create -- name environment.yml.

Se va a hacer un problema en el que se quiere obtener la probabilidad de contratación de un producto, ¿de qué tipo será este problema?. Supervisado, de clasificación. Supervisado, de regresión. No supervisado. No encajaría en ninguna tipología de algoritmo.

¿De qué tipología son la regresión lineal y la regresión logística?. La regresión logística se utiliza en clasificación y la lineal, en regresión. Ambas suelen ser utilizadas en problemas de regresión. La regresión lineal se utiliza en clasificación y la logística, en regresión. Ambas se suelen utilizar en problemas de clasificación.

Una de las siguientes afirmaciones no es correcta con respecto a la regresión lineal. Indica cuál. Es un modelo poco sensible a valores atípicos. Supone que los residuos o errores siguen una distribución normal. Supone que los residuos o errores siguen una distribución normal. Las variables predictoras deben ser linealmente independientes.

En un modelo KNN: Cuanto mayor es el k o número de vecinos menos se ajsuta a los datos. Cuanto mayor es el k o número de vecinos más se ajusta a los datos. El valor de k no influye en el ajuste del modelo. El valor de k no es de los hiperparámetros más importantes.

Es un modelo de árboles de decisión: Si se quiere evitar el sobreajuste, se reduciría la profundidad del árbol. El valor de la profundidad del árbol no influye en el ajuste del modelo. El valor de la profundidad del árbol no es de los hiperparámetros más importantes. Si se quiere evitar el sobreajuste, se aumentaría la profundidad del árbol.

Los algoritmos de "bagging": Se aprovechan de la independencia de los algoritmos simples para mejorar los resultados. Se aprovechan de la dependencia de los algoritmos simples para mejorar los resultados. Son algoritmos que tienden a sobreajustar. Son muy recomendables cuando se necesita una interpretación de los datos.

Con respecto al despliegue de los modelos de AutoML. Por norma general, se entrenan y despliegan en la nube. Solo se pueden desplegar en la nube. Solo se pueden desplegar en la infraestructura de los clientes, aunque se entrenen en la nube. Generalmente, se entrenan y despliegan en la infraestructura del cliente.

¿Qué tipo de problema requiere intervención más manual con AutoML?. Problemas de "clustering". Problemas de clasificación. Problemas de regresión. Problemas de "forecasting" de series temporales.

¿De qué manera realizan las recomendaciones los sistemas de recomendación basados en filtrado en contenido?. Procesando las características textuales y descriptivas de los productos. Procesando las características de los usuarios. Procesando las votaciones que realizan los usuarios sobre los productos. Procesando las características de los usuarios y las características textuales de los productos.

¿De qué manera realizan las recomendaciones los sistemas de recomendación basados en filtrado?. Procesando las características de los usuarios y las características textuales de los productos. Procesando las características de los usuarios. Procesando las características textuales y descriptivas de los productos. Procesando las votaciones que realizan los usuarios sobre los productos.

¿Qué tipos de interacción puede usar un sistema de recomendación para aprender las preferencias de los usuarios?. Implícita y explícita. Implícita e intrínseca. Intríseca y explícita. Implícita y directa.

¿Qué tres características debe tener un sistema de recomendación para emitir recomendaciones a los usuarios?. Un conjunto de usuarios a los que realizar recomendaciones, un conjunto de productos que recomendar y valoraciones que han realizado los usuarios sobre los productos. Un conjunto de usuarios que recomendar y valoraciones. Un conjunto de usuarios a los que realizar recomendaciones, un conjunto de productos que recomendar y las características de los productos. Un conjunto de usuarios a los que realizar recomendaciones, las características de los usuarios y un conjunto de productos que recomendar.

¿Cuál de las siguientes definiciones es la más apropiada para definir un sistema de recomendación?. Sistema inteligente capaz de ofrecer a los usuarios sugerencias personalizadas sobre un determinado tipo de productos. Sistema inteligente capaz de ofrecer productos a los usuarios. Sistema inteligente capaz de filtrar los productos. Sistema inteligente capaz de vender a los usuarios un determinado tipo de productos.

En el procesamiento del lenguaje natural se encuentra como una de sus áreas el análisis se sentimientos. ¿Qué problema de los siguientes es resuelto por en análisis de sentimiento?. Clasificar documentos. Normalizar corpus. Clusterizar documentos. Preprocesar documentos.

En el procesamiento del lenguaje natural, una de sus áreas es el "topic modeling" (modelización de tópicos). ¿Qué problema de los siguientes es resuelto por "el topic modeling"?. Clusterizar documentos. Clasificar documentos. Normalizar el corpus. Preprocesar documentos.

Denunciar Test