option
Cuestiones
ayuda
daypo
buscar.php

Tema 7 Mineria

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Tema 7 Mineria

Descripción:
Tema 7 Mineria

Fecha de Creación: 2026/06/05

Categoría: Otros

Número Preguntas: 80

Valoración:(0)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

A diferencia de la minería de contenido y estructura, la minería de uso se enfoca principalmente en: Extraer texto y multimedia de las páginas. Mapear los enlaces y el grafo hipertextual. Descubrir patrones sobre "cómo se utiliza" la web mediante la interacción humana. Diseñar las interfaces gráficas.

¿Qué revela la "Prueba de realidad" en la analítica web?. Que todos los usuarios leen las FAQs antes de preguntar. Que el comportamiento real de los usuarios difiere enormemente del esperado por los diseñadores. Que los bots siempre completan los formularios. Que las páginas estructuradas no necesitan preprocesamiento.

Desde la perspectiva académica empresarial, ¿cuál es la diferencia clave entre Minería de Uso Web y Analítica Web?. Son exactamente lo mismo. La Minería desarrolla algoritmos para descubrir conocimiento implícito, mientras la Analítica monitoriza KPIs y flujos con herramientas empaquetadas. La Analítica solo usa logs de servidor y la Minería solo usa Google Analytics. La Minería es cualitativa y la Analítica no.

¿Cuál de las siguientes realidades DEBEN converger según el propósito de la Analítica Web?. La intención del usuario y el propósito de la web. El contenido y la estructura HTML. El rastreador y el servidor. La tasa de rebote y los clics de los robots.

El proceso completo de descubrimiento de conocimiento en la web consta de: 2 etapas (Recolección y Análisis). 3 etapas (Logs, Marcadores y Google). 5 etapas fundamentales (desde la planificación hasta el análisis de patrones). 10 etapas algorítmicas estandarizadas.

¿Qué representan los "Objetivos Estratégicos"?. Acciones a nivel de página (ej. hacer scroll). La respuesta fundacional a por qué existe la web (ej. incrementar ventas o generar leads). El código JavaScript insertado en la cabecera. Un número exacto a alcanzar.

Si el objetivo estratégico es "Incrementar ventas", ¿cuál de los siguientes es un "Objetivo Específico"?. Generar una tabla de Excel mensual. Incrementar el volumen de compra media por persona. Ser una empresa líder en Europa. Contratar más programadores.

¿Qué aporta el "Objetivo Deseado" (Target) a la medición?. Las cifras exactas cuantitativas que indican éxito o fracaso. Un concepto abstracto de mejora. La estructura de la base de datos subyacente. El nombre del analista encargado.

¿Cuál de las siguientes opciones es un ejemplo claro de "Métrica"?. Ciudad de origen. Sistema Operativo. Número de páginas vistas. Tipo de dispositivo.

Las "Dimensiones" se definen mejor como: Ratios matemáticos. Valores numéricos directos. Atributos categóricos que contextualizan una métrica. Objetivos no alcanzados.

¿Qué condición sine qua non debe cumplir una métrica para ser considerada un KPI?. Debe medir más de 1000 visitas. Debe ser calculada mediante Inteligencia Artificial. Si cambia bruscamente, debe incitar a tomar medidas inmediatas en el negocio. Debe estar en el dashboard principal obligatoriamente.

En un escenario donde el KPI es "Valor del Pedido Medio", ¿qué sería el target?. El sistema operativo de los compradores. Llegar a 156 euros de compra media. El número total de visitantes al mes. Reducir la tasa de rebote al 5%.

Es el estudio de la actividad de un sitio web a partir de los datos extraídos de la navegación". Esto define a. Minería de estructura. Analítica Web. Generación de informes en Excel. Aprendizaje supervisado profundo.

¿Por qué el indicador "Hits" es inútil para medir visitantes reales?. Porque solo cuenta usuarios móviles. Porque mide las peticiones puras de servidor; un solo usuario cargando una web con 10 imágenes genera 11 hits. Porque omite a los robots. Porque Google Analytics lo tiene bloqueado.

La métrica "Páginas vistas" cuenta: Cuántas veces se carga un documento HTML, midiendo consumo de contenido. El número de compras finalizadas. Exclusivamente la carga de imágenes .jpg y .png. El total de usuarios únicos en un año.

La regla general estándar de la industria para considerar que una visita (sesión) ha finalizado por inactividad es: 5 minutos. 1 hora. 30 minutos. 24 horas.

Un usuario entra el lunes, el martes y el miércoles desde el mismo ordenador. ¿Cómo se contabiliza esto a nivel mensual?. 1 sesión y 3 visitantes únicos. 3 sesiones y 1 visitante único. 3 sesiones y 3 visitantes únicos. 1 sesión ininterrumpida.

El "Clickstream" o flujo de clics es: La cantidad de veces que alguien pincha en un anuncio. El registro secuencial e ininterrumpido de páginas y acciones de un usuario. El software para limpiar el servidor. Una dimensión de Google Analytics 4.

¿Por qué es crítico medir el Clickstream en la minería de uso?. Porque revela puntos de abandono y rutas frecuentes de conversión. Porque incrementa las páginas vistas artificialmente. Porque oculta la dirección IP real. Porque bloquea las cookies de terceros.

La "Conversión" ocurre cuando: El usuario cierra el navegador. Un número de visitantes completa el evento catalogado como "Objetivo". Una visita cambia de PC a móvil. Se borra el archivo log.

Los dos métodos fundamentales para recolectar información de comportamiento web son: Minería de texto y Minería visual. Logs del servidor y Marcadores de cliente (JavaScript). Redes neuronales y árboles de decisión. Bases de datos relacionales y NoSQL.

En el método de "Ficheros Log", el archivo que almacena la información se genera en: El ordenador del usuario. El navegador web del cliente. El propio servidor web que aloja la página. Los servidores de Google Analytics exclusivamente.

El formato ECLF (Extended Common Log Format) añade dos campos críticos que el formato básico CLF no tenía: La IP y la hora. El Referrer y el User-Agent. El código de estado HTTP y los bytes transferidos. El ID de la sesión y la cookie.

El campo "Referrer" de un Log es vital porque: Indica la URL exacta de donde provenía el usuario (ej. un clic de Google). Contiene la versión de Windows del visitante. Mide el peso de la página en Kilobytes. Asigna automáticamente un visitante único.

El campo "User-Agent" proporciona información sobre: La contraseña del usuario. El volumen de transferencia HTTP. El sistema operativo, navegador y tipo de dispositivo. La página de destino final.

Un problema grave al medir con Logs de servidor es la "Pérdida por Caché". ¿En qué consiste?. Los logs se borran solos cada 24 horas. Si un usuario pulsa el botón "Atrás", carga la página desde la memoria local y el servidor no se entera, perdiendo la medición de ese paso. Las contraseñas se almacenan en texto plano. El servidor rechaza a los robots de los buscadores.

En cuanto a las IPs, los registros Log pueden distorsionar la analítica porque: Rechazan IPs internacionales. Una misma IP (como la de un router de universidad) puede representar a cientos de alumnos, contabilizándolos erróneamente como un solo individuo. Solo leen redes IPv6. Generan visitas fantasma aleatorias.

La "Medición mediante Marcadores" o Tags confía su ejecución a: El kernel del servidor Linux. El analizador de paquetes de red físico. Un fragmento JavaScript que ejecuta el navegador del propio cliente. l registro de usuarios de Windows.

¿Cuál de las siguientes es una ventaja clave de los Marcadores frente a los Logs?. No necesitan JavaScript para funcionar. Miden perfectamente cuando el usuario pulsa "Atrás" (al recargar la página, se reejecuta el script). Son la mejor opción para medir los ataques de denegación de servicio. No recopilan ninguna información personal, evitando leyes de privacidad.

¿Qué método domina la industria comercial actual (e-commerce, marketing)?. El análisis exclusivo de Logs mediante archivos de texto. La medición mediante Marcadores (ej. Google Analytics). El conteo directo desde la base de datos SQL del inventario. La instalación de software espía en el router local.

Si se necesita auditar intensivamente el posicionamiento SEO para ver cómo interactúan los robots de los buscadores (arañas), la herramienta ideal es: Google Analytics 4. Un marcador JavaScript asíncrono. El fichero Log del servidor. Una encuesta emergente.

¿Por qué los "Marcadores" filtran naturalmente el tráfico de robots/crawlers?. Porque bloquean por defecto cualquier IP de un centro de datos. Porque los bots generalmente no procesan ni ejecutan código JavaScript de analítica de terceros. Porque los bots siempre rechazan las cookies de sesión. Porque Google Analytics rastrea sus DNI de forma nativa.

La etapa de limpieza y preprocesamiento de un Log busca: Comprimir el archivo en un .zip. Traducir las páginas del inglés al español. Convertir entradas aisladas y sueltas en estructuras conceptuales legibles (sesiones e individuos). Modificar la estructura visual del HTML.

El primer paso de la limpieza de logs es la "Extracción de variables", que implica: Eliminar las columnas de texto inútiles con expresiones regulares hasta dejar solo la IP. Convertir la cadena cruda de texto separando campos como URI, fecha, método HTTP e IP en estructuras distintas. Instalar un marcador JS. Detectar el patrón del grafo.

En la creación de "marcas de tiempo" (Timestamps), la fecha y la hora del texto original se transforman en: Un formato JSON. Una etiqueta HTML meta. Un número entero para permitir cálculos temporales rápidos. Un vector TF-IDF.

Calcular el timestamp es indispensable fundamentalmente para: Saber el país de origen de la IP. Encriptar los datos del Log. Poder ordenar cronológicamente las secuencias y calcular la duración de las visitas entre páginas. Aumentar la velocidad del servidor.

¿Cuál de los siguientes recursos debería FILTRARSE (eliminarse) durante el preprocesamiento para quedarse solo con el "clickstream útil"?. GET /contacto.html. GET /catalogo.php. GET /menu.png. GET /noticias/articulo-1.

La exploración y filtrado de extensiones borra elementos como .css y .js porque: Son virus recurrentes. El servidor se satura al leerlos. El navegador los descarga automáticamente al leer la estructura de una web y no representan un clic o decisión consciente del usuario. Contienen información confidencial de contraseñas.

Si un sitio web es exclusivamente una galería de fotografía de arte, ¿deberíamos filtrar de los logs los accesos a los archivos .jpg?. Sí, los .jpg siempre se deben filtrar sin excepciones. Sí, porque ocupan mucho espacio en la base de datos de minería. No, en este caso concreto representan el objetivo principal del usuario y la esencia de la visita. No, pero solo si están cifrados.

¿Qué porcentaje aproximado del tráfico mundial de internet está automatizado (robots/spiders)?. Menos del 5%. Entre el 10% y el 15%. Entre el 35% y el 45%. Más del 90%.

Una forma infalible de detectar que una visita proviene de un robot explícito es si: Visualiza la página principal en 5 segundos. Posee una IP de España. Descarga una imagen .gif. Solicita el archivo robots.txt o se declara como bot en el User-Agent.

Una "heurística de velocidad" para detectar bots ocultos se basa en: Identificar usuarios que navegan muy lento. Detectar si una IP pide miles de páginas en pocos milisegundos, superando la capacidad de cognición humana. Verificar la velocidad de subida del router. Medir la latencia de respuesta del ping.

A falta de cookies de autenticación, la identificación heurística primaria de un usuario único asume que conforman una persona: Todas las visitas que ocurran el mismo día. Cada combinación única de dirección IP y User-Agent. Las sesiones con un referrer idéntico. Las peticiones con la misma franja horaria.

Durante el preprocesamiento de identificación de usuarios, ¿qué nos indica un salto incoherente (ej. visitar la página Z tras la A sin enlaces posibles entre ellas) conservando misma IP y User-Agent?. Que el usuario hizo clic en un virus. Que el servidor está experimentando lag. Que es probable que haya otro individuo distinto detrás de esa misma IP y navegador. Que la topología del sitio web es perfecta.

La topología de una página web en minería de logs sirve analíticamente para: Hacer el diseño estético más agradable. Contrastar el referenciador (referrer) y determinar si los saltos entre páginas de un supuesto único usuario son navegacionalmente posibles. Predecir la caída del servidor HTTP. Asignar valores a la cookie asíncrona.

El límite de tiempo ("timeout") utilizado para cortar y finalizar sesiones por inactividad: Es de 2 horas. Es fijado estrictamente por la W3C. Se ajusta típicamente a 30 minutos por estándar comercial empírico validado. No se usa; la sesión nunca se cierra hasta apagar el PC.

Un usuario visita la Portada a las 10:00, un Producto a las 10:05 y la Cesta a las 11:15. Con el timeout por defecto, ¿cuántas sesiones se detectan?. 1 sesión unificada. 2 sesiones (Portada-Producto, y Cesta separada). 3 sesiones distintas. El sistema ignora las visitas separadas por más de 1 hora.

El procedimiento de "Completado de Rutas" (Path Completion) es vital en el análisis de logs porque: Resuelve el problema de las páginas que faltan en el flujo debido a que el usuario usó la "caché" local de su botón Atrás. Genera enlaces automáticos a tiendas de terceros. Autocompleta los formularios abandonados por los usuarios. Inventa datos para rellenar matrices nulas.

Si el log marca A -> C, pero topológicamente no se conectan y la ruta exige A -> B -> C, el sistema: Borra al usuario por ser un posible hacker. Infiere que la URL de B fue cargada y la añade artificialmente para recuperar la secuencia lógica real. Modifica la topología de la web dinámicamente. Informa de un error 404 de página no encontrada.

Matemáticamente, ¿qué es un "Clickstream" modelado?. Un hipervínculo en el menú superior. La secuencia agregada e indivisible de páginas (ordenadas con su peso) visitadas por un usuario en una sesión. Un archivo JS que recopila contraseñas. La suma del ancho de banda gastado.

El modelo análogo de la vida real que se utiliza para estructurar transacciones de navegación es: Las recetas de cocina. El modelo de carrito de supermercado (ítems consumidos en una visita). Las colas FIFO de los cajeros. Los directorios de bibliotecas.

La representación final más común y universal de los logs para ser consumida por algoritmos de Machine Learning es: El formato XML enriquecido. Modelar los datos en matrices dispersas (Usuario vs Página). Exportar a PDF visuales. Grafos de árbol binario de búsqueda.

En una Matriz de Uso binaria estricta, un valor de '1' en la casilla Usuario X - Página Y significa: Que la página Y tardó 1 segundo en cargar. Que es la primera visita del usuario a esa web en su vida. Interacción o interés sostenido de esa sesión hacia esa URL. Que la transacción terminó en abandono.

En enfoques avanzados de ponderación matricial, en lugar de usar 0 y 1, las casillas pueden albergar: Texto descriptivo libre (reviews). El código fuente HTML de la página. Una ponderación numérica continua basada en la duración temporal. La tarjeta de crédito del cliente.

El análisis exploratorio (Analítica Básica) nos permite: Pronosticar los precios del mercado bursátil. Encontrar las top paths (rutas comunes) y páginas problemáticas sin aplicar aún algoritmos complejos de ML. Reestructurar los servidores backend en caliente. Bloquear cookies de forma predictiva.

Identificar "Páginas de Aterrizaje inesperadas" es útil porque: Suele deberse a un hackeo masivo en servidores extranjeros. Demuestra que Google Analytics no funciona bien. Permite descubrir qué URLs (como artículos antiguos posicionados por Google) están atrayendo el tráfico y adaptarlas para que funcionen como "portadas" eficientes. Indica un fallo en la hoja de estilos CSS.

Las "Top Paths" en el análisis estadístico revelan: Los caminos completos (secuencias de inicio a fin) que los usuarios siguen con mayor frecuencia. El top 10 de contraseñas más usadas por los clientes registrados. Los países que envían más ataques DDoS al dominio. El nombre de la herramienta de minería usada.

Si el 16% de los usuarios que aterrizan en "Página de Promoción" tienen "Abandono Directo" como siguiente paso en su ruta, la deducción analítica es: La promoción fue un éxito total. Es una señal de alerta grave (ej. botón de compra roto u oferta confusa) que exige investigación. Es el comportamiento normal de cualquier e-commerce. El usuario carece de navegador web instalado.

¿En qué año se convirtió formalmente Google Analytics 4 (GA4) en el nuevo estándar?. 2010. 2015. 2023. 2025.

El cambio conceptual más radical de GA4 respecto al sistema antiguo es que abandona el foco en "Páginas Vistas aisladas" para centrarse en: El peso en bytes descargados. Medir las acciones reales a través de múltiples dispositivos y en el tiempo. Las visitas a la tienda física usando geolocalización. Modelar el HTML de forma semántica.

En Google Analytics 4, toda acción (clic en botón, visualización de vídeo, scroll, descarga) se mide bajo un mismo prisma llamado: "Page Load". "Sesión Activa". "Evento". "Ping".

Medir exclusivamente con "Eventos" es ideal para las webs modernas (como las Single Page Applications) porque: Reducen la factura eléctrica de los servidores. Capturan interacciones complejas de forma flexible aunque la URL física nunca cambie al navegar. Permiten eludir las leyes europeas de cookies de terceros. Ignoran las visitas de móviles antiguos.

Respecto a la medición de dispositivos, el viejo sistema analítico contaba a una misma persona en PC y Móvil como: Un mismo visitante. Dos visitantes únicos separados. Un robot no clasificado.. Un evento de rebote simultáneo.

¿Cómo soluciona GA4 el problema del seguimiento multi-dispositivo?. Obliga a los usuarios a escanear su DNI en cada visita. Registra la dirección MAC del adaptador de red. Usa Inteligencia Artificial para conectar acciones cruzadas, unificando el "viaje" y evitando contar visitantes de más. Prohíbe que el usuario cambie de dispositivo en medio de una compra.

¿Qué capacidad de Machine Learning automático incorpora GA4 a nivel predictivo de negocio?. Redactar artículos automáticos para el blog. Predecir qué grupos de usuarios tienen la mayor probabilidad matemática de comprar en los próximos 7 días, permitiendo impactarlos publicitariamente. Predecir los números premiados de la lotería cruzando datos. Enviar quejas de soporte por adelantado al correo del usuario.

¿Cómo interviene la Inteligencia Artificial de GA4 cuando un porcentaje del tráfico rechaza las cookies legales y "desaparece" de los datos reales?. GA4 les deniega el acceso a la web automáticamente. Suplanta la identidad del ISP del cliente para saltarse la restricción. Usa Modelado de Datos (IA) para predecir, estimar y "rellenar los huecos" extrapolando el comportamiento de quienes sí aceptaron. Convierte las visitas nulas en errores 404.

La herramienta avanzada de GA4 que sustituye a las "tablas e informes aburridos fijos" permitiendo interfaces personalizadas de arrastrar y soltar se denomina: Exploraciones. Data Studio Antiguo. Matriz Dispersa. Logs Asíncronos.

La "Exploración de Rutas" en GA4 es visualmente potente porque permite: Ver los cables de fibra óptica del centro de datos local. Hacer un mapa de calor estático de la página de inicio. Elegir un evento final (ej. Compra) y ver gráficamente "hacia atrás" qué pasos previos dio la gente en su navegación. Analizar el log CLF del servidor apache.

Históricamente, las "Conversiones" implicaban configurar urls de destino (ej. /gracias). En GA4, esto se ha simplificado de forma que: Cualquier evento registrado (ej. un clic) puede ser ascendido a Conversión activando un simple interruptor. Las conversiones ya no existen, solo se miden los embudos. Se requiere que Google audite manualmente la web durante un mes. Dependen de las visitas combinadas en redes sociales.

Declarar correctamente las Conversiones en GA4 es crítico a nivel publicitario para: Pagar menos servidor de alojamiento mensual. Optimizar las campañas de marketing sabiendo exactamente qué anuncio trajo a la gente que sí cumplió el objetivo. Cambiar los colores de los banners para que contrasten mejor. Bloquear IPs de la competencia.

Los "Embudos de Conversión" (Funnels) sirven específicamente para: Redirigir el spam hacia otras webs competidoras. Analizar en qué paso exacto de una secuencia de acciones (Añadir al carrito -> Pago) están abandonando la web los usuarios en masa. Mezclar visitantes móviles y de PC. Aumentar la velocidad general de renderizado de la web HTML.

Si un "Exploración de embudo" en GA4 dice que 1000 añaden al carrito, 950 llegan al registro de envío, y 10 finalizan pago. El problema evidente reside en: El catálogo de productos en la portada inicial. La página de agradecimiento post-venta. La transición entre el registro de envío y la pasarela de pago final. Los usuarios tienen bloqueadas las imágenes PNG.

El "Informe de Usuarios" o "Datos Demográficos y Tecnología" resulta vital para: Identificar el momento exacto en que falló la pasarela bancaria. Saber qué palabras clave se usan en Google. Adaptar técnica y estéticamente el sitio web. Analizar el número de abandonos del embudo.

El tráfico catalogado como "Directo" en la sección de Adquisición representa a usuarios que: Buscan el nombre de la empresa en Google o Bing. Llegan desde un anuncio de pago en Facebook. Escriben la URL completa a mano en el navegador o la tienen en marcadores. Pinchan un banner en un blog asociado.

El tráfico "Referido" (Referral) designa a visitas que: Aparecen en la página por arte de magia. Clicaron en un hipervínculo en otra página web de terceros distinta a la nuestra o de un motor de búsqueda. Vinieron como resultado orgánico número uno. Provienen exclusivamente del envío masivo de correos electrónicos.

Entender por qué "palabras" o "términos de búsqueda internos" nos visitan (Informe de Interacción) revela: Lo que la gente espera encontrar pero que no es visible o accesible a simple vista en los menús principales. Las vulnerabilidades del servidor frente a inyecciones de bases de datos. Los códigos promocionales que ya han caducado en la base de datos SQL. El salario medio del visitante recurrente mensual.

El "Flujo de Usuarios" (User Flow) muestra gráficamente: Cuántos megabytes gastan los usuarios por sesión activa. Los saltos reales de una página a otra para entender las estructuras de navegación intrincadas elegidas libremente por la gente. La antigüedad de los dispositivos conectados. El impacto ambiental del uso de internet sobre las comunicaciones.

¿Cómo categoriza el informe de Adquisición a alguien que entra porque vio y cliqueó en un resultado gratuito de Google tras teclear un problema?. Tráfico de Campaña Pagada (PPC). Tráfico Social. Tráfico Orgánico (Organic Search). Tráfico Directo Profundo.

En GA4, si queremos encontrar las "Páginas de Entrada" (Landing Pages por donde inicia el viaje), debemos acudir al informe de: Páginas y Pantallas (Contenido o Interacción). Datos Demográficos del Usuario y Dispositivos. Log Crudo de Apache CLF. Exploración del embudo publicitario cerrado.

Identificar el contenido más leído a través del informe "Páginas y pantallas" permite estratégicamente: Disminuir las ventas totales subiendo precios para evitar colapsos. Eliminar la sección para balancear el tráfico con zonas menos visitadas. Potenciar el contenido estrella situando las llamadas a la acción (CTA) y ofertas comerciales justo allí. Bloquear la entrada a robots competidores europeos.

Denunciar Test