AYQSERMINERO_5
|
|
Título del Test:
![]() AYQSERMINERO_5 Descripción: Test de Minería Web |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es el desafío principal que justifica el uso de la Minería de Contenido Web en lugar de depender únicamente de los motores de búsqueda tradicionales por palabras clave?. Que los buscadores no indexan páginas que contengan código CSS moderno. El abrumador exceso de información y la falta de detalles sobre la estructura interna o la categorización temática automática de los resultados. La incapacidad de los servidores de DNS para resolver nombres de dominios con caracteres especiales. Que los motores de búsqueda tradicionales solo pueden leer bases de datos SQL relacionales. Al tratar las páginas web como documentos de texto para extraer conocimiento, ¿cuáles son los tres enfoques principales de minería que se pueden aplicar sobre el contenido?. Indexación invertida, renderizado asíncrono y enrutamiento proxy. Análisis de asociaciones, agrupamiento (clustering) y clasificación. Normalización lineal, parseo XML y hashing jerárquico. Similitud Jaccard, shingles de texto y reducción SVD. En el contexto de la minería mediante reglas de asociación (X --> Y), ¿cómo se define formalmente la métrica del Soporte (Support)?. Es la probabilidad condicional de encontrar el ítem Y dado que ya ha aparecido el ítem X. El porcentaje de transacciones totales dentro del conjunto de datos que contienen simultáneamente tanto a X como a Y. El número de iteraciones que requiere el árbol de prefijos para colapsar sus nodos. El ratio de error cometido al eliminar las palabras de parada (stopwords). ¿Qué mide exactamente la métrica de la Confianza (Confidence) en una regla de asociación X -->Y?. La probabilidad de que el algoritmo Apriori sufra un desbordamiento de memoria al calcular candidatos. La densidad de enlaces internos de una comunidad web dividida por el azar estadístico. La fiabilidad de la regla, expresada como la probabilidad condicional de encontrar el ítem Y en una transacción, dado que dicha transacción ya contiene el ítem X. El ángulo formado por los vectores de frecuencia en un espacio euclídeo. ¿Cuál es la premisa o principio fundamental (Principio de Monotonicidad) en el que se basa el Algoritmo Apriori para reducir el espacio de búsqueda de reglas?. Si un conjunto de ítems es frecuente, entonces todos sus subconjuntos también deben ser frecuentes. Si un conjunto de ítems es frecuente, todos sus superconjuntos inmediatos son obligatoriamente frecuentes. El número de candidatos crece de forma estrictamente decreciente con el tamaño de las transacciones. Solo las palabras con alto valor TF-IDF pueden formar conjuntos candidatos válidos. ¿Qué estrategia de exploración de grafos sigue el Algoritmo Apriori para descubrir los conjuntos de ítems frecuentes?. Búsqueda primero en profundidad (DFS - Depth First Search). Búsqueda heurística basada en el algoritmo A*. Búsqueda primero en anchura (BFS - Breadth First Search) nivel por nivel. Descenso de gradiente estocástico multivariable. ¿Cuál es el principal inconveniente o cuello de botella computacional del Algoritmo Apriori al trabajar con grandes volúmenes de datos web?. Que requiere que los datos estén completamente normalizados bajo una distribución gaussiana. La costosa y masiva generación de candidatos intermedios y la necesidad de escanear repetidamente la base de datos completa en cada nivel. Que no permite trabajar con variables de tipo booleano. Su extrema sensibilidad a la inicialización de los centroides iniciales. ¿Cómo consigue el Algoritmo FP-Growth (Frequent Pattern Growth) superar el cuello de botella de la generación de candidatos propio de Apriori?. Aplicando una función de hash lineal que elimina el 90% de las transacciones. Comprimiendo la base de datos en una estructura de árbol compacta en memoria llamada FP-Tree mediante una sola pasada inicial por los datos, absteniéndose por completo de generar candidatos. Transformando el texto en vectores continuos mediante redes neuronales. Dividiendo los datos mediante planos de separación simétricos. A pesar de su velocidad, ¿cuáles son las limitaciones técnicas que presenta el algoritmo FP-Growth?. No es adecuado para el aprendizaje continuo (online) debido a que cambios en los datos obligan a reconstruir el árbol, y el FP-Tree puede no caber en la memoria RAM si el dataset es altamente heterogéneo. Es incapaz de calcular la confianza de las reglas finales, limitándose solo al soporte. Requiere obligatoriamente que el número de transacciones sea un número primo para poder balancear el árbol. Solo funciona sobre documentos HTML que no dispongan de hipervínculos salientes. ¿Cuál es la diferencia conceptual crítica entre la Minería mediante Reglas de Asociación y la Minería de Patrones Secuenciales?. Las reglas de asociación solo sirven para imágenes y los patrones secuenciales para texto libre. En las reglas de asociación el orden de los factores no altera el soporte; en los patrones secuenciales el orden cronológico o topológico de los acontecimientos es estrictamente fundamental. Los patrones secuenciales no emplean el concepto de soporte mínimo. Las reglas de asociación son algoritmos supervisados y los patrones secuenciales son no supervisados. En la analítica web, ¿para qué es de especial utilidad el descubrimiento de patrones secuenciales?. Para encriptar las contraseñas de los usuarios en la base de datos del servidor. Para modelar y analizar los flujos de clics (clickstreams) o las sesiones de navegación cronológicas de los usuarios a través del sitio web. Para reducir el tamaño de las imágenes cargadas de forma asíncrona mediante JavaScript. Para calcular el vector estacionario de la Matriz de Google de forma estática. ¿Qué estrategia algorítmica utiliza el método PrefixSpan para la minería de patrones secuenciales de manera eficiente?. Generación exhaustiva de candidatos mediante un enfoque de fuerza bruta de tipo BFS. Una estrategia de "divide y vencerás" que segmenta el espacio de búsqueda mediante proyecciones de la base de datos basadas exclusivamente en prefijos y sufijos, evitando generar candidatos. Un remuestreo con reemplazo basado en la técnica de Bootstrapping. Una optimización local de la modularidad dividiendo el grafo en supernodos. ¿Qué optimización avanzada introduce PrefixSpan para evitar el consumo excesivo de memoria física derivado de la creación de múltiples bases de datos proyectadas en disco?. El uso de clasificadores perezosos basados en la distancia de Manhattan. La eliminación aleatoria de la mitad de las secuencias en cada iteración. El uso de pseudo-proyecciones, las cuales emplean punteros y desplazamientos (offsets) apuntando a la base de datos original en lugar de copiar físicamente los datos. La sustitución de la similitud del coseno por el coeficiente de Jaccard. ¿Qué caracteriza fundamentalmente al proceso de Agrupamiento (Clustering) en comparación con la Clasificación de contenido?. El clustering es un método de aprendizaje supervisado que requiere un conjunto de entrenamiento previamente etiquetado por expertos humanos. El clustering es un proceso de aprendizaje no supervisado cuyo objetivo es organizar documentos maximizando la similitud interna y minimizando la externa, sin conocer categorías previas. El clustering se limita a ordenar alfabéticamente las palabras clave del lexicón. El clustering utiliza la matriz de confusión como su principal herramienta de optimización en tiempo de ejecución. ¿Cuál es la métrica matemática de distancia o semejanza estándar y más adecuada para evaluar el parecido entre documentos de texto en minería web?. La Distancia Euclídea clásica. La Similitud del Coseno. El Coeficiente de Jaccard corregido por Laplace. La Distancia de Chebyshov. DENTRO DE LOS ALGORITMOS JERÁRQUICOS AGLOMERATIVOS, ¿CÓMO OPERA EL ENFOQUE CONOCIDO COMO "COMPLETE LINKAGE" (O ENLACE COMPLETO)?. Mide la distancia entre los dos centroides geométricos de los clusters analizados. Determina la distancia entre dos clusters basándose en la distancia máxima existente entre cualquier elemento del primer clúster y cualquier elemento del segundo clúster. Evalúa el solapamiento de las fronteras utilizando variables booleanas de Bernoulli. Utiliza la media aritmética de todas las distancias cruzadas posibles entre elementos. ¿Cuál es la función objetivo (criterio de optimización) que el algoritmo K-Means clásico intenta minimizar de forma iterativa?. La variación neta de la modularidad multinivel (Delta Q). La Suma de los Errores al Cuadrado (SSE - Sum of Squared Errors) de los puntos respecto a sus respectivos centroides asignados. La probabilidad a posteriori calculada mediante el teorema de Bayes. El número de falsos positivos en la matriz de diagnóstico. ¿Por qué el algoritmo K-Means clásico (basado en distancia euclídea) falla o rinde de forma deficiente al aplicarse directamente sobre colecciones de documentos web?. Porque las páginas web no contienen suficientes etiquetas HTML de tipo semántico. Debido a que los vectores de texto son de alta dimensionalidad y extremadamente dispersos (sparse), provocando que la distancia euclídea pierda significado físico, además de penalizar injustamente la diferencia de longitud entre textos. Porque K-Means exige que el número de grupos inicial K sea obligatoriamente igual a 2. Debido a que no puede procesarse mediante el método iterativo de la potencia. ¿Qué modificaciones críticas introduce la variante "Spherical K-Means" (K-Means Esférico) para adaptarse con éxito a la minería de texto web?. Sustituye las variables continuas por modelos lógicos de tipo caja negra. Reemplaza la distancia euclídea por la Similitud del Coseno y obliga a normalizar y proyectar los nuevos centroides en cada iteración sobre la superficie de una esfera unitaria. Restringe el análisis únicamente a sub-bases de datos proyectadas mediante prefijos secuenciales. Modifica las filas de la matriz para forzar saltos aleatorios uniformes con probabilidad 1-d. En el Agrupamiento Probabilístico basado en Modelos, ¿cuál es la ventaja conceptual de utilizar Modelos de Mezcla Gaussiana (GMM - Gaussian Mixture Models)?. Eliminan de forma definitiva la necesidad de ejecutar fases de maximización de parámetros. Permiten realizar un agrupamiento flexible (soft clustering), donde un documento no pertenece de forma exclusiva a un único grupo, sino que tiene un grado de probabilidad de pertenecer a cada uno de los diferentes temas. Garantizan que la convergencia global se alcance siempre en la primera iteración. Aíslan el spam web de forma automática mediante una semilla humana fiable. ¿Qué algoritmo matemático iterativo se emplea para optimizar y ajustar los parámetros (medias, covarianzas y pesos) en los Modelos de Mezcla Gaussiana?. El método de la potencia (Power Method). El Algoritmo de Expectación-Maximización (EM). El clasificador perezoso k-NN ponderado. El algoritmo heurístico codicioso de Louvain. ¿Qué ocurre exactamente durante el paso de Expectación (E-step) dentro del algoritmo EM aplicado a clustering?. Se recalculan los pesos de las aristas del grafo acumulando los arcos dirigidos paralelos. Se calculan las probabilidades a posteriori ("responsabilidades") de que cada clúster o componente gaussiana individual haya generado cada uno de los documentos del dataset. Se modifican los parámetros del modelo para maximizar de forma directa la función de log-verosimilitud global. Se eliminan los atributos redundantes que tengan una baja ganancia de información. ¿Qué acción formal se ejecuta durante el paso de Maximización (M-step) en el algoritmo EM?. Se expande el Root Set agregando las páginas un paso hacia adelante y hacia atrás. Se seleccionan los k vecinos más cercanos calculando la distancia euclídea multidimensional. Se actualizan los parámetros del modelo (medias, covarianzas y pesos de mezcla) de forma que se maximice la función de log-verosimilitud de los datos dadas las responsabilidades calculadas en el E-step. Se colapsan las comunidades descubiertas transformándolas en supernodos. ¿Cómo se define operativamente al clasificador k-Nearest Neighbors (k-NN) dentro de las técnicas de aprendizaje supervisado?. Como un modelo probabilístico paramétrico basado estrictamente en el Teorema de Bayes. Como un clasificador perezoso (lazy) que no construye un modelo abstracto durante el entrenamiento, sino que simplemente memoriza los datos y posterga el cálculo hasta el momento de clasificar un nuevo documento. Como una técnica de optimización secuencial orientada a corregir errores cometidos por modelos previos (Boosting). Como un árbol lofizárico que realiza podas de monotonicidad basadas en el soporte mínimo. Dentro del clasificador Naïve Bayes, ¿cuál es la asunción o hipótesis "ingenua" (naïve) que le da nombre al algoritmo?. Asume de forma ingenua que todas las clases del dataset disponen exactamente del mismo soporte. Asume que la longitud de los documentos web es idéntica en toda la muestra bajo estudio. Asume la independencia condicional de todas las características (palabras) entre sí dada la clase del documento. Asume que el spam web no puede comunicarse con páginas gubernamentales legítimas. ¿Qué diferencia técnica fundamental existe entre el modelo Naïve Bayes de Bernoulli (Booleano) y el modelo Naïve Bayes Multinomial?. El de Bernoulli solo se puede programar en lenguaje C y el Multinomial acepta JavaScript asíncrono. El modelo de Bernoulli considera únicamente la presencia o ausencia de cada palabra en el documento (vector binario), mientras que el modelo Multinomial tiene en cuenta la frecuencia de aparición (número de veces que se repite la palabra) de los términos. El modelo Multinomial no requiere aplicar la corrección de suavizado de Laplace. El modelo de Bernoulli calcula el soporte y el Multinomial calcula la confianza estructural. En la selección de características para la clasificación de textos, ¿cómo opera el "Ranking basado en Similitud"?. Cuenta cuántas veces se repite la palabra en los títulos y fragmentos (snippets) de los buscadores. Evalúa la relevancia de los atributos comparando documentos extremadamente similares entre sí, identificando aquellos que pertenecen a la misma clase (near hits) frente a los de clases distintas (near misses). Ordena las variables utilizando exclusivamente su longitud en caracteres HTML. Aplica una reducción multinivel dividiendo el conjunto base en un conjunto raíz expandido. Si un clasificador de páginas web de Spam obtiene una Precisión (Precision) del 95% pero una Exhaustividad (Recall) de solo el 40%, ¿cómo se interpretan correctamente estos resultados?. Que el modelo encuentra el 95% de todas las páginas de spam reales, pero comete errores en el 60% de los casos legítimos. Que de todo lo que el modelo etiqueta como "Spam", el 95% lo es de verdad (comete poquísimos falsos positivos); pero de todo el spam real que existe en la web, solo es capaz de detectar y cazar el 40% (sufre muchísimos falsos negativos). Que la efectividad (Accuracy) global del sistema es del 135% sumando ambos indicadores. Que el factor de amortiguación utilizado es insuficiente para garantizar la convergencia del vector. |





