Mineria T4
|
|
Título del Test:
![]() Mineria T4 Descripción: Mineria T4 |



| Comentarios |
|---|
NO HAY REGISTROS |
|
En el análisis de redes sociales, las transferencias de materiales o las evaluaciones entre personas se conceptualizan como: Propiedades de los nodos. Conexiones relacionales. Vectores de prestigio. Unidades sociales colectivas. ¿Cuál de las siguientes métricas es una propiedad exclusiva de los nodos en grafos NO dirigidos?. Prestigio de proximidad. Prestigio de rango o estatus. Prestigio de grado. Interrelación. Si afirmamos que "un actor es central si es el más activo y tiene más relaciones", nos estamos refiriendo a la métrica de: Índice de cercanía. Prestigio de proximidad. Centralidad de grado. Índice de interrelación. Para estandarizar la Centralidad de grado, la fórmula divide los enlaces del nodo entre una variable g-1. ¿Qué representa g?. El grado máximo del grafo. La distancia geodésica del grafo. El número de enlaces totales de la red. El tamaño del grupo. El Índice de cercanía se basa en la idea de que un actor es central si puede interactuar rápidamente con los demás. Para calcularlo, su fórmula original utiliza en el denominador: El número total de aristas de la red. La suma de las distancias geodésicas desde el actor i al actor j. El número de geodésicas entre j y k que pasan por i. El vector propio de la matriz sociométrica. Si un actor se sitúa frecuentemente en el camino más corto (geodésica) entre otros dos actores, obtendrá un valor alto en. Prestigio de rango. Centralidad de grado. Índice de interrelación. Prestigio de proximidad. ¿Qué métrica asume que "los actores con mucho prestigio reciben muchas nominaciones"?. Índice de interrelación. Prestigio de proximidad. Prestigio de rango o estatus. Prestigio de grado. El Prestigio de proximidad se diferencia del Prestigio de grado en que. Se aplica exclusivamente a grafos no dirigidos. Tiene en cuenta no solo los actores directamente relacionados, sino también los indirectos. Se resuelve mediante descomposición en valores propios. Su valor siempre es inversamente proporcional a la distancia geodésica. La idea de que el prestigio de un actor depende del prestigio de los actores que lo han elegido corresponde al. Prestigio de rango o estatus. Índice de interrelación. Prestigio de proximidad. Prestigio de grado estandarizado. Matemáticamente, la resolución del Prestigio de rango o estatus en forma matricial se realiza mediante: Multiplicación de la matriz por el factor de amortiguación. El cálculo de la distancia geodésica estandarizada. Descomposición en valores propios. El algoritmo HITS. En el cálculo de Prestigio mediante "Power Iteration", ¿qué acción se realiza dentro del bucle en cada iteración tras multiplicar la matriz por el vector?. Se normaliza el resultado. Se le resta la constante de amortiguación. Se calcula el centroide de los vectores. Se elimina el nodo de menor grado. En un grafo dirigido, las relaciones se representan mediante: Líneas sin pesos. Flechas. Supernodos. Matrices estocásticas inversas. El algoritmo "Random Walk" (o "Surfeador Aleatorio") en el que se basa PageRank asume que el usuario: Salta a las páginas con mayor similitud semántica. Salta de un hiperenlace a otro aleatoriamente con probabilidad uniforme. Evalúa el contenido del conjunto base antes de saltar. Sigue únicamente los enlaces hacia nodos con mayor prestigio de rango. Según la propagación de PageRank, si una página v tiene un prestigio total y enlaza a Nv páginas, ¿qué cantidad de prestigio recibe una página u desde v?. Salta a las páginas con mayor similitud semántica. Salta de un hiperenlace a otro aleatoriamente con probabilidad uniforme. Evalúa el contenido del conjunto base antes de saltar. Sigue únicamente los enlaces hacia nodos con mayor prestigio de rango. Para iniciar el cálculo matemático del PageRank, el punto de partida es asignar a todos los nodos: Un prestigio igual a su número de enlaces entrantes. Un prestigio de 0. Un prestigio igual a 1 / N. El mismo prestigio = 1. ¿Qué problema matemático y conceptual en la red se conoce como "Rank Sink"?. Cuando una página tiene muchos enlaces salientes y diluye su prestigio. Páginas que no tienen enlaces entrantes. Bucles donde el surfeador queda atrapado. El ataque coordinado de granjas de enlaces para inflar el ranking. ¿Cuál es la consecuencia directa de caer en un Rank Sink?. El PageRank general de la red se vuelve estocástico. Estas páginas acumulan prestigio y nunca lo distribuyen. La matriz de transición se vuelve fuertemente conexa. El algoritmo Louvain no puede encontrar comunidades. En la fórmula matemática para solucionar el Rank Sink (PR(u) = (1-d) * E(u) + d* Sumatorio ... ), el vector E(u) modela: La probabilidad de que un usuario salte a otra página fuera del bucle. El factor de amortiguación. El prestigio inicial de los nodos. El número de enlaces salientes. Para que el PageRank converja a una solución única, la matriz de transición debe ser "Estocástica". Esto significa que: No tiene bucles cíclicos infinitos. Cada fila suma 1. El grafo es fuertemente conexo. Permite la personalización temática. El concepto de matriz "Irreducible" en la convergencia del PageRank garantiza que: Cada fila sume 1. Se evite que el algoritmo entre en bucles cíclicos. El grafo sea fuertemente conexo, evitando los rank sinks. Los enlaces internos se penalicen con un peso de 0. ¿Qué propiedad matemática garantiza evitar que el algoritmo entre en bucles cíclicos infinitos?. Que la matriz sea Estocástica. Que la matriz sea Aperiódica. Que la matriz sea Irreducible. Que la red tenga una modularidad alta. En el cálculo de PageRank por Power Iteration (con amortiguación), ¿cuál es la condición de parada del bucle?. Cuando la iteración llegue a 1 / Nv. Cuando la modularidad Delta Q sea negativa. Detener cuando la diferencia entre iteraciones sea mínima (|PR_i - PR{i-1}| < epsilon). Cuando el grafo deje de ser estocástico. ¿Cómo permite el "Rank Source" la personalización de las búsquedas?. Ponderando negativamente las páginas con alto índice de interrelació. Eliminando sistemáticamente los nodos de bajo grado. Modificando E(u) para que apunte a una página de inicio personal o temática. Calculando la similitud del coseno respecto al centroide de la consulta. Además de resolver el Rank Sink y permitir la personalización, otra ventaja fundamental del Rank Source es: Reducir el coste computacional en tiempo real. Permite distinguir roles funcionales de concentradores y autoridades. Permite trabajar con grafos con partes desconectadas. Evita el problema del cambio de tema (generalización). Si una página Web A enlaza a las páginas B, C y D, y la matriz de adyacencia de PageRank (antes del factor de amortiguación) representa estas conexiones de salida desde A, ¿qué valor tomarán las posiciones correspondientes a B, C y D en la fila/columna de A?. 1. 1/3. 0.85 por el factor d. Depende de la autoridad de B, C y D. El principal problema que motiva la creación de HITS, frente al uso exclusivo de PageRank, es que: PageRank no puede resolver grafos desconectados. PageRank requiere descomposición de valores propios estocásticos. Muchos enlaces en la Web no son por contenido, sino por publicidad o navegación. PageRank favorece a las páginas de creación muy reciente. Una diferencia fundamental de HITS respecto a PageRank es su enfoque sobre la porción de la Web a analizar: HITS analiza siempre el grafo completo para dar relevancia global. HITS se centra en una parte pequeña del grafo dependiente de la consulta. HITS no usa grafos, solo vectores de documentos. HITS se centra únicamente en páginas sin enlaces salientes. En la terminología de HITS, una "Autoridad" se define como: Una página que no tiene el contenido pero apunta a muchos recursos. Una página estocástica y fuertemente conexa. Una página de inicio personal o temática configurada mediante Rank Source. Páginas con muy buen contenido sobre el tema. En el algoritmo HITS, un "Concentrador" o "Hub" es: Una página que apunta a múltiples páginas autoritarias, como listas de recursos o portales. Un nodo central en el cálculo del índice de cercanía. Una página que retiene prestigio sin distribuirlo (Rank Sink). Una comunidad de nodos fuertemente entrelazados. El concepto de "Refuerzo Mutuo" en HITS establece que: Una buena autoridad apunta a otras buenas autoridades. Un buen hub es apuntado por muchos buenos hubs. Una buena autoridad es apuntada por muchos buenos hubs, y un buen hub apunta a muchas buenas autoridades. El PageRank de una autoridad refuerza el PageRank de su hub. En el proceso de HITS, el conjunto de páginas relevantes obtenidas inicialmente por un motor de búsqueda estándar para una consulta concreta se denomina: Conjunto Raíz. Conjunto Base. Supernodo. Matriz Sociométrica. ¿Cómo se construye el "Conjunto Base (S_q)" a partir del Conjunto Raíz en HITS?. Eliminando las páginas con PageRank inferior a la media. Añadiendo páginas que apuntan a R_q y páginas apuntadas por R_q. Calculando el centroide de R_q y expandiendo por similitud del coseno. Buscando grafos fuertemente conexos dentro de R_q. En el algoritmo HITS, la puntuación de Autoridad (a_i) de una página se actualiza calculando. La suma de los pesos de las autoridades a las que apunta. La suma de los pesos de los hubs que la apuntan. La división entre sus enlaces entrantes y salientes. El PageRank del Conjunto Raíz. . De forma análoga, la puntuación de Hub (h_i) de una página se obtiene calculando: La suma de los pesos de los hubs a los que apunta. El logaritmo de los enlaces salientes. La suma de los pesos de las autoridades a las que apunta. La inversa de la matriz de transición. En la representación matricial de HITS, el vector de Autoridades (A) converge al vector propio principal de la matriz: AA^T. A^TA. M{u,v}. R * P. En la representación matricial de HITS, el vector de Hubs (H) converge al vector propio principal de la matriz: AA^T. A^TA. (1-d)E(u). La matriz de adyacencia Delta Q. Tras realizar una iteración del algoritmo HITS actualizando los valores $a$ y $h$, ¿qué paso es obligatorio antes de la siguiente iteración?. Expandir de nuevo el Conjunto Base. Descartar los nodos con valor menor a 0. Normalizar los vectores a y h. Aplicar el factor de amortiguación. Comparando PageRank y HITS, ¿qué métrica representa una "Relevancia Global Estática"?. La puntuación de Autoridad de HITS. PageRank, porque actúa puramente como "votos" en la topología total, independientes de qué se busque. Ambas. El Hub de HITS. Entre las ventajas de PageRank señaladas en la comparativa se encuentra: Su bajo coste computacional en tiempo real al expandir el subgrafo. Su capacidad para distinguir roles funcionales. Ser resistente al SPAM. Estar diseñado específicamente para cada consulta. ¿Cuál es una de las desventajas críticas de HITS indicada en el tema?. Favorece excesivamente a las páginas antiguas. Solo mide relevancia global independiente de la consulta. Entra en bucles infinitos sin el factor de amortiguación estocástico. Tiene un alto coste computacional en tiempo real y es sensible al SPAM local. La hipótesis base para la "Búsqueda de Similitud basada en Enlaces" establece que: Dos páginas son similares si sus URL canónicas son idénticas. Las páginas cercanas en el grafo de enlaces (distancia 1 o 2) suelen tratar temas similares. Solo las autoridades de un grafo estocástico pueden compartir tema. El PageRank de páginas similares debe ser numéricamente igual. Al expandir el conjunto base (S_q) podemos incluir páginas ajenas al tema que buscamos. Este problema se conoce como: Rank Sink. Nepotismo. Generalización / Cambio de tema. Estructura Anti-modular. El problema del "Nepotismo" en las técnicas de rankings de páginas ocurre cuando: El algoritmo HITS procesa autoridades antes que concentradores. Hay enlaces entre páginas del mismo servidor/dueño para inflar artificialmente el ranking. Las páginas están a una distancia geodésica mayor a 3. La matriz del grafo no es irreducible. Una solución sencilla y directa aplicada para mitigar el problema del Nepotismo consiste en: Usar técnicas de filtrado y reranking en el Conjunto Raíz. Penalizar enlaces internos asignándoles pesos W = 0. Asignarles un factor de amortiguación de 1. Eliminar a las páginas origen de la red sociométrica. Durante la detección de outliers por clustering, ¿qué criterio matemático se usa para descartar una página durante la expansión?. Si su PageRank es menor que el valor de amortiguación d. Si su vector de autoridad en la matriz A^T*A es cero. Si su similitud del coseno con el centroide del conjunto inicial es inferior a un umbral. Si pertenece a un servidor con índice de nepotismo de peso 0. En la mejora de rankings, para resolver el problema de la "Detección de Outliers" (páginas alejadas del tema real), se recomienda una aproximación basada en: Clustering, representando las páginas en un espacio vectorial. Aumentar el valor de Delta Q. El método Rocchio. Reducir el PageRank de los hubs. En el contexto de la minería web, se define formalmente una "comunidad" como: Un conjunto de nodos aislados que no participan en el PageRank. Un Conjunto Raíz devuelto por un motor de búsqueda comercial. Un conjunto de nodos fuertemente entrelazados entre sí, con menos enlaces hacia el exterior. Un hub que apunta a más de 10 autoridades. ¿Por qué es vital en minería web la detección de comunidades?. Para poder dirigir publicidad o recomendaciones hiper-personalizadas al grupo correcto y ver el flujo de información. Exclusivamente para eliminar el SPAM de los motores de búsqueda. Para transformar la web en una matriz estocástica irreducible. Para sustituir la evaluación de PageRank por una evaluación semántica local. Los algoritmos especializados buscan los pequeños núcleos de las comunidades utilizando la técnica de: Sumar las similitudes coseno de los outliers. Eliminación sistemática de nodos de bajo grado, aislando la comunidad del ruido. Búsqueda primero en anchura (BFS) exhaustiva. Incremento exponencial del parámetro de amortiguación $d$. ¿Qué métrica nos permite saber si un grafo está "bien" dividido en comunidades comparando la densidad de enlaces internos con un grafo aleatorio?. El vector de prestigio propio. El Centrality Index estandarizado. La Modularidad (Q). El Hub Vector. En la fórmula matemática de la Modularidad (Q), ¿qué representa la función Delta de Kronecker (delta(c_i, c_j))?. El número total de enlaces entre i y j. Una función de amortiguación para evitar bucles. Es 1 si los nodos están en la misma comunidad, y 0 si no. La diferencia entre el grado de ambos nodos. Si calculamos la Modularidad de una red y obtenemos un valor $Q > 0$ (por ejemplo, 0.5), esto nos indica que: La red se comporta como si los enlaces se hubieran repartido al azar. La red tiene comunidades reales (Estructura Modular) bien definidas. Los nodos prefieren enlazarse con nodos de otras comunidades. El algoritmo de PageRank ha convergido exitosamente. Si un grafo tiene una estructura disociativa o bipartita (los nodos prefieren conectarse a miembros fuera de su propio grupo), su Modularidad será: Q = 1. Q = 0. Q > 0.5. Q < 0. El Método de Louvain es un algoritmo utilizado para descubrimiento de comunidades. El temario lo describe como: Exhaustivo, lento y plano. Heurístico, rápido y jerárquico. Algebraico, probabilístico y lineal. Estocástico, aperiódico e irreducible. ¿Cuál es el único objetivo matemático del Método de Louvain?. Maximizar la Modularidad de la red. Encontrar el vector de PageRank global en tiempo real. Minimizar el coeficiente de nepotismo de la red. Aumentar el número total de comunidades al máximo posible. En el Método de Louvain, el algoritmo evalúa constantemente una variable llamada Delta Q ¿Qué significa este valor?. Es la pérdida de autoridad del hub al moverse. Es la Ganancia de Modularidad que se produce al cambiar a un nodo de comunidad. Es la diferencia de PageRank entre dos iteraciones consecutivas. Es el factor de amortiguación dinámico. En la Fase 1 del Método Louvain (Optimización Local), un nodo i se moverá a la comunidad C de un vecino solo si: El nodo i tiene un grado menor que el vecino. El cálculo de Delta Q > 0. La comunidad C no tiene enlaces externos. Se ha alcanzado un consenso de PageRank. En la Fase 2 del Método Louvain (Agregación), ¿qué ocurre con las comunidades calculadas en la Fase 1?. Se eliminan si su grado es bajo para limpiar el ruido. Se dividen en sub-nodos para mayor granularidad. Se re-calculan utilizando un algoritmo BFS estándar. Se construye un nuevo grafo reducido donde cada comunidad se convierte en un único Supernodo. Al crear los Supernodos en la Fase 2 del Método de Louvain, ¿cómo se determinan los pesos de los enlaces entre ellos?. Se suman los enlaces entre los nodos individuales de las distintas comunidades. Se asigna un peso de 1 a todos los enlaces para evitar el nepotismo. Se calcula la similitud del coseno de los centroides de ambos Supernodos. Se multiplican por el índice de interrelación. Cuándo finaliza completamente el algoritmo de Louvain (después de las Fases 1 y 2 iterativas)?. Cuando queda un único Supernodo englobando toda la red. Cuando la matriz de adyacencia se vuelve completamente estocástica. Cuando se evalúa que agrupar más Supernodos daría un Delta Q negativo (ningún nodo/supernodo puede moverse mejorando Q). Después de exactamente 100 iteraciones (condición de parada heurística). ¿Cuáles son las tres propiedades de los nodos en grafos NO dirigidos según el temario?. Prestigio de grado, prestigio de proximidad y prestigio de rango. Centralidad, cercanía e interrelación. Autoridad, hub y modularidad. entralidad, prestigio de grado e interrelación. En el Índice de cercanía estandarizado, ¿cuál es la diferencia respecto a la fórmula original. Divide entre el factor de amortiguación d. Multiplica por (g-1) para normalizar respecto al tamaño del grupo. Sustituye la distancia geodésica por la similitud coseno. Usa valores propios en lugar de sumatorias. El "Refuerzo Mutuo" de HITS implica que si una página pierde calidad como autoridad. Su puntuación hub permanece inalterada al ser independiente. Los hubs que la apuntaban perderán también parte de su puntuación hub en las iteraciones. El PageRank global de la red sube compensatoriamente. Se reclasifica automáticamente como callejón sin salida. Según la comparativa PageRank vs HITS del ejemplo numérico, ¿qué nodo tiene la mejor puntuación de Autoridad?. G (0.18). D (0.41). H (0.56). E (0.39). Qué problema específico resuelve que la matriz de transición de PageRank sea "Estocástica"?. Los bucles cíclicos infinitos. Los rank sinks. Las páginas sin enlaces de salida (callejones sin salida). La falta de personalización temática. En la Búsqueda de Similitud basada en Enlaces, el primer paso es: Calcular la modularidad del conjunto base. Encontrar páginas que apuntan a la página objetivo (Conjunto Raíz). Ejecutar la Fase 1 de Louvain sobre el conjunto expandido. Inicializar los vectores a y h a 1. ¿Qué representa Σ_in en la fórmula de ΔQ del Método de Louvain?. La suma de todos los pesos de la red completa. Los enlaces del nodo i hacia la comunidad destino. La suma de todos los pesos de los enlaces dentro de la comunidad destino. El número total de supernodos tras la Fase 2. Si en Power Iteration para Prestigio de Rango el vector converge a la misma solución en la iteración k y k+1, ¿qué significa?. Que el grafo no es fuertemente conexo. Que se ha alcanzado el vector propio principal de la matriz, indicando la solución estable. Que hay un rank sink en la red social. Que la normalización ha fallado. Un valor de Modularidad Q = 0 indica. Que las comunidades están perfectamente diferenciadas. Que los nodos prefieren enlazarse con nodos externos. Que la red se comporta como un grafo aleatorio sin comunidades reales. Que el algoritmo de Louvain no ha convergido. ¿Por qué PageRank "favorece a páginas antiguas" según el temario?. Porque su factor de amortiguación penaliza URLs recientes. Porque al ser global y precalculado, las páginas con más tiempo han acumulado más enlaces entrantes históricamente. Porque el vector E(u) apunta por defecto a las páginas indexadas primero. Porque la matriz estocástica asigna mayor peso a filas con valores más antiguos. |





