option
Cuestiones
ayuda
daypo
buscar.php

Preguntas RI Teoría

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
Preguntas RI Teoría

Descripción:
ayuda por favor

Fecha de Creación: 2024/05/16

Categoría: Otros

Número Preguntas: 37

Valoración:(2)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

1. Al evaluar dos sistemas de RI A y B. Para cualquier query, si A es mejor que B en P@10, también A es mejor que B en P@20. Para cualquier query, si A es mejor que B en Recall@10, también A es mejor que B en Recall@20. Para cualquier query, si A es mejor que B en AP@10, también A es mejor que B en AP@20. AP@k es AP computada hasta la posición k del ranking. ninguna de los anteriores.

2. Al hacer la comparación de dos sistemas one sided (A mejor que B) con el test t de significancia estadística y una métrica determinada. Un p-valor de 0.03 indicaría que para esa métrica en promedio A es mejor que B en al menos un 3%. Que podemos rechazar la hipótesis nula si el nivel de significancia es mayor que el p-valor. Que podemos rechazar la hipótesis nula si el nivel de significancia es menor que el p-valor. ninguno de los anteriores.

3. Cuales de los siguientes NO puede ser un index term. un adverbio. un word stem. un n-gram de n caracteres. todos los anteriores SI pueden ser index terms.

4. La ley de Heap y=f(x). relaciona la frecuencia de ocurrencia de una palabra (y) con su rango por frecuencia (x) en una colección de documentos. relaciona el tamaño del vocabulario (y) con el número de index terms (x) de la colección. relaciona el tamaño del vocabulario (y) con el número de documentos (x) de la colección. ninguna de las anteriores.

5. En un servidor web el archivo robots.txt permite. bloquear el acceso de ciertos crawlers. bloquear el acceso desde ciertas direcciones IP. especificar directorios a los que no debe acceder el crawler. ninguna de las anteriores.

6. Los sitemaps ayudan a los crawlers a realizar su tarea y son generados por. un módulo del search engine de análisis de enlaces. un módulo del search engine de análisis de contenidos textuales. un módulo del search engine que analiza enlaces y contenidos textuales. ninguna de las anteriores.

7. Un algoritmo de detección de duplicados basado en técnicas de checksum. sólo permite detectar duplicados exactos. permitiría detectar near-duplicates pero sólo de imágenes o videos. permitiría detectar near-duplicates pero sólo de textos. ninguno de los anteriores.

8. En un índice en cuyas listas invertidas sólo se registran los documentos donde aparecen los términos con la técnica de d-gaps. no puede computarse ningún modelo vectorial porque es un índice diseñado para el modelo booleano de IR. puede usarse para computar un modelo vectorial basado en similaridad de coseno y esquema de pesado raw tf x idf en queries y tf binario x idf en documentos. no puede computarse ningún modelo vectorial porque no se registra la frequencia de los términos ni en los documentos ni en las queries. ninguna de las anteriores.

9. Los search engines. no pueden hacer caching de listas de resultados porque éstas son inmensas. no pueden hacer caching de listas de los índices invertidos porque éstas son inmensas. no pueden hacer caching de resultados ni de listas de los índices invertidos porque cambian muy dinámicamente. hacen caching de listas de resultados comunes y listas de los índices invertidos de términos frecuentes.

10. Un problema con el modelo booleano de RI es que. no se pueden procesar consultas sobre índices invertidos. para procesar consultas es necesario el direct file. no puede ser un modelo eficaz de RI. ninguna de las anteriores.

11. Suponga que una colección de documentos se representa por una matriz términos x documentos (o lo que es lo mismo, palabras_únicas x documentos) que recoge en cada posición de la matriz el tf(t, d). La matriz ocupa un espacio de almacenamiento en bytes de número_términos x número_documentos x bytes_por_posición. Considere que se eliminan los tokens (una palabra que se repite dos veces en la colección son 2 tokens) que representan el 30% de tokens de la colección pero que se eliminan: A) empezando por los tokens del término de orden 1 según la Ley de Zipf y siguiendo por los tokens del término de orden 2 y así consecutivamente hasta completar el 30% de tokens totales de la colección B) empezando por el orden opuesto según la ley Zipf, es decir, empezando por el término que está en el extremo derecho de la cola de la Ley de Zipf y siguiendo por los términos hacia la izquierda hasta completar el 30% de tokens. Haciendo B) se reducirá más espacio en la matriz términos por documentos que haciendo A). V. F.

12. Se usa la media harmónica en la métrica F1 en lugar de la aritmética para poder promediarla para todas las queries. V. F.

13. La medida de similaridad de coseno es ampliamente usada en el modelo de espacio vectorial de IR por su menor complejidad computacional con respecto a la distancia euclídea. V. F.

14. Puede haber una query para la que P@2 puede tener el valor 0.2. V. F.

15. Dado un benchmark de evaluación de IR de gran tamaño (gran número de documentos, queries y juicios de relevancia), si el sistema A alcanza un MAP=0.33 y el sistema B un MAP=0.81, esto implica que la mejora del sistema B con respecto al sistema A es estadísticamente significativa. V. F.

16. Un search engine vertical (diseñado para búsqueda temática) el crawling debe hacerse con una estrategia de primero en profundidad. V. F.

17. Con el modelo de IR de Language Models el smoothing no debe aplicarse a los documentos que contienen todos los términos de la query. V. F.

18. El algoritmo de procesamiento de consultas Document-at-a-Time puede adaptarse para computar el score con el modelo de Query Likelihood con suavización de Dirichlet. V. F.

19. El algoritmo de procesamiento de consultas Document-at-a-Time puede adaptarse para computar el score con el modelo de Query Likelihood con suavización de Jelinek-Mercer. V. F.

20. Con el método de pooling, en la iniciativa TREC, con un esfuerzo asesor razonable, se consiguen etiquetar todos los documentos relevantes de las colecciones usadas en TREC. V. F.

21. Considere un documento D en una colección. Suponga que se añade otro documento que es una copia de D a la colección. Considera que no se produce el caso de que existan palabras que aparecen en todos los documentos de la colección. Para todas las palabras de la colección el idf logarítmico, idf(w), aumenta. Para todas las palabras de la colección el idf logarítmico, idf(w), disminuye. Para las palabras de D el idf disminuye y para el resto aumenta. Para las palabras de D el idf aumenta y para el resto disminuye. Ninguna de las anteriores es cierta.

22. Considere una colección de documentos y un documento D. Considere que el documento se cambia duplicando su contenido. Considere modelos de lenguaje con suavización de Jelinek-Mercer. Considerando el antes y después del cambio en D... El modelo de lenguaje del documento D queda igual. El modelo de lenguaje del documento D cambia. El modelo del lenguaje del documento D cambia sólo para los términos de la consulta. El modelo del lenguaje del documento D cambia sólo para los términos que no están en la consulta.

23. Considere el hilo de crawling visto en clase. Con la implementación adecuada de la frontera puede hacerse crawling primero en anchura o primero en profundidad de los sitios webs. V. F.

24. El archivo robots.txt que especifica la política de exclusión de robots reside en el módulo del crawler encargado de cumplir con el requerimiento de politeness. V. F.

25. Considere el hilo de crawling visto en clase. Para adaptarlo para un hilo de un focused crawler, sería suficiente con usar como semillas páginas autoritarias de la temática con la que pretende tratar el search engine. V. F.

26. Un índice invertido que almacena las posiciones de las palabras en los documentos, no podría almacenar también los byte-offsets de las palabras (el byte-offset indica el byte-offset del documento donde empieza la palabra, mientras la posición indica la posición de la palabra en el documento, es decir no contienen la misma información). V. F.

27. En un índice invertido, idf(t), inverso de la frecuencia de documento de un término t, no se almacena en el índice sino que se computa en tiempo de procesado de consultas. V. F.

28. El algoritmo de Rocchio fue ideado para la tarea de Real Relevance Feedback pero puede usarse en la tarea de Pseudo-Relevance Feedback. V. F.

29. En el modelo de Relevance Models, Pq1(word|R) indica la probabilidad de una palabra en el modelo de relevancia para una query q1. Si un usuario formula una query q2, inmediatamente después de formular q1, y el search engine decide hacer Pseudo-Relevance Feedback, podría reusar Pq1(word|R) como modelo de relevancia de q2. V. F.

30. Dada una query q, si un sistema de recuperación de información A tiene mejor P@5 que otro sistema B, entonces se garantiza que A también tiene mejor R@5 que B. V. F.

31. Dada una query q, si un sistema de recuperación de información A tiene mejor P@10 que otro sistema B, entonces se garantiza que A también tiene mejor AP@10 que B. V. F.

32. En un benchmark que tiene 100 queries de test, si un sistema de recuperación de información A tiene un MAP mayor del 10% que el MAP del sistema B, se garantiza que la diferencia es estadísticamente significativa con un nivel de significancia alpha=0.05, es decir, nivel del significancia del 5%, y medida con el t-test. V. F.

33. Un documento es relevante. si contiene todos los términos de búsqueda. si contiene algún término de búsqueda. si responde a la necesidad de información formulada en la consulta. ninguno de los anteriores.

34. La eficacia de un sistema de RI mide. la calidad del ranking de resultados. la calidad de las consultas formuladas. la calidad de los snippets de resultados y de la visualización de los mismos. ninguno de los anteriores.

35. En un sistema de RI, el tokenizador se aplica. después de aplicar el parser a los documentos. después de filtrar las stop words. después de aplicar el algoritmo de stemming. en cualquier momento de los anteriores.

36. Los sitemaps ayudan a los crawlers en su función y son generados por. un módulo del search engine de análisis de enlaces. un módulo del search engine de análisis de contenidos textuales. un módulo del search engine que analiza enlaces y contenidos textuales. ninguna de las anteriores.

37. EI anchor text. puede ser usado por los web spammers para sus objetivos. es detectado por los parsers y descartado como contenido textual. es detectado por los parsers y pasado como entrada al algoritmo PageRank. ninguna de las anteriores.

Denunciar Test