T6 Mineria
|
|
Título del Test:
![]() T6 Mineria Descripción: T6 Mineria |



| Comentarios |
|---|
NO HAY REGISTROS |
|
¿Cuál es la principal diferencia conceptual entre la Minería de Opiniones y los Sistemas de Recomendación tradicionales?. La minería se basa exclusivamente en puntuaciones cuantitativas de los usuarios. Los sistemas de recomendación extraen el razonamiento subjetivo detrás de una compra. La minería indaga en el "porqué" de una valoración, extrayendo contenido subjetivo en lugar de predecir solo el interés. La minería de opiniones solo se aplica a productos comerciales, no a tendencias o política. Si un sistema asume que todo un texto trata sobre una única entidad y busca su orientación global, ¿en qué nivel de granularidad está operando?. A nivel de Aspecto/Entidad. A nivel de Documento. A nivel de Oración. A nivel de Quíntupla. En la frase "El restaurante estaba lleno. La comida fue excelente pero el camarero fue muy grosero", el análisis a nivel de aspecto/entidad devolvería: Una señal global neutra por compensación. "Restaurante" positivo, "Comida" positiva, "Camarero" negativo. "Comida" con polaridad positiva y "Camarero" con polaridad negativa. "Lleno" como aspecto descriptivo negativo. Al construir un Léxico de Opinión mediante diccionarios (ej. WordNet), ¿cuál es el principal inconveniente de iterar con sinónimos y antónimos?. Se agota rápidamente la semilla inicial de palabras. Ignora drásticamente el contexto o la jerga específica del dominio. Requiere intervención humana manual en cada iteración. Solo funciona con adjetivos y excluye verbos y sustantivos. El enfoque de "Corpus" para expandir el léxico resuelve los problemas contextuales analizando: La etimología de las palabras raíz. El co-posicionamiento de palabras y el uso de conectores lógicos como "Y" o "PERO". Las etiquetas HTML que rodean a los adjetivos. Diccionarios lexicográficos externos en tiempo real. Si dos adjetivos se conectan mediante la conjunción "Y" ("bueno y X") en un enfoque de corpus, el sistema infiere probabilísticamente que: Tienen polaridades opuestas. Comparten la misma polaridad. "X" es un sustantivo neutro. La frase es una opinión comparativa. La palabra "impredecible" es un ejemplo clásico para demostrar que: Los conectores lógicos no aplican a adverbios. Un léxico universal genérico fracasa si no se adapta al corpus u ontología del dominio específico. Las opiniones indirectas carecen de polaridad. El nivel de documento siempre acierta más que el de oración. En el modelado jerárquico de entidades, "Duración de la batería" de un móvil se clasificaría como. Entidad Raíz. Sub-componente físico. Atributo (Aspecto) de un sub-componente. Orientación explícita. En la formalización de la extracción de información, ¿qué elemento NO forma parte de la "Quíntupla de opinión" clásica?. Entidad. Poseedor (Emisor). Sarcasmo (Contexto). Momento Temporal. Si un usuario dice "La batería de este portátil dura poco, aunque me encanta el grupo The Beatles", el sistema debe primero aplicar: Reconocimiento de Entidades Nombradas (NER) para no fallar al aislar el aspecto objetivo. Filtrado colaborativo para buscar similitudes. Stemming masivo de la quíntupla. Un modelo generativo abstracto. Una opinión del tipo "La calidad fotográfica del Pixel 9 supera con creces a la del iPhone 15" requiere para su modelado formal: Una quíntupla tradicional asumiendo "iPhone 15" como ruido. Una Sextupla formal que incorpora el campo extra de "Preferencia" entre componentes. Dividirla obligatoriamente en dos opiniones regulares indirectas. Evaluarla a nivel de documento exclusivamente. Tras usar ese tratamiento para el pelo mis raíces picaban de manera insoportable". Esta frase es un claro ejemplo de: Opinión comparativa. Opinión directa. Opinión indirecta. Opinión objetiva pura. Una opinión "Implícita" se caracteriza fundamentalmente porque: Inyecta directamente léxico dominado por adjetivos. Compara dos entidades sin nombrar al poseedor. La oración es un hecho objetivo empírico, pero en su dominio delata un estado valorativo negativo o positivo. Carece de momento temporal y entidad principal. Al clasificar a nivel de documento usando "Bag-of-Words", a diferencia de la recuperación de información clásica (IR), en análisis de sentimientos: La repetición infinita de una palabra clave multiplica exponencialmente su peso. La presencia de un solo vocablo del léxico (ej. "excelente") suele ser más definitorio que su reiteración. Los verbos tienen siempre más nivel de convicción que los adjetivos. Se ignoran por completo los modificadores de polaridad. ¿Qué efecto tiene un "Atenuador" (ej. "apenas") sobre la palabra núcleo en el cálculo de polaridad?. Invierte totalmente la polaridad original (ej. de +1 a -1). Reduce drásticamente la puntuación acercándola a una orientación neutra. Actúa como un intensificador si le sigue un verbo. Elimina la frase del árbol DOM. Si el modelo lee "No diría que esta película sea recomendable en lo absoluto", la técnica de manejo de negación suele operar: Ignorando el "no" por ser una stop-word. Invirtiendo teóricamente la polaridad de las N-palabras siguientes hasta el cierre sintáctico. Asignando polaridad +2 por la hipérbole "en lo absoluto". Convirtiéndola en una opinión abstractiva. En la evaluación del nivel documental, la métrica "Precision" responde a la pregunta: ¿Qué fracción de las opiniones realmente positivas encontré?. De los que digo que son positivos, ¿cuán acertado estoy?. ¿Cuál es la eficacia global del modelo incluyendo verdaderos negativos?. ¿Cuál es la media armónica entre accuracy y recall?. Cuando no se posee información etiquetada para el nivel documental, se utiliza el enfoque No Supervisado basado en PMI (Pointwise Mutual Information), el cual: Compara las apariciones de parejas sintácticas frente a polaridades universales conocidas. Construye un árbol jerárquico de entidades. Mide la distancia de edición (Tree Edit Distance). Etiqueta manualmente usando Amazon Mechanical Turk. El análisis a nivel de frase plantea sistemáticamente dos fases. La primera es: Extracción de la quíntupla y la sextupla. Detección de spam y eliminación de hipérboles. Clasificación de Subjetividad. Cálculo del F1-Score de la oración. ¿Cuál es el peligro de las oraciones de hecho ("El plástico rojo que envuelve la televisión se ha derretido") para los clasificadores a nivel de frase?. Tienen demasiados modificadores atenuantes. Son descripciones objetivas sin léxico de opinión evidente, pero con severa intencionalidad afectiva escondida. Suelen invertir la polaridad del adjetivo siguiente. Se confunden siempre con opiniones comparativas directas. Iterar frase por frase en un texto extenso sirve, entre otras cosas, para potenciar la justificación. ¿Qué técnica visual se deriva de esto?. Árboles DOM etiquetados. Listados de alineamiento (Alignment). Micro-Resúmenes visuales inmediatos resaltando las sentencias de máxima polaridad (Highlighting). Modelos probabilísticos generativos. El contexto en la frase puede pervertir drásticamente la polaridad calculada si aparece: Un adverbio de cantidad. Sarcasmo. Una entidad raíz no declarada. Un pronombre temporal. El "Spam Elusivo o Disfrazado" en reseñas se caracteriza por: Promocionar con hipérboles burdas e injustificadas a la propia marca. Insertar links a páginas comerciales de terceros. Ser opiniones falsas maravillosamente redactadas para pasar el detector humano natural. Omitir por completo pronombres en primera persona. ¿Por qué se recurrió inicialmente a servicios como "Amazon Mechanical Turk" en la investigación contra el spam?. Para parsear árboles DOM de la competencia. Porque el etiquetado manual es un cuello de botella y se contrataron redactores de spam paralelo para construir datasets supervisados contrastables. Para procesar el renderizado asíncrono en segundo plano. Para crear resúmenes abstractivos de alta calidad literaria. A nivel lingüístico, ¿qué característica "curiosa" delata estadísticamente a muchas reseñas spam engañosas?. La ausencia total de adjetivos. El uso exclusivo de oraciones objetivas. Sobrestimar la cantidad indiscriminada de pronombres (temporales/personales) y emocionales absolutos para intentar convencer de su experiencia en vivo. El uso de conectores lógicos como "PERO" constantemente. Una reseña que dice "La habitación era cómoda, aunque el aire acondicionado hacía bastante ruido y la recepción fue lenta", tiene un patrón propio de: Spam Irrelevante. Spam Disruptivo. Una opinión Real (sentencias matizadas y detalles utilitarios concretos). Opinión Comparativa Implícita. ¿Qué tipo de resumen automático condensa crúdamente uniendo las mejores y peores sentencias reales redactadas por los usuarios?. Resumen Abstractivo. Resumen de Ratings. Resumen Extractivo. Resumen Visual de Histogramas. En la sumarización, cuando la IA asimila las ideas clave y re-narra ella misma una justificación gramatical y sintácticamente nueva, estamos ante un: Resumen de Extracción. Modelo de Filtrado Colaborativo. Resumen Abstractivo. Wrapper Inducido. En el análisis de sentimientos a nivel documental, estadísticamente, ¿dónde suele concentrarse el esfuerzo resumitivo y real del juicio de un usuario?. En los adjetivos adyacentes a los verbos. En el centro del párrafo principal. En las etiquetas de título (H1, H2). Típicamente, en la primera frase y la última. Si encontramos una "Quíntupla" donde el campo "Aspecto" dice "General", significa que: El algoritmo no ha podido parsear el DOM. La opinión es indirecta o elusiva. El sentimiento aplica a toda la Entidad matriz y no a un sub-componente. La polaridad de la opinión es neutra. El problema de intentar medir sentimientos con métricas de Recuperación de Información Clásica (IR) es que: IR requiere siempre redes neuronales. IR da peso a palabras informativas, pero en opiniones lo que dirige la predicción son los vocablos del Léxico de Opiniones, aunque aparezcan una sola vez. IR no puede procesar strings secuenciales. IR asume que las opiniones comparativas son ruido. ¿Qué utilidad tiene identificar las partes del discurso (POS tags) en minería de opiniones?. Permite detectar ataques de inyección SQL. Extrae la marca temporal del reseñador. Permite diferenciar el nivel de convicción, sabiendo que un adjetivo aporta un nivel distinto a un verbo. Acelera la distancia de edición de árboles DOM. La métrica F1-Score se calcula mediante: La suma directa de Verdaderos Positivos y Falsos Negativos. La media aritmética de la Precisión y la Exactitud. La media armónica entre Precision y Recall. El algoritmo de K-Means. ¿Qué técnica resulta ideal para detectar spam basado en "comportamiento" (no en texto)?. Evaluar hiper-pronombres emocionales. Extraer metadatos, IPs dudosas o repetitivas, y rastrear logs y marcas temporales. Inducir wrappers sobre los adjetivos. Parsear comparativamente sextuplas. La frase "La batería dura muy poco" generaría dentro de una reseña completa la siguiente extracción formal de polaridad sobre su aspecto: Negativa sobre la Entidad "Cámara". Negativa sobre el Aspecto "Batería". Neutra sobre el Sub-componente. Implícita Positiva. "El nuevo sistema de refrigeración del PC es estelar y silencioso" es un ejemplo de opinión: Indirecta. Regular Directa. Implícita. Comparativa. Un léxico de opinión tradicional se compone TÍPICAMENTE de: Conjunciones y preposiciones. Sólo sustantivos abstractos. Principalmente adjetivos, aunque incluye adverbios, verbos o sustantivos cargados. Entidades raíz y sub-componentes. Si la IA detecta oraciones puramente descriptivas y objetivas y decide filtrarlas, este paso actúa como un proceso de: Inducción de reglas por String Matching. Spam Disruptivo inverso.. Pre-procesamiento para quitar ruido y mejorar exponencialmente la exactitud de los clasificadores a Nivel Documento. Resolución del Arranque en Frío. Si analizamos la frase "El teléfono agota la batería completa en menos de 2 horas", un clasificador léxico simple fallaría porque: Es una oración comparativa. Posee demasiados modificadores intensificadores. No posee un léxico de opinión evidente, debiendo asimilar su semántica (Opinión Implícita). Carece de una entidad objetivo clara. Identificar una entidad con valor -0.9 no sirve de nada en la minería de opiniones si el sistema de NLP (Procesamiento de Lenguaje Natural) falla en: Detectar la IP del usuario. Aislar el Aspecto o Entidad objetivo al que se refiere ese sentimiento. Renderizar el JavaScript asíncrono. Extraer la distancia de edición de árboles. A diferencia de los sistemas de Filtro Colaborativo, los sistemas basados en contenido: Sugieren elementos prediciendo el interés de la masa global de usuarios. Dependen exclusivamente de las valoraciones de terceros para recomendar. Se centran en el análisis intrínseco de los documentos (texto, metadatos) independientes de la masa de usuarios. No requieren extraer perfiles de los usuarios en ningún momento. ¿Cuál es una de las características fundamentales de los modelos de recomendación basados en contenido respecto a su explicabilidad?. Sugieren elementos prediciendo el interés de la masa global de usuarios. Dependen exclusivamente de las valoraciones de terceros para recomendar. Se centran en el análisis intrínseco de los documentos (texto, metadatos) independientes de la masa de usuarios. No requieren extraer perfiles de los usuarios en ningún momento. |





