Análisis Bayesiano de Datos
|
|
Título del Test:
![]() Análisis Bayesiano de Datos Descripción: Tema 6 - Introduction to Prediction |



| Comentarios |
|---|
NO HAY REGISTROS |
|
La distribución predictiva posterior de un modelo Bayesiano representa la función de distribución de probabilidad: De observar los datos de la muestra de ajuste. Posterior de los parámetros del modelo. De observar nuevos datos, dados los parámetros del modelo y los datos de la muestra de ajuste. Según la teoría del análisis bayesiano, ¿en qué "escala" o espacio viven respectivamente la distribución posterior y la distribución predictiva posterior?. Ambas distribuciones viven en la escala del parámetro θ. La distribución posterior vive en la escala de los parámetros (θ), mientras que la predictiva posterior vive en la escala de los datos (y). La distribución posterior vive en la escala de los datos (y), mientras que la predictiva vive en la escala de los hiperparámetros. La idea fundamental del tema se resume en la ecuación de la imagen. Conceptualmente, ¿qué refleja esta operación matemática conocida como "integrar la incertidumbre"?. Que se calcula un promedio de las posibles predicciones de datos, ponderando o "pesando" cada predicción por la probabilidad posterior real que tiene cada parámetro de ser cierto. Que se suma el valor de los datos a la integral del factor de Bayes. Que los datos futuros son independientes del parámetro si el tamaño de muestra es muy grande. ¿Cuáles son los pasos empíricos correctos mediante Monte Carlo para aproximar y simular una distribución predictiva posterior?. Simular un valor del dato y al azar y multiplicarlo por la varianza del modelo. Simular un parámetro θ de la distribución posterior y, seguidamente, dado ese valor de θ, simular un dato y desde el modelo condicional de datos f(y∣θ). Calcular la distribución empírica de los datos originales y añadirles una campana de Gauss. Incluso si nuestro modelo cuenta con tantísimos datos que nuestro conocimiento del parámetro es casi perfecto (es decir, la varianza de la distribución posterior es pequeñísima), ¿por qué la distribución predictiva posterior seguirá mostrando siempre dispersión?. Porque el método computacional de Monte Carlo siempre introduce un error irresoluble. Porque la distribución predictiva refleja siempre la variabilidad intrínseca "muestra a muestra" que tienen los datos por su propia naturaleza estocástica. Porque el parámetro asume un comportamiento no-conjugado al predecir el futuro. La "Comprobación predictiva posterior" (Posterior predictive checking) es una técnica fundamental que consiste en: Comparar visual o estadísticamente los datos reales que ya hemos observado con los datos replicados que genera nuestro modelo. Verificar que la distribución previa integra exactamente a 1. Comparar dos modelos distintos utilizando el ratio de Savage-Dickey. En un experimento de tiros libres (modelo binomial), observamos que una jugadora encadena rachas larguísimas de aciertos seguidos de rachas de fallos (solo hay 1 "cambio" o switch). Al realizar la comprobación predictiva, vemos que nuestro modelo predice que tener tan pocos cambios ocurre en menos del 0.05% de las simulaciones. ¿Qué nos indica esto?. Que debemos utilizar un p-valor clásico porque el modelo bayesiano ha fallado. Que los datos observados no son plausibles bajo el modelo predictivo, lo que evidencia que algún supuesto (como la independencia entre tiros) es erróneo. Que el tamaño de muestra de la comprobación debe aumentarse al infinito. Si la comprobación predictiva posterior (PPC) demuestra un desajuste importante y unos datos poco plausibles, ¿a qué parte de nuestro diseño Bayesiano se le puede atribuir la "culpa" matemática de este mal ajuste?. Única y exclusivamente a una mala elección de la distribución previa. Tanto a la distribución previa, como a la función de verosimilitud (el modelo de datos), o a ambas simultáneamente. Al factor de credibilidad del modelo Normal-Normal. ¿Cuál es la finalidad u objetivo principal de simular datos desde una distribución predictiva previa (Prior predictive distribution) antes de observar ningún dato real del experimento?. Calcular el Factor de Bayes de forma exacta. Obtener una distribución que vive en la escala de los datos para ayudarnos a evaluar intuitivamente si las creencias previas que hemos asignado al parámetro tienen sentido en el mundo real. Eliminar la necesidad de utilizar el método MCMC. En un estudio sobre las horas de sueño de los alumnos, asignamos una distribución previa uniforme. Al simular la predictiva previa, vemos que el 15% de los datos generados asumen que los alumnos duermen menos de 5 horas o incluso horas negativas. ¿Cuál es la conclusión según la teoría del tema?. Se debe descartar cualquier análisis bayesiano y volver al paradigma frecuentista. La ocurrencia de datos predicados tan extremos e irrazonables es un indicador indirecto de que la distribución previa que elegimos debe "ajustarse" o recalibrarse (tuning). Confirma que el modelo es óptimo porque abarca la mayor cantidad de variabilidad muestral posible. |




