Análisis Bayesiano de Datos
|
|
Título del Test:
![]() Análisis Bayesiano de Datos Descripción: Tema 7 - Muestreador Gibbs y Algoritmo Metropolis-Hastings |



| Comentarios |
|---|
NO HAY REGISTROS |
|
Tenemos dos cadenas de Markov de la misma longitud, C1 y C2, que convergen a la misma distribución posterior, con autocorrelación serial de retardo 1 (lag-1) de .7 y .3, respectivamente. Asumiendo que ambas cadenas se inician en la distribución estacionaria, el error de Monte Carlo: Será mayor en la cadena C1. Será mayor en la cadena C2. No se puede determinar sin conocer el número de muestras de cada cadena. Utilizando las mismas dos cadenas del ejercicio anterior, C1 (autocorrelación de 0.7) y C2 (autocorrelación de 0.3), el tamaño efectivo de la muestra de Monte Carlo (ESS): Será exactamente el mismo en ambas cadenas, dado que tienen la misma longitud. Será mayor en la cadena C1, dado que tiene mayor autocorrelación. Será mayor en la cadena C2, dado que tiene menor autocorrelación. En un algoritmo Metropolis (i.e., con distribución generadora de candidatos o “proposal distribution” simétrica), la cadena se encuentra en el estado X(t). Se genera una muestra candidata X∗, siendo la razón de aceptación r=p(X∗)/p(X(t))=1.5. El estado X(t+1) de la cadena: Será igual a X∗. Será igual a X(t). Será igual a X(t+1)=X∗ con probabilidad p=1/1.5, y X(t) con probabilidad 1−p. En el algoritmo Metropolis, la distribución generadora de candidatos (proposal distribution) debe tener una “dispersión”: Lo más grande posible, para tener un balance adecuado entre tasa de aceptación y distancia entre muestras consecutivas. Lo más pequeña posible, para evitar que la cadena “salga” de la distribución estacionaria. Intermedia, para tener un balance adecuado entre tasa de aceptación y distancia entre muestras consecutivas. Supón que la cadena está en θ(s) y generamos un candidato θ∗. Si la razón de aceptación que calculamos da un resultado de r=0.40 (es decir, el candidato es menos probable que el estado actual), ¿qué decisión toma el algoritmo de Metropolis?. Rechaza automáticamente el candidato y establece θ(s+1)=θ(s) porque r<1. Acepta el candidato θ∗ con un 40% de probabilidad, y si lo rechaza (60%), la cadena se queda y repite el valor actual θ(s). Genera un nuevo candidato repetidamente hasta que r>1. Según el temario, el objetivo central que define el uso de cadenas de Markov (MCMC) en la inferencia bayesiana es: Calcular la probabilidad previa sin usar datos empíricos. Crear una secuencia iterativa dependiente de valores cuya distribución finalmente converja y represente la verdadera distribución posterior objetivo conjunta. Lograr que la cadena nunca tenga ningún grado de autocorrelación serial. A diferencia del método Monte Carlo tradicional (estudiado en el Tema 5), en MCMC (Markov Chain Monte Carlo) la secuencia de valores generada se caracteriza porque: Las muestras extraídas son totalmente independientes e idénticamente distribuidas (i.i.d.). El futuro de la cadena depende exclusivamente de su estado presente y no del pasado, produciendo iteraciones que NO son independientes entre sí. Puede predecir el futuro de forma determinista usando una matriz jacobiana. En la práctica analítica de los algoritmos MCMC, el periodo de "burn-in" (calentamiento) consiste en: Aumentar la varianza de la distribución candidata al máximo antes de empezar la cadena. Seleccionar solo las muestras que tienen una probabilidad de aceptación del 100%. Descartar iteraciones iniciales de la cadena para eliminar el sesgo del valor de inicio arbitrario y asegurar que se hacen inferencias solo cuando la cadena ha convergido a la distribución de alta probabilidad. ¿Qué característica matemática particular diferencia al "Muestreador de Gibbs" (Gibbs Sampler) dentro de la familia de algoritmos MCMC?. Muestrea secuencialmente un parámetro a la vez utilizando su "distribución condicional completa" (full conditional distribution), por lo que su probabilidad de aceptación es siempre 1 (no hay rechazos). Utiliza siempre una distribución de candidatos simétrica, lo que resulta en una altísima tasa de rechazos. Solo funciona de forma óptima si la distribución previa es totalmente no informativa. ¿Por qué la razón de aceptación teórica en el algoritmo clásico de "Metropolis" NO incluye el complejo factor de corrección ("correction factor") que sí tiene la ecuación del algoritmo general de "Metropolis-Hastings"?. Porque Metropolis no cumple el teorema Ergódico. Porque Metropolis asume que los datos nunca tienen variabilidad. Porque Metropolis utiliza una distribución generadora de candidatos que es matemáticamente simétrica, lo que hace que las probabilidades de transición de "ir" y "volver" se cancelen entre sí quedando un ratio de 1. |




