Estadística BayesianaThis is a featured page


La perspectiva clásica (frecuentista) y la bayesiana están fundamentadas en diferentes nociones de probabilidad: de acuerdo con la perspectiva frecuentista, sólo los sucesos susceptibles de ser repetidos tienen probabilidad; en la perspectiva bayesiana, la probabilidad describe incertidumbre en un sentido amplio del término. Un suceso puede ser incierto por el hecho de ser intrínsicamente impredecible, y también puede ser incierto por el hecho de que tengamos un conocimiento imperfecto sobre el mismo; la perspectiva frecuentista únicamente reconoce el primer tipo de incertidumbre, mientras que la aproximación bayesiana considera ambos tipos de incertidumbre. Desde una perspectiva frecuentista, la probabilidad se define como una frecuencia relativa de un suceso que se repite un número elevado de veces; la estadística bayesiana está basada en la interpretación de la probabilidad como el grado personal de creencia (aunque pueda parecer un concepto un tanto ambiguo, lo cierto es que la estadística bayesiana permite el desarrollo de un número amplio de análisis de forma satisfactoria).
Imaginemos sucesos como probar una hipótesis, la probabilidad de que mañana llueva: a pesar de que se trata de sucesos únicos, no nos resulta extraño pensar que dichos sucesos poseen cierta probabilidad. La mayoría de los sucesos y variables de interés real para los científicos son sucesos únicos, por lo que la interpretación frecuentista de la probabilidad no es capaz de acomodarse al concepto intuitivo de probabilidad.
Los parámetros representan valores desconocidos y generalmente corresponden con propiedades de la población de estudio, son específicos de cada problema, y generalmente no están sujetos a variabilidad aleatoria; la estadística frecuentista no suele reconocer los parámetros como variables aleatorias, son valores fijos. La estadística bayesiana sí permite asignar probabilidades a los parámetros por el simple hecho de que son desconocidos.

Teorema de Bayes
En su versión más elemental podemos escribirlo como:
Pr(A|B) = [Pr(A) Pr(B|A)] / Pr(B) , para dos sucesos A y B con Pr(B) > 0.

Podemos hablar de probabilidad a priori (y su valor proviene de la percepción que tenga el investigador sobre el sistema que está inspeccionando, entre otras razones), y probabilidad a posteriori (y su valor proviene de la revisión de la a priori, basándose en información muestral). El teorema de Bayes actúa como una “caja negra” y devuelve revisadas las probabilidades iniciales a la luz de los datos observados. Podemos escribir:
Pr(Ai|B) ~ Pr(Ai) x Pr(B|Ai), es decir que la probabilidad a posteriori es proporcional a la probabilidad a priori por la información muestral; siendo la constante de proporcionalidad la cantidad siguiente que merece especial interés y que se conoce como “distribución predictiva”: Pr(B) = ∑ Pr(Ai) Pr(B|Ai).
El teorema de Bayes es interpretado como un mecanismo de aprendizaje sobre las cantidades de interés; el teorema puede ser aplicado reiteradas veces, y así las probabilidades a posteriori obtenidas en una fase pueden ser utilizadas como probabilidades a priori en la siguiente fase, y así sucesivamente. Entonces el teorema de Bayes permite una interpretación nueva de probabilidades: el hecho de que éstas son revisables cuando se combinan probabilidades iniciales con la información muestral proporcionada por los datos.

En general, el análisis estadístico de unos datos observados <xi> (este símbolo representará: muestra), suele comenzar con una evaluación descriptiva mediante la cual pueda sugerirse algún modelo probabilístico {f(x|θ); θ ε Θ} que represente, para algún valor (desconocido) de θ, el mecanismo probabilístico que ha generado los datos <xi> observados. El paradigma bayesiano establece que es necesario asignar una distribución a priori π(θ) sobre el espacio paramétrico Θ que describa el conocimiento disponible sobre el valor θ antes de haber observado los datos .
π(θ|<xi>) = [f(<xi>| θ) Pr(θi)] / [∫ f(<xi>|θ) π(θ) dθ] ~ f(<xi>| θ) π(θ).
Observados unos datos <xi>, la cantidad que aparece en el denominador (denominada distribución predictiva, ya sea en el caso continuo o discreto) es constante y por eso es común escribir el teorema de Bayes en su interpretación como actualización de juicios mediante: Conocimiento a posteriori ~ Conocimiento a priori x Información muestral. Los parámetros no son cantidades fijas, sino que se consideran variables aleatorias; esto no es una descripción de su variabilidad sino más bien es una descripción de la incertidumbre sobre su verdadero valor. El paradigma bayesiano se basa en el aprendizaje; así, la misión de los datos es añadir información a nuestros conocimientos y, de esta forma, actualizar nuestras creencias sobre los parámetros de interés y las hipótesis relevantes (la probabilidad en el paradigma bayesiano actúa como una probabilidad condicional: p(θ| D, A, K), donde A es el modelo probabilístico que genera los datos, D es la muestra, y K es toda otra información pertinente con la cual se cuente). Es debido al uso de la información a priori que la aproximación bayesiana utiliza más información que la aproximación frecuentista. La información a priori expresa lo que se conoce acerca de los parámetros de interés antes de observar los datos; esta información es entonces combinada con los datos para producir la distribución a posteriori, que expresa lo que se conoce de los parámetros de interés tras el análisis de los datos. El mecanismo matemático a través del cual la información a priori se combina con los datos es el teorema de Bayes. Los nuevos juicios sobre el sistema se forman combinando los juicios iniciales con la muestra (verosimilitud). La estimación a posteriori es, por tanto, un punto medio entre las creencias a priori y los datos; de esta forma obtiene estimaciones más precisas que cada información por separado: esta es una de las ventajas del análisis bayesiano, la posibilidad de hacer uso de más información y obtener así resultados más precisos.
De acuerdo con el método bayesiano, las preguntas sobre los parámetros de interés deben ser resueltas a partir de la distribución a posteriori. Si la estadística se ocupa del estudio de la incertidumbre, el método bayesiano proporciona una metolodogía completa para la inferencia estadística y la toma de decisiones bajo incertidumbre. Esta metodología está coherentemente fundamentada y permite incorporar información inicial relevante al proceso de decisión. El método bayesiano está basado en la interpretación de la probabilidad como una medida condicional de la incertidumbre y por tanto está íntimamente ligado al concepto de probabilidad.

Uso secuencial del teorema de Bayes
Uno de los aspectos sobresalientes del método bayesiano es la posibilidad de utilizar secuencialmente el teorema de Bayes, algo así como que “la distribución a posteriori de hoy es la distribución a priori de mañana”. Si tenemos una muestra inicial <xi>, conocemos que π(θ|<xi>) ~ π(θ) L(<xi>|θ), donde L denota la función de verosimilitud de los datos, dada por: L(<xi>|θ) = Π1n f(xi| θ), donde n es el tamaño muestral. Si deseamos incorporar un segundo conjunto de observaciones z independientes e igualmente distribuidas que las primeras observaciones, entonces: π(θ|<xi>,z) ~ π(θ) L(<xi>,z|θ), donde la independencia implica que L(<xi>,z|θ) ~ L(<xi>| θ) L(z| θ), y en consecuencia:
π(θ|<xi>,z) ~ π(θ) L(<xi>|θ) L(z| θ) ~ π(θ|<xi>) L(z| θ)

Vemos por tanto que la distribución a posteriori de θ dados <xi> y z se obtiene considerando la distribución a posteriori de θ dado <xi> como la a priori para el proceso cuando se incorporan los datos z.
El factor de proporcionalidad que convierte en igualdad el ajuste del juicio a posteriori mediante la verosimilitud y la a priori es la distribución marginal:
p(<xi>) = ∫Θ L(<xi>|θ) π(θ) dθ. Denominaremos distribución predictiva a priori a la distribución de los datos <xi> para el modelo de verosimilitud dado por L(<xi>|θ) y la densidad a priori π(θ) definida por p(<xi>) = ∫Θ L(<xi>|θ) π(θ) dθ.

En el análisis bayesiano son tres los elementos fundamentales. Por un lado el modelo generador de los datos que, en común con la estadística clásica viene determinado por la expresión de la función de verosimilitud L(<xi>|θ). Por otro lado, los juicios iniciales del investigador deben ser expresados en términos de una densidad a priori π(θ) que mejor refleje nuestros conocimientos sobre el parámetro de interés. Finalmente, el mecanismo de aprendizaje que constituye el teorema de Bayes nos permite obtener la densidad a posteriori π(θ|<xi>), siendo ésta la función que mejor representa nuestros juicios a la luz de los datos observados. Esta densidad a posteriori es una descripción completa de este conocimiento final y por tanto, en cierto sentido, el análisis podría considerarse que está completo, puesto que conocemos todo el comportamiento del parámetro de interés.

Estimación puntual
Supongamos que tenemos la necesidad de resumir todo nuestro conocimiento sobre el parámetro de interés en un único valor θ*. Si admitimos que la distribución a posteriori del parámetro refleja todo el conocimiento disponible sobre él una vez que hemos observado los datos y necesitamos un valor que concentre todo este conocimiento, parece lógico pensar que debemos utilizar la moda a posteriori como dicho estimador bayesiano, ya que la moda es el valor donde se hace máxima dicha distribución a posteriori y en cierto sentido es donde existe mayor plausibilidad de ocurrencia. La moda también es conocida como estimador bayesiano de máxima verosimilitud; cuando un investigador no desea incorporar información inicial a su estudio y opta por decidir a la luz única y exclusiva de los resultados muestrales, puede utilizar como densidad a priori una no-informativa del tipo π(θ) ~1; en tal caso, la distribución a posteriori del parámetro es proporcional a la función de verosimilitud, es decir: π(θ|<xi>) ~ L(<xi>|θ), y por tanto los valores máximos de ambas funciones coincidirán.

Intervalos bayesianos de credibilidad
El equivalente bayesiano a los intervalos de confianza clásicos surge de manera natural y su interpretación no es ambigua puesto que utiliza de manera natural la probabilidad de que el parámetro de interés pertenezca a un determinado intervalo, lo cual es posible dado el carácter aleatorio que suponemos para el parámetro.
Definimos: los puntos a1 y a2 definen un intervalo bayesiano de credibilidad con probabilidad 100(1-α)% si se verifica que
Pr(a1 ≤ θ ≤ a2|<xi>) = ∫(a1a2) π(θ|<xi>) dθ ≥ 1-α
Hemos definido el intervalo de credibilidad utilizando la distribución a posterior; es posible definir un intervalo (a priori) de credibilidad sin más que sustituir la densidad a posteriori por la a priori.
Una de las principales ventajas de los intervalos bayesianos de credibilidad es que podemos interpretarlos en términos de probabilidad. Esta forma de definirlos no nos asegura la unicidad del intervalo, y básicamente se nos pueden presentar las siguientes situaciones:
1) Intervalos de una cola: en esta situación estaríamos hablando de los cuantiles de la distribución a posteriori.
2) Intervalos de dos colas con igual área: cada extremo del intervalo verifica que Pr(A<θ|<xi>)= α/2 y Pr(B > θ|<xi>)= α/2.
3) Intervalos de alta densidad a posteriori (HDI): se dan cuando la distribución a posteriori es asimétrica, entonces puede ocurrir que el intervalo con extremos que tienen igual área no sea el de menor longitud.
Un conjunto C se dice que es un conjunto de credibilidad de alta densidad de probabilidad 100(1- α)% si verifica conjuntamente:
a) Pr(θ ε C|<xi>) = ∫C π(θ|<xi>) dθ = 1-α
b) Dado cualquier otro conjunto C2 que cumpla la condición anterior, para cualquier θ1 ε C y cualquier θ2 ε C2 se cumple que π(θ1|<xi>) ≥ π(θ2|<xi>).
En definitiva, un intervalo HDI es aquel intervalo que alcanzada una probabilidad a posteriori dada tiene menor longitud.
Si la densidad a posteriori π(θ|<xi>) es unimodal y continua, entonces el intervalo bayesiano de credibilidad con probabilidad 1-α con menor longitud l=b-a es la única solución de : ∫(ab) π(θ|<xi>) dθ = 1-α, π(a|<xi>) = π(b|<xi>). Este intervalo además coincide con el HDI.

Test de hipótesis bayesiano
El contraste de hipótesis bayesiano es sencillo, necesitamos calcular las probabilidades a posteriori de cada una de las hipótesis:
p0 = Pr(H0 cierta|x) = Pr(θ ε Θ0|x)
p1 = Pr(H1 cierta|x) = Pr(θ ε Θ1|x), y decidir entre H0 y H1.
Para ello el paradigma bayesiano nos indica que necesitamas disponer de las probabilidades a priori de cada una de las hipótesis:
π0 = Pr(Ho cierta) = Pr(θ ε Θ0) π1 = Pr(H1 cierta) = Pr(θ ε Θ1).
Se define el “odds” a priori H0 frente a H1 como el cociente π0/ π1. Análogamente se define el “odds” a posteriori de H0 frente a H1 como el cociente de p0/p1. Obsérvese que el “odds” a priori necesita ser asignado por el investigador mientras que el “odds” a posteriori se obtiene mediante el mecanismo de revisión de juicios que es el teorema de Bayes. Valores del “odds” a priori (posteriori) próximos a 1 indicarán que H0 es igualmente probable que H1 a priori (posteriori) y valores marcadamente mayores que 1 indicarán evidencia a priori (posteriori) a favor de H0 frente a H1. Denominaremos factor Bayes en favor de H0 frente a H1 al cociente:
B01 = (p0/p1)/( π0/ π1) = (p0 π1)/( p1 π0). El factor de Bayes B01 es la cantidad que multiplicada por el “odds” a priori nos da el “odds” a posteriori; se interpreta como la evidencia que sólo los datos aportan a la hipótesis nula frente a la alternativa.
Para diferentes tipos de test tenemos distintos factores de Bayes:
Hipótesis nula simple frente a alternativa simple: dado un modelo de verosimilitud L[f(x|θ)] = Π f(xi|θ), el factor de Bayes será B01 = [f(x|θ0)/f(x|θ1)].
Hipótesis nula compuesta frente a alternativa compuesta: asignada una densidad a priori para θ sobre el espacio paramétrico Θ, cada una de las hipótesis tendrá unas probabilidades a priori de ser ciertas obtenidas mediante π0=∫Θ0 π(θ)dθ y
π1=∫Θ1 π(θ)dθ, entonces p0=∫Θ0 π(θ|x)dθ y p1=∫Θ1 π(θ|x)dθ, y el factor Bayes es B01=[∫Θ0 π(θ|x)dθ ∫Θ1 π(θ)dθ] / [∫Θ1 π(θ|x)dθ ∫Θ0 π(θ)dθ]
Hipótesis nula simple frente a alternativa compuesta: la distribución a priori sobre la hipótesis nula viene definida por π(θ) = [π0 si θ=θ0; (1-π0) π1(θ) si θ≠θ0] siendo π1(θ) una densidad sobre el espacio Θ1= Θ-{θ0}. El factor Bayes resultante es: B01=[f(x|θ0) / ∫ π1(θ) f(x|θ) dθ]
Con el enfoque clásico, consideramos la probabilidad (para varios valores de θ) de un conjunto R al cual el vector x de observaciones pertenece o no. Consecuentemente, nos preocupa no sólo el vector x de observaciones sino también otros vectores observación (y, z, etc.) que podríamos haber conseguido pero no fue así. Sin embargo, clásicamente, si suponemos que X~N(θ,1) y deseamos testear si H0: θ=0 o H1: θ>0 es verdadero (siendo imposible valores negativos del parámetro), rechazamos H0 bajo la base de una única observación (vector) x=3. Porque la probabilidad que una variable aleatoria N(0,1) sea 3 o mayor a 3 es 0.001350, aunque ciertamente no hemos hecho una observación mayor a 3. Este aspecto del enfoque clásico llevó que Jeffreys remarcara: “Lo que el uso de P implica, entonces, es que una hipótesis que podría ser verdadera es rechazada porque no puede predecir resultados observables que no han ocurrido.” Nótese, sin embargo, que la forma del modelo (en este caso la suposición de que las variables observables se distribuyen normalmente con varianza igual a uno) se apoya en la base de toda la distribución de las posibles observaciones.


Teoría de la Decisión
El problema de inferencia bayesiana puede ser visto de forma general como un problema de decisión; para esta visión necesitamos introducir la función de pérdidas.
Una función de pérdidas L(θ*,θ) describe la pérdida en la que incurre el investigador cuando utiliza θ* como estimador de θ, verdadero valor del parámetro; el estimador bayesiano de un parámetro para una función de pérdidas dada, es aquel que minimiza la pérdida esperada a posteriori. Un problema estadístico desde el punto de vista de la teoría de la decisión está compuesto por: un espacio de estados de la naturaleza o espacio paramétrico Θ (resultados posibles del suceso); un conjunto de acciones posibles llamadas decisiones, y que se denotan por D (donde cada acción responde a un resultado esperado distinto); una función de pérdida L: ΘxD a R+; un modelo estadístico (X,A,P) donde se puede observar una variable aleatoria cuya distribución depende de los estados de la naturaleza (nótese que esta estructura es similar a un juego de suma cero para dos personas en la Teoría de Juegos). Valores “grandes” de L(θ,d) indican que d es más incorrecto, mientras que valores “pequeños” indican que d es más correcto.
Algunas propiedades de las funciones de pérdidas son:
  • L(θ,d) ≥ 0
  • L(θ,θ) = 0
  • L(θ,d) ≤ L(θ,d´), si |θ - d| ≤ |θ - d´|

Una función de decisión no aleatorizada es una aplicación d: X a D, que a cada observación le asocia una decisión, y la función de riesgo es: R(θ,d) = E[L(θ,d(X)]. El problema central consiste en encontrar funciones de decisión adecuadas; se dice que d1 es preferible a d2 si su función de riesgo es menor para todo θ. Elegida una función de pérdidas, el estimador Bayes (también llamado regla de Bayes) para una distribución a priori π, es la cantidad que minimiza la expresión r(x,d) = ∫Θ L(θ,d) π(θ|x) dθ.
Existen varias funciones de pérdidas, pero las más utilizadas en estadística actuarial son:
Pérdidas absolutas:
L(θ,d) = |θ – d|
Pérdidas 0-1:
L(θ,d) = [0 si θ=d; 1 si θ≠d]
Pérdidas bilineales: siendo a y b constantes positivas,
L(θ,d) = [a(θ – d) si d≤θ; b(d-θ) si d≥θ]
Pérdidas cuadráticas ponderadas: definida por la expresión L(θ,d) = w(θ) (θ–d)^2
siendo w(θ) una función positiva de θ.
Pérdidas LINEX (linear exponential): de carácter asimétrico, está definida por
L(θ,d) = exp[c(d-θ)] – c(d-θ) - 1
Pérdidas exponenciales:
L(θ,d) = [exp(cθ) – exp(cd)]^2, siendo c una constante positiva.


La regla de decisión bayesiana para la estimación puntual de un parámetro consiste en elegir aquella decisión que minimice la pérdida (a posteriori) esperada, entonces obtendremos cada una de las decisiones óptimas bajo las principales funciones de pérdidas. El estimador bayesiano bajo pérdidas cuadráticas L(θ,d) = (θ – d)^2 es la media a posteriori.




Problemas propuestos

1) El responsable de una empresa desea conocer el porcentaje de empleados que está de acuerdo con la prohibición de fumar en el recinto de trabajo y para ello realiza un estudio de donde obtiene el siguiente intervalo de confianza al 95% (0.33; 0.45). Esto quiere decir:
a) Si tomamos muchas muestras iguales y calculamos sus respectivos intervalos, aproximadamente el 95% de ellos contiene a la proporción de empleados que está de acuerdo con la medida.
b) Hay una probabilidad 0.95 de que la proporción de empleados que está de acuerdo con la medida esté comprendida entre el 33% y el 45%.
Cada una de estas interpretaciones es correcta bajo una perspectiva probabilista. Comentar cada una de ellas y discutir sus posibles debilidades.

Es evidente que el punto “a” refiere a el enfoque clásico de intervalos de confianza, y el “b” al enfoque bayesiano. En el primer caso, no podemos hablar de probabilidad ya que el parámetro a estimar es fijo, y por lo tanto no existe incertidumbre con respecto a él puntualmente; esto no nos permite trabajar con medidas de riesgo. En el segundo caso, la probabilidad existe (porque el parámetro es una variable aleatoria) sobre el intervalo y podemos trabajar con el riesgo; pero el problema que surge es definir la distribución a priori que sigue la variable.

2) Un problema de comercialización mediante Internet de productos de compañías aseguradoras es la elevada tasa de saturación de la red. Supongamos que los tiempos de espera para poder acceder a la página web de un determinado producto se distribuyen exponencialmente: f(x|θ) = θ exp(-θx), con x>0, siendo 1/θ el tiempo medio (en minutos) de espera. Supongamos que tenemos una muestra de 10 observaciones de esta distribución: {2.80; 5.00; 2.96; 8.69; 8.63; 6.70; 4.89; 2.17; 3.16; 6.24}. Estimar el tiempo promedio de espera mediante el valor más frecuente a posteriori y dar un intervalo bayesiano a posteriori al 95% suponiendo una densidad a priori del tipo π(θ) ~ 1 si θ>0.

3) Supongamos que las pérdidas sufridas por un compañía aseguradora respecto a un determinado aseguramiento pueden expresarse de manera adecuada mediante una población exponencial, esto es, X|λ~E(λ). Para una muestra de tamaño n de esta población construir el test de hipótesis bayesiano para contrastar H0: λ= λ0 vs. H1: λ=λ1. Realizar el test anterior si se han observado los datos: {7.259; 3.840; 43.041; 6.808; 3.092; 0.949; 29.488; 0.764; 6.942; 4.844}.

Respuestas
2) θ~5.124 1/θ~0.19516
Pr(A ≤ θ ≤ B|<xi>)~[θ^10 exp(-51.24θ)]/(-51.24) - ∫(AB) θ^10 exp(-51.24θ) dθ = 0.95

3) H0: λ= λ0
H1: λ= λ1
B01=(λ0/λ1) exp[x(λ1-λ0)]


No user avatar
garciagonzalo
Latest page update: made by garciagonzalo , Jun 13 2009, 7:21 AM EDT (about this update About This Update garciagonzalo Edited by garciagonzalo

3 words added
3 words deleted

view changes

- complete history)
Keyword tags: None
More Info: links to this page
There are no threads for this page.  Be the first to start a new thread.