4.8 Distribuciones multivariadas

Hasta ahora hemos estudiado distribuciones univariadas y como simular de ellas, sin embargo, es común que un modelo probabilístico involucre más de una variable aleatoria por lo que estudiaremos el concepto de distribuciones de probabilidad multivariadas.

La distribución conjunta sobre un conjunto de variables aleatorias \(\{X_1,...,X_n\}\), que denotamos \(p(x_1,...,x_n)\), asigna probabilidades a todos los eventos determinados por el conjunto de variables aleatorias.

En el caso discreto bivariado, dado las variables aleatorias discretas \(X\) y \(Y\), definimos la función de densidad conjunta como \(f(x,y)=P(X=x, Y=y)\).

Ejemplo.

Consideremos una distribución de probabilidad sobre la colección de habitats para un jaguar en Veracruz. El espacio de resultados es el conjunto de todos los hábitats en la población. En muchas ocasiones buscamos resolver preguntas que involucran más de una variable aleatoria, en este ejemplo nos interesan:

  • Abundancia de presas: toma los valores baja (≤1k), media ((1k,5k]), media alta ((5k,12k]) y alta (>12k).

  • Tipo de habitat: toma 3 valores, agropecuario, protegido u otros.

La distribución conjunta de variables aleatorias discretas se puede representar por medio de tablas.

Presas/Tipo agropecuario protegido otros
baja 0.17 0.01 0.02
media 0.44 0.03 0.01
media alta 0.09 0.07 0.01
alta 0 0.14 0.10

En el caso continuo bivariado, decimos que la función \(p(x,y)\) es una función de densidad de probabilidad para las variables aleatorias \((X,Y)\) si:

  1. \(p(x,y) \geq 0\) para toda \((x,y)\).

  2. \(\int_{-\infty}^{\infty}p(x,y)dxdy=1\).

  3. Para cualquier conjunto \(A \subset \mathbb{R} \times \mathbb{R}\), \(P((X,Y) \in A) = \int\int_A p(x,y)dxdy\).

Ejemplo. Sean \((X,Y)\) uniformes en el cuadrado unitario, entonces \[ p(x,y) = \left\{ \begin{array}{lr} 1, & 0\leq x \leq 1,0\leq y \leq 1\\ 0, & e.o.c. \end{array} \right. \]

Para encontrar \(P(X < \frac{1}{2}, Y<\frac{1}{2})\), esto es la probailidad del evento \(A=\{X<1/2, Y<1/2\}\). La integral de \(p\) sobre este subconjunto corresponde, en este caso, a calcular el área del conjunto \(A\) que es igual a \(\frac{1}{4}\).

De la distribución conjunta \(p(x_1,...,x_n)\) podemos obtener la distribución de únciamente una variable aleatoria \(X_j\), donde \(X_j \in \{X_1,...,X_n\}\), la llamamos la distribución marginal de \(X_j\).


Sea \(\{X_1,...,X_n\}\) un conjunto de variables aleatorias con distribución conjunta \(p(x_1,...,x_n)\), la distribución marginal de \(X_j\) (\(j \in \{1,...,n\}\)) se define como, \[p_{X_j}(x_j) = \sum_{x_1,...,x_{j-1},x_{j+1},...,x_n}p(x_1,...,x_n)\mbox{ en el caso discreto,}\] \[p_{X_j}(x_j) = \int_{x_1,...,x_{j-1},x_{j+1},...,x_n}p(x_1,...,x_n)dx_1,...,dx_n\mbox{ en el caso continuo}\]


Ejemplo. Retomando el problema de los hábitats del jaguar, ¿Cuál es la probabilidad de que uno de ellos elegido al azar tenga abundancia de presas baja?

Probabilidad condicional

Sean \(A\), \(B\) dos eventos, con \(P(B)>0\), la probabilidad condicional de \(A\) dado \(B\) es

\[P(A|B)=\frac{P(AB)}{P(B)}\]

Ejemplo. ¿Cuál es la probabilidad de que los hábitats protegidos tengan abundancia baja de presas? ¿Cómo se compara con la probabilidad de que la abundancia de presas sea baja (desconozco el tipo de hábitat)?

La noción de probabilidad condicional se extiende a distribuciones condicionales:

Sean \(X\), \(Y\) dos variables aleatorias con función de densidad conjunta \(p(x,y)\), entonces la función de densidad condicional de \(X\) dado \(Y=y\), para toda \(y\) tal que \(p_Y(y) > 0\), se define como \[p_{X\vert Y}(x\vert y) = \frac{p(x, y)}{p_Y(y).}\]


Ejemplo. ¿Cuál es la distribución condicional de presas dado tipo protegido? Para obtener toda la distribución condicional calculamos los dos casos restantes (abudnancia de presas media, media alta y alta).

Hay que destacar que una distribución condicional se asocia también a una distribución de probabilidad. En el ejemplo anterior, verifiquemos que cada renglón de la tabla de probabilidades suma uno, tiene sólo valores positivos y menores o igual que uno.

Probabilidad Total

Sean \(E\), \(F\) dos eventos, entonces: \[P(E) = P(E\vert F)P(F) + P(E\vert F^c)P(F^c).\] De manera más general, sean \(F_i\) \(i = 1,...,n\) eventos mutuamente excluyentes cuya unión es el espacio muestral, entonces \[P(E) = \sum_{i=1}^n P(E\vert F_i)P(F_i).\]

Ejemplo.

Supongamos que el conejo de las montañas, teporingo o zacatuche (Romerolagus diazi) tenga abundancias peligrosamente bajas en varias localidades y que las localidades pueden estar en ese riesgo con nivel: bajo, medio y alto. De acuerdo con los registros, las probabilidades de que esto ocurra a los sitios en el lapso de 1 año se estima son \(0.05\), \(0.15\) y \(0.30\) respectivamente. Si el \(20\%\) de las localidades se clasifican en riesgo bajo, \(50\%\) en medio y \(30\%\) en alto, ¿qué proporción de las localidades tendrán amenazado al zacatuche en un año dado?

Para variables aleatorias tenemos:

Sean \(X\), \(Y\) dos variables aleatorias, podemos expresar la distribución marginal de \(X\) como: \[p_X(x) = \sum_{y} p_{X \vert Y}(x\vert y)p_Y(y).\]


Supongamos que tiro un dado, si cae con un número par, lanzo en seguida una moneda justa (la probabilidad de observar águila con ella es la misma que la de observar sol). Si el dado muestra un número impar lanzo una moneda sesgada en la que la probabilidad de observar águila es \(0.9\). Si observo sol, ¿Cuál es la probabilidad de que haya lanzado la moneda sesgada?

El ejercicio anterior introduce la noción de probabilidad inversa: inicialmente conozco la probabilidad de observar sol condicional a que la moneda es sesgada pero ahora me interesa conocer la probabilidad de que haya lanzado una moneda sesgada una vez que observé un sol en el volado.

Regla de Bayes

La regla de Bayes es una consecuencia de la definición de probabilidad condicional.

Sean \(F_i\) y \(i = 1,...,n\) eventos mutuamente excluyentes cuya unión es el espacio muestral, entonces \[P(F_j\vert E) = \frac{P(E\vert F_j)P(F_j)}{\sum_{i=1}^n P(E\vert F_i)P(F_i)}\] esta identidad se conoce como la regla de Bayes.

Ejemplo. En el contexto del ejemplo del zacatuche, nos podemos hacer la siguiente pregunta: si una localidad resultó con abundancias peligrosamente bajas de zacatuche en 2013, ¿cuál es la probabilidad de que clasifique en riesgo bajo?

La intuición es engañosa: En estudios en Alemania y EUA, investigadores le pidieron a médicos que estimaran la probabilidad de que una mujer asintomática entre los \(40\) y \(50\) años tuviera cáncer de mama si su mamografía era positivo. Se les explicó que el \(7\%\) de las mamografías indican cáncer cuando no lo hay (falsos positivos). Adicional mente, se le explicó a los médicos que la incidencia de cáncer de mama en ese grupo de edad es \(0.8\%\) y la tasa de falsos negativos de \(10\%\). En Alemania, un tercio de los médicos determinaron que la probabilidad era cercana al \(90\%\) y la mediana de las estimaciones fue \(70\%.\) En EUA \(95\) de \(100\) médicos estimaron que la probabilidad rondaba el \(75\%.\) ¿Cómo determinas la probabilidad de que una mujer con mastografía positiva tenga cáncer?

Al igual que con probabilidad condicional, la Regla de Bayes tiene una definición análoga para variables aleatorias.

Sean \(X\), \(Y\) dos variables aleatorias, \[p_{X\vert Y}(x\vert y) = \frac{p_{Y\vert X}(y\vert x)p_X(x)}{p_Y(y)}.\]

Supongamos ahora que una botánico encuentra dos variedades de nopal (Opuntia \(sp-\alpha\)), una es propensa al ataque de la polilla del nopal (Cactoblastis cactorum) y muestra afectación en 30% de las parcelas en donde se le cultiva, la otra variedad se considera que no es propensa al ataque. En un año dado aquellos propensos al ataque sufren un infestación con probabilidad 0.4, mientras que los del otro grupo sufren un ataque con probabilidad 0.2. ¿Cuál es la probabilidad de que una parcela con nopal de esta especie tenga una infestación en su segundo año, condicionado a que sufrió un ataque en el primer año?

Una consecuencia de la regla de Bayes es que cualquier distribución multivariada sobre \(n\) variables \(X_1,X_2,...X_n\) se puede expresar como:

\[p(x_1,x_2,...x_n) = p_{X_1}(x_1)p_{X_2\vert X_1}(x_2\vert x_1)p_{X_3\vert X_1X_2}(x_3\vert x_1x_2)···p_{X_n\vert X_1...X_{n-1}}(x_n\vert x_1...x_{n-1})\] esta igualdad se conoce como regla de la cadena.

Nótese que esta regla funciona para cualquier ordenamiento de las variables aleatorias.

Independencia

Los eventos \(E\), \(F\) son independientes sí y solo sí \[P(EF) = P(E)P(F)\]

De la definición de independencia se sigue que \(P(E\vert F) = P(E)\). Esto es, los eventos \(E\) y \(F\) son independientes si saber que uno de ellos ocurrió no afecta la probabilidad del otro. Utilizaremos la notación \(E\perp F\) que se lee “\(E\) es independiente de \(F\)”.

Dos variables aleatorias \(X\), \(Y\), son independientes si y sólo si \[p(x,y) = p_X(x)p_Y(y)\]


Más aún, \(X\) y \(Y\) son independientes si y sólo si \(p(x,y) \propto g(x)h(y)\), por lo que para demostrar independecia podemos omitir las constantes en la factorización de las densidades

Similar a la independencia en eventos, la independencia de variables aleatorias implica que \(p_{X\vert Y}(x\vert y) = p_X(x)\), esto es, \(Y = y\) no provee información sobre \(X\).

Ejemplo. Consideremos la función de densidad conjunta \(p(x,y) = \frac{1}{384} x^2y^4e^{-y-(x/2)}\), \(x>0\), \(y>0\), ¿\(X\) y \(Y\) son independientes?

Podemos definir \[ g(x) = \left\{ \begin{array}{lr} x^2e^{-x/2} & : x > 0\\ 0 & : x \le 0 \end{array} \right. \] y \[ h(y) = \left\{ \begin{array}{lr} y^4e^{-y} & : y > 0\\ 0 & : y \le 0 \end{array} \right. \] entonces \(p(x,y) \propto g(x)h(y)\), para toda \(x\), \(y\) \(\in \mathbb{R}\) y concluímos que \(X\) y \(Y\) son independientes.

**Ejemplo.*. Si la densidad conjunta de \(X\) y \(Y\) está dada por: \[ p(x, y) = \left\{ \begin{array}{lr} 2 & : 0 < x < y, 0 < y < 1\\ 0 & : e.o.c. \end{array} \right. \] ¿\(X\) y \(Y\) son independientes?

Ejercicio. Recordando el ejemplo de los hábitats del jaguar, veamos si Abundancia de presas y Tipo son independientes, para esto comparemos \(p(presas|tipo)\) y \(p(presas)\).

4.8.0.1 Independencia condicional

La independencia de eventos o variables aleatorias es poco común en la práctica, más frecuente es el caso en que dos eventos son independientes dado un tercer evento.

Ejemplo. En una competencia de velocidad, cada atleta se somete a dos pruebas de dopaje que buscan detectar si el deportista ingirió una substania prohibida. La prueba A consiste en un examen de sangre y la prueba B en un exámen de orina, cada prueba se realiza en un laboratorio distinto y no hay intercambio de información entre los laboratorios. Es razonable pensar que los resultados de los dos exámenes no son independientes. Ahora, supongamos que sabemos que el atleta consumió la substancia prohibida, en este caso podemos argumentar que conocer el resultado de la prueba A no cambia la probabilidad de que el atleta salga positivo en la prueba B. Decimos que el resultado de la prueba B es condicionalmente independiente del resultado de la prueba A dado que el atleta consumió la substancia.

Sean \(A\), \(B\) y \(C\), tres eventos decimos que \(A\) es independiente de \(B\) condicional a \(C\) (\(A \perp B \vert C\)) si, \[ P(A,B\vert C) = P(A\vert C)P(B\vert C)\]

Similar al caso de independencia, \(A\) y \(B\) son condicionalmente independientes dado \(C\) si y sólo si \(P(A \vert B,C) = P(A \vert C)\), esto es, una vez que conocemos el valor de \(C\), \(B\) no proporciona información adicional sobre \(A\).

Ejemplo. Retomemos el ejercicio de los nopales. En la solución de este ejercicio utilizamos que \(P(A_2|AA_1) = 0.4\) y que \(P(A_2|A^cA_1) = 0.2\), al establecer esa igualdad estamos asumiendo que \(A_2\) (la parcela sufre de un infestación en el año 2) y \(A_1\) (la misma parcela tiene un infestación en el año 1) son eventos condicionalmente independientes dado \(A\) (la parcela tiene la variedad suceptible al ataque): \(P(A_2|AA_1) = P(A_2|A) = 0.4\) y \(P(A_2|A^cA_1) = P(A_2|A^c) = 0.2\).

En el caso de variables aleatorias definimos independencia condicional como sigue.

Sean \(X\), \(Y\) y \(Z\), tres variables aleatorias decimos que \(X\) es independiente de \(Y\) condicional a \(Z\) (\(X \perp Y \vert Z\)) si y sólo si, \[p(x,y\vert z) = p_{X\vert Z}(x\vert z)p_{Y\vert Z}(y\vert z).\]

Y tenemos que \(X\) es independiente de \(Y\) condicional a \(Z\) si y sólo si, \(p(x,y,z) \propto g(x,z)h(y,z)\).

Ejemplo. Recordando el ejemplo del dado y las monedas en el que supusimos que tiro un dado y si cae con un número par, lanzo en seguida una moneda justa (la probabilidad de observar águila con ella es la misma que la de observar sol). Si el dado muestra un número impar lanzo una moneda sesgada en la que la probabilidad de observar águila es \(0.9\). Denotemos por \(Z\) la variable aleatoria asociada a la selección de la moneda, \(X_1\) la correspondiente al primer lanzamiento y \(X_2\) la correspondiente al segundo. Entonces, \(X_1\) y \(X_2\) no son independientes, sin embargo, son condicionalmente independientes (\(X_1 \perp X_2 \vert Z\)), pues cuando se cual moneda voy a lanzar el resultado del primer lanzamiento ya no aporta información adicional para el segundo lanzamiento. Calcularemos la distribución conjunta y la distribución condicional de \(X_2\) dado \(X_1\).

La distribución conjunta esta determinada por la siguiente tabla:

Z X1 X2 P(Z,X1,X2)
justa a a 0.125
justa a s 0.125
justa s a 0.125
justa s s 0.125
ses a a 0.405
ses a s 0.045
ses s a 0.045
ses s s 0.005

La distribución condicional \(p(X_2|X_1)\) es,

X1/X2 a s .
a 0.757 0.243 1
s 0.567 0.433 1

y la distribución condicional \(p(X_2|X_1,Z)=p(X_2|Z)\) es,

X1/X2 Z a s .
a par 0.5 0.5 1
s par 0.5 0.5 1
a impar 0.9 0.1 1
s impar 0.9 0.1 1

En este punto es claro que \(X \perp Y \vert Z\) no implica \(X \perp Y\), pues como vimos en el ejemplo de los dados y las monedas \(X_1 \perp X_2 \vert Z\) pero \(X_1 \not \perp X_2\). Más aún, \(X \perp Y\) tampoco implica \(X \perp Y \vert Z\).

La independencia condicional tiene importantes consecuencias, por ejemplo, si \(X\) es independiente de \(Y\) dado \(Z\) entonces, \[p(x,y,z) = p_Z(z)p_{X\vert Z}(x\vert z)p_{Y\vert Z}(y\vert z).\]

Esta expresión de la densidad conjunta es similar a la que obtendríamos usando la regla de la cadena; sin embargo, el número de parámetros necesarios bajo esta representación es menor lo que facilita la estimación.

Sean \(A\), \(B\) y \(C\), tres eventos decimos que \(A\) es independiente de \(B\) condicional a \(C\) (\(A \perp B \vert C\)) si, \[ P(A,B\vert C) = P(A\vert C)P(B\vert C)\]


Similar al caso de independencia, \(A\) y \(B\) son condicionalmente independientes dado \(C\) sí y solo sí \(P(A \vert B,C) = P(A \vert C)\), esto es, una vez que conocemos el valor de \(C\), \(B\) no proporciona información adicional sobre \(A\).

Ejemplo. Retomemos el ejercicio de los nopales. En la solución de este ejercicio utilizamos que \(P(A_2|AA_1) = 0.4\) y que \(P(A_2|A^cA_1) = 0.2\), al establecer esa igualdad estamos asumiendo que \(A_2\) (la parcela sufre de un infestación en el año 2) y \(A_1\) (la misma parcela tiene un infestación en el año 1) son eventos condicionalmente independientes dado \(A\) (la parcela tiene la variedad suceptible al ataque): \(P(A_2|AA_1) = P(A_2|A) = 0.4\) y \(P(A_2|A^cA_1) = P(A_2|A^c) = 0.2\).


En el caso de variables aleatorias definimos independencia condicional como sigue.

Sean \(X\), \(Y\) y \(Z\), tres variables aleatorias decimos que \(X\) es independiente de \(Y\) condicional a \(Z\) (\(X \perp Y \vert Z\)) si y sólo si, \[p(x,y\vert z) = p_{X\vert Z}(x\vert z)p_{Y\vert Z}(y\vert z).\]


Y tenemos que \(X\) es independiente de \(Y\) condicional a \(Z\) si y sólo si, \(p(x,y,z) \propto g(x,z)h(y,z)\).

Ejemplo. Recordando el ejemplo del dado y las monedas en el que supusimos que tiro un dado y si cae con un número par, lanzo en seguida una moneda justa (la probabilidad de observar águila con ella es la misma que la de observar sol). Si el dado muestra un número impar lanzo una moneda sesgada en la que la probabilidad de observar águila es \(0.9\). Denotemos por \(Z\) la variable aleatoria asociada a la selección de la moneda, \(X_1\) la correspondiente al primer lanzamiento y \(X_2\) la correspondiente al segundo. Entonces, \(X_1\) y \(X_2\) no son independientes, sin embargo, son condicionalmente independientes (\(X_1 \perp X_2 \vert Z\)), pues cuando se cual moneda voy a lanzar el resultado del primer lanzamiento ya no aporta información adicional para el segundo lanzamiento. Calcularemos la distribución conjunta y la distribución condicional de \(X_2\) dado \(X_1\).

La distribución conjunta esta determinada por la siguiente tabla:

Z X1 X2 P(Z,X1,X2)
justa a a 0.125
justa a s 0.125
justa s a 0.125
justa s s 0.125
ses a a 0.405
ses a s 0.045
ses s a 0.005
ses s s 0.045

La distribución condicional \(p(X_2|X_1)\) es,

X1/X2 a s .
a 0.757 0.243 1
s 0.567 0.433 1
y la distribución condicional $p(X_2 X_1,Z)=p(X_2 Z)$ es,
X1/X2 a s .
—– —– —–
a 0.5 0.5 1
s 0.9 0.1 1

En este punto es claro que \(X \perp Y \vert Z\) no implica \(X \perp Y\), pues como vimos en el ejemplo de las monedas \(X_1 \perp X_2 \vert Z\) pero \(X_1 \not \perp X_2\). Más aún, \(X \perp Y\) tampoco implica \(X \perp Y \vert Z\).

La independencia condicional tiene importantes consecuencias, por ejemplo, si \(X\) es independiente de \(Y\) dado \(Z\) entonces, \[p(x,y,z) = p_Z(z)p_{X\vert Z}(x\vert z)p_{Y\vert Z}(y\vert z).\]

Esta expresión de la densidad conjunta es similar a la que obtendríamos usando la regla de la cadena; sin embargo, el número de parámetros necesarios bajo esta representación es menor lo que facilita la estimación.

Ejemplo (discusión). Consideremos que nos interesa entender la relación entre 3 variables categóricas cada una con 4 niveles. Para describir la conjunta \(p(x,y,z)\) necesitamos \(63=4 \cdot 4 \cdot 4 -1\) parámetros (menos 1 pues las probabilidades deben sumar uno), pues tenemos que dar una probabiilidad para cada combinación de valores de \(X,Y,Z\).

También podemos usar la regla del producto para contar:

\[p(x,y,z) = p_Z(z)p_{X\vert Z}(x\vert z)p_{Y\vert X,Z}(y\vert x,z)\]

  • Para la marginal de \(Z\) requerimos 4-1=3 parámetros,
  • la condiconal de X dado Z requiere 4(4-1)=12 parámetros,
  • finalmente la condicional de \(Y\) dada \(X\) y \(Z\) requiere 4(4)(4-1)=48 parámetros, resultando un total de 3+12+48=63 parámetros.

¿Qué pasa si todas las variables son independientes? Quedamos con un problema mucho más fácil, pues entonces

\[p(x,y,z) = p_Z(z)p_{X}(x)p_{Y}(y)\]

  • requiere 3 parámetros para \(p_Z\),
  • 3 para \(p_X\) y 3 para \(p_Y\), que dan un total de 9 parámetros (en lugar de 63).

Aunque la independencia de todas las variables generalmente no se da, ¿qué pasa por ejemplo si \(Y\) y \(Z\) son condicionalmente independientes dada \(X\)?

\[p(x,y,z) = p_Z(z)p_{X\vert Z}(x\vert z)p_{Y\vert X}(y\vert x).\]

  • requiere 3 parámetros para \(p_Z\),
  • 4(4-1)=12 para \(p_{X|Z}\) y 12 para \(p_{Y|Z}\), que dan un total de 27 parámetros (en lugar de 63).

En general, podemos construir modelos más parsimoniosos cuando identificamos y explotamos independencias condicionales. Esto incluso puede determinar si un problema es tratable o no. Por ejemplo, si tenemos \(n\) variables con \(r\) niveles cada una, la conjunta tiene tamaño \(r^n-1\). Si \(n=20\) y \(r=4\) (no tan raro), entonces necesitamos al menos un millón de millones de celdas para definir una conjunta general. Estimar esos parámetros requeriría muestras astronómicas.

Por otra parte, si el problema es relativamente ralo en sus dependencias (lo cual sucede en muchos problemas reales), entonces es factible entender, modelar y calcular con la distribución conjunta implícita en un conjunto de distribuciones condicionales que determinan la conjunta.