library(evd)
library(tidyverse)
10 Eventos extremos
- Cuando nuestro problema implica un interés en las colas de la distribución (valores muy grandes o muy pequeños).
- La teoría de valores extremos ajusta distribuciones de probabilidad que permiten la existencia de valores extremos.
- Esta conveniente teoría nos permite racionalmente extrapolar a los montos de pérdidas que superan con creces cualquier pérdida histórica y, por lo tanto, da una idea de la magnitud de las probabilidades de grandes pérdidas, incluso cuando esas pérdidas nunca antes ocurrió.
- Acuerdos de reaseguro por siniestro.
- Es de gran interés en la gestión del riesgo operacional donde la cuantificación de eventos extremos es clave.
10.1 Distribución del máximo
Considere un conjunto de \(n\) observaciones de valores no negativos independientes e idénticamente distribuidos.
Sea \(M_n\) el valor máximo de las \(n\) observaciones. Entonces, debido a que ninguna observación puede exceder el máximo, el CDF del máximo es:
\[F_{n}(x)=\operatorname{Pr}\left(M_{n} \leq x\right)=\operatorname{Pr}\left(X_{1} \leq x, X_{2} \leq x, \ldots, X_{n} \leq x\right)\] Por independencia: \[F_{n}(x)=\prod_{i=1}^{n} \operatorname{Pr}\left(X_{i} \leq x\right)=\left[F_{X}(x)\right]^{n}\]
Cuando \(n\) tiende a infinito el valor de la mano derecha lado se acerca a 0 o 1 dependiendo de si \(F_X (x) <1\) o \(F_X (x) = 1.\)
Suponga que se tienen pérdidas de tipo Weibull mes a mes. \[\begin{equation*} F(x)=G_{0, \mu, \theta}(x)=\exp \left[-\exp \left(-\frac{x-\mu}{\theta}\right)\right] . \end{equation*}\]
El valor del máximo anual sería \[\begin{equation*} \begin{aligned} {[F(x)]^{12} } &=\exp \left[-12 \exp \left(-\frac{x-\mu}{\theta}\right)\right] \\ &=\exp \left[-\exp \left(-\frac{x-\mu^*}{\theta}\right)\right] \\ &=G_{0, \mu^*, \theta}(x), \end{aligned} \end{equation*}\] con \(\mu^*=\mu+\theta \ln 12\).
Estas distribuciones se pueden describir a través de la generalizada de valor extremo, y sus casos particulares la Gumbel, Fréchet y Weibull.
10.1.1 Distribución generalizada del valor extremo
La expresión general para la CDF estandarizada de la distribución generalizada de valores extremos es:
\[G(x)=\exp \left[-\left(1+\frac{x}{\alpha}\right)^{-\alpha}\right]\]
Las distribuciones Gumbel, Fréchet y Weibull son casos particulares. Graficamente se ven así:
<- seq(-5, 5, by = 0.01)
x
<- data.frame(x,
df Normal = dnorm(x),
Frechet = dfrechet(x),
Gumbel = dgumbel(x),
Weibull = dweibull(x, shape = 1),
GEV = dgev(x, scale = 1.5)
%>%
) pivot_longer(cols = !x)
ggplot(df, aes(x = x, y = value, color = name)) +
geom_line(size = 1.5) +
theme_minimal()
10.1.2 Distribución Gumbel
Con el caso de \(\gamma=0\), se obtiene la distribución estandarizada de Gumbel tiene cdf \[\begin{equation*} F(x)=G_0(x)=\exp [-\exp (-x)], \quad-\infty<x<\infty . \end{equation*}\]
Con los parámetros de ubicación y escala \(\mu\) y \(\theta\) incluidos, tiene cdf
\[\begin{equation*} F(x)=G_{0, \mu, \theta}(x)=\exp \left[-\exp \left(-\frac{x-\mu}{\theta}\right)\right], \quad-\infty<x<\infty, \theta>0 . \end{equation*}\]
10.1.3 Distribución de Fréchet
Si \(\gamma>0\) se obtiene la distribución estandarizada de Fréchet tiene cdf
\[\begin{equation*} F(x)=G_{1, \alpha}(x)=\exp \left(-x^{-\alpha}\right), \quad x \geq 0, \alpha>0, \end{equation*}\]
donde \(\alpha\) es un parámetro de forma. Con los parámetros de ubicación y escala \(\mu\) y \(\theta\) incluidos, tiene cdf
\[\begin{equation*} F(x)=G_{1, \alpha, \mu, \theta}(x)=\exp \left[-\left(\frac{x-\mu}{\theta}\right)^{-\alpha}\right], \quad x \geq \mu, \alpha, \theta>0 \end{equation*}\]
10.1.4 Distribución Weibull
Haciendo transformaciones sobre \(G_\gamma(x)\) se obtiene
\[\begin{equation*} F(x)=G_{2, \alpha}(x)=\exp \left[-(-x)^{-\alpha}\right], \quad x \leq 0, \alpha<0 . \end{equation*}\]
Con los parámetros de ubicación y escala \(\mu\) y \(\theta\) incluidos, tiene cdf
\[\begin{equation*} F(x)=G_{2, \alpha, \mu, \theta}(x)=\exp \left[-\left(-\frac{x-\mu}{\theta}\right)^{-\alpha}\right], \quad x \leq \mu, \alpha<0 \end{equation*}\]
Ejemplo 10.1 A continuación se presentan algunos ejemplos del comportamiento del máximo en algunas distribuciones conocidas
Normal
Exponencial
Uniforme
Ejercicio 10.1 Usemos estos datos de temperaturas del estado de Nueva York,
library(lubridate)
<- read.csv(file = "http://www.dataanalysisclassroom.com/wp-content/uploads/2018/03/cp_temperature.csv")
temperature
<- temperature %>%
temperature filter(Year <= 2017) %>%
mutate(
TAVG_C = (TAVG - 32) * 5 / 9,
TMIN_C = (TMIN - 32) * 5 / 9,
TMAX_C = (TMAX - 32) * 5 / 9
)
ggplot(temperature %>% filter(Year >= 1995)) +
geom_point(aes(as.factor(Month), TAVG_C)) +
facet_wrap(~Year)
- Calcule el máximo de cada año y haga un análisis descriptivo del mismo. ¿Qué observa?
- Descargue el paquete
extRemes
y revise la documención de la funciónfevd
. ¿Qué hace la función? Ajuste el modelo de acuerdo con lo indicado en la función. Luego haga unsummary
y unplot
al objeto estimado. - Use la función
fitdist
para ajustar los modelos de la Weibull, Gumbell - Con todos los modelos ajustados, calcule la probabilidad para que un año en particular se observe una temperatura superior a 33 grados Celsius.
- Recuerde que una distribución geométrica es una variable aleatoria que cuenta el número de fracasos hasta el primer éxito. Considere las probabilidades encontradas anteriormente como la probabilidad en una distribución geométrica de parámetro \(p\). ¿Cuál sería el tiempo promedio para observar valores por encima de 33 grados en Nueva York?
- ¿Qué temperatura se podría esperar cada 50 años?
10.1.5 Con número aleatorio de pérdidas
Si se tiene un número aleatorio de pérdidas \(N\), entonces el máximo \(M_N\) sería:
\[\begin{align*} F_{M_N}(x) &=\operatorname{Pr}\left(M_N \leq x\right) \\ &=\sum_{n=0}^{\infty} \operatorname{Pr}\left(M_N \leq x \mid N=n\right) \operatorname{Pr}(N=n) \\ &=\sum_{n=0}^{\infty} \operatorname{Pr}(N=n)\left[F_X(x)\right]^n \\ &=P_N\left[F_X(x)\right] \end{align*}\]
10.1.6 Estabilidad del máximo
Para una distribución Gumbel se tiene que, \[\begin{equation*} \begin{aligned} {\left[G_0(x+\ln n)\right]^n } &=\exp [-n \exp (-x-\ln n)] \\ &=\exp [-\exp (-x)] \\ &=G_0(x) \end{aligned} \end{equation*}\]
O equivalentemente, \[\begin{equation*} \left[G_0(x)\right]^n=G_0(x-\ln n) \end{equation*}\]
10.1.7 El teorema de Fisher-Tippett
::: {#thm-Fisher-Tippett:}
Si \(\left[F\left(\frac{x-b_{n}}{a_{n}}\right)\right]^{n}\) tiene una distribución límite no degenerada tal que \(n \rightarrow \infty\) para constantes \(a_{n}\) y \(b_{n}\) que dependen de \(n\), entonces:
\[\left[F\left(\frac{x-b_{n}}{a_{n}}\right)\right]^{n} \rightarrow G(x)\]
cuando \(n \rightarrow \infty\) para todos los valores de \(x\), donde \(G\) es una distribución de valor extremo que es alguna de las siguientes \(G_{0}\), \(G_{1, \alpha}\), o \(G_{2, \alpha}\) para algún parámetro de locación y escala. :::
El teorema de Fisher-Tippett demuestra que el máximo normalizado para cualquier distribución (sujeto a la condición límite de no degeneración) converge en distribución a exactamente una de las tres distribuciones de valores extremos: Gumbel, Fréchet y Weibull.
Se puede utilizar como una aproximación general a la verdadera distribución de un máximo sin tener que especificar completamente la forma de la distribución subyacente \(F(x)\).
Cuando solo tenemos datos de pérdidas extremas como punto de partida, sin datos específicos conocimiento de la forma de la distribución subyacente, el teorema indica que uno de los estas distribuciones serán un modelo útil.
Definición 10.1 El dominio máximo de atracción (DMA) para cualquier distribución \(G\) es el conjunto de todas las distribuciones que tiene \(G\) como distribución límite como \(n \rightarrow \infty\) del máximo normalizado \(\left(M_n-b_n\right) / a_n\) para algunas constantes normativas \(a_n\) y \(b_n\)
Teorema 10.1 (Caracterización del DMA) Una distribución \(F\) pertenece al máximo dominio de atracción de una distribución de valores extremos \(G_i\) con constantes normalizadoras \(a_n\) y \(b_n\) si y solo si\[\begin{equation*} \lim _{n \rightarrow \infty} n S\left(a_n x+b_n\right)=-\ln G_i(x) . \end{equation*}\]
Suponga que \(a_n=1\) y \(b_n=\ln n\), la distribución de máximo para una exponencial sería \[\begin{equation*} \begin{aligned} \operatorname{Pr}\left(\frac{M_n-b_n}{a_n} \leq x\right) &=\operatorname{Pr}\left(M_n \leq a_n x+b_n\right) \\ &=\left[\operatorname{Pr}\left(X \leq a_n x+b_n\right)\right]^n \\ &=[\operatorname{Pr}(X \leq x+\ln n)]^n \\ &=[1-\exp (-x-\ln n)]^n \\ &=\left[1-\frac{\exp (-x)}{n}\right]^n \\ & \rightarrow \exp [-\exp (-x)] \text { as } n \rightarrow \infty \end{aligned} \end{equation*}\]
La distribución límite es Gumbel.
10.2 Distribución del exceso sobre un umbral
Las distribuciones conocidas como distribuciones de Pareto generalizadas están estrechamente relacionados con distribuciones de valores extremos. Se utilizan en conexión con el estudio de los excesos por encima de un umbral. Para estas funciones de distribución, usamos el notación general \(W (x)\).
\[W(x)=1+\ln G(x)\].
La forma de cada distribución es la como sigue.
10.2.1 Distribución exponencial
Tomando \(G(x)\) como la Gumbel, se obtiene \[\begin{equation*} F(x)=W_0(x)=1-\exp (-x), \quad x>0 \end{equation*}\]
10.2.2 Distribución Pareto
Si \(G(x)\) es Fréchet entonces
\[\begin{equation*} F(x)=W_{1, \alpha}(x)=1-x^{-\alpha}, \quad x \geq 1, \alpha>0 . \end{equation*}\]
Si se aplica localización y escala se obtiene
\[\begin{equation*} F(x)=1-\left(\frac{x-\mu}{\theta}\right)^{-\alpha}, \quad x \geq \mu+\theta, \alpha, \theta>0 . \end{equation*}\]
El caso cuando \(\mu=-\theta\), es la forma más usual de la Pareto
\[\begin{equation*} F(x)=W_{1, \alpha, \theta}(x)=1-\left(\frac{\theta}{x+\theta}\right)^\alpha, \quad x \geq 0, \alpha, \theta>0 \end{equation*}\]
10.2.3 Distribución Beta
Usando \(G(x)\) como una Weibull, se obtiene
\[\begin{equation*} F(x)=W_{2, \alpha}(x)=1-(-x)^{-\alpha}, \quad-1 \leq x \leq 0, \alpha<0 \end{equation*}\]
Si se usa el mismo parámetro para localización y escala, se obtiene la forma usual de la Beta.
\[\begin{equation*} W_{2, \alpha, \theta}(x)=1-\left(-\frac{x-\theta}{\theta}\right)^{-\alpha}, \quad 0 \leq x \leq \theta, \alpha<0, \theta>0 \end{equation*}\]
10.2.4 Distribución generalizada de Pareto
Esta es cuando se toma \(G(x)\) como la distribución generalizada de valor extremo.
\[\begin{equation*} F(x)=1-\left(1+\frac{x}{\alpha \theta}\right)^{-\alpha} . \end{equation*}\]
Esta se puede escribir también de la forma,
\[\begin{equation*} F(x)=W_{\gamma, \theta}(x)=1-\left(1+\gamma \frac{x}{\theta}\right)^{-1 / \gamma} . \end{equation*}\]
10.2.5 Estabilidad del exceso de la pareto generalizada
Las distribuciones exponencial, Pareto y beta tienen otra propiedad, llamada “estabilidad de excesos”.
Suponga que \(Y = X - d | X> d\) denote el exceso de variable aleatoria condicional. Suponga que \(X\) es exponencial con parámetro \(\theta\).
\[\begin{equation*} \operatorname{Pr}(X \leq x)=W_{0, \theta}(x)=1-\exp \left(-\frac{x}{\theta}\right), \quad x>0 . \end{equation*}\]
Note lo siguiente
\[\begin{equation*} \begin{aligned} \operatorname{Pr}(Y \leq y) &=\operatorname{Pr}(X \leq d+y \mid X>d) \\ &=\frac{\exp \left(-\frac{d}{\theta}\right)-\exp \left(-\frac{d+y}{\theta}\right)}{\exp \left(-\frac{d}{\theta}\right)} \\ &=1-\exp \left(-\frac{y}{\theta}\right) \\ &=W_{0, \theta}(y), \quad y>0 . \end{aligned} \end{equation*}\]
Es decir distribución “perdió la memoria” después de que se traspasa el umbral.
Algo similar pasa con la Pareto,
\[\begin{equation*} \operatorname{Pr}(X \leq x)=W_{1, \alpha, \theta}(x)=1-\left(\frac{x+\theta}{\theta}\right)^{-\alpha}, \quad x>0, \alpha, \theta>0 \end{equation*}\]
donde se tiene que,
\[\begin{equation*} \begin{aligned} \operatorname{Pr}(Y \leq y) &=\operatorname{Pr}(X \leq d+y \mid X>d) \\ &=1-\frac{S(d+y)}{S(d)} \\ &=1-\left(\frac{d+y+\theta}{d+\theta}\right)^{-\alpha}, \quad x>d \\ &=1-\left(\frac{y+(d+\theta)}{d+\theta}\right)^{-\alpha} \\ &=W_{1, \alpha, d+\theta}(y), \quad y>0 . \end{aligned} \end{equation*}\]
Para la función Pareto generalizadas, se obtiene la fórmula,
\[\begin{aligned} \operatorname{Pr}(Y \leq y) &=\operatorname{Pr}(X \leq d+y \mid X>d) \\ &=1-\frac{S(d+y)}{S(d)} \\ &=1-\left(\frac{1+\gamma\left(\frac{d+y}{\theta}\right)}{1+\gamma\left(\frac{d}{\theta}\right)}\right)^{-1 / \gamma} \\ &=1-\left(\frac{\theta+\gamma(d+y)}{\theta+\gamma d}\right)^{-1 / \gamma} \\ &=1-\left(1+\gamma \frac{y}{\theta+\gamma d}\right)^{-1 / \gamma} \\ &=W_{\gamma, \theta+\gamma d}(y), \quad y>0 \end{aligned}\]
10.2.6 Teorema de Balkema-de Haan-Pickands
Teorema 10.2 (Teorema de Balkema-de Haan-Pickands) Si, para unas constantes \(a_n\) y \(b_n\) que dependen de \(n\), la distribución condicional de los excesos \(F^*\left(a_n x+b_n\right)\) tiene una distribución límite continua cuando \(d\) se acerca al extremo derecho del soporte de \(X\), entonces \[\begin{equation*} F^*(x) \rightarrow W(x) \end{equation*}\] como \(d \rightarrow \infty\) para todo \(x\), donde \(W\) es una distribución de Pareto generalizada que es una de \(W_{0, \ theta_d}\), \(W_{1, \alpha, \theta_d}\), o \(W_{2, \alpha, \theta_d}\) para algún parámetro de escala \(\theta_d>0\).
Al igual que el teorema de Fisher-Tippett, si se desea modelar el exceso de la pérdida, basta con usar alguna de las distribuciones \(W(x)\) mencionadas anteriormente.
10.2.7 Elección del modelo para el exceso sobre un umbral
El exceso medio observado en el umbral \(d\) para una muestra de tamaño \(n\). El resultado debe ayudar a elegir cuál de las distribuciones de Pareto generalizadas debe seleccionarse como un modelo.
Definición 10.2 (Función media de exceso) La esperanza del exceso de pérdida sobre un umbral se define como \[\begin{equation*} e(d) = E[X-d\mid X>d] \end{equation*}\]
La importancia de esta función es que para las pareto generalizadas, se puede escribir como un función lineal en \(d\)
Ejercicio 10.2 Pruebe que para la pareto generalizada se tiene que
\[\begin{equation*} e^{PG}(d) = \frac{\theta+\gamma d}{1-\gamma}. \end{equation*}\]
Encuentre las funciones lineales correspondientes para las funciones de distribución, Exponencial, Beta y Pareto.
Esta función se puede estimar con
\[\widehat{e(d)}=\frac{\sum_{j=1}^{n}\left(x_{j}-d\right)_{+}}{\sum_{j=1}^{n} I_{\left\{x_{j}>d\right\}}}\]
- Para umbrales grandes, el gráfico debe ser aproximadamente lineal, creciente para el Pareto generalizado.
- Si gráfico parece bastante plano, entonces la distribución subyacente de la cola condicional es más como una exponencial. Son lo procesos típicos de “perdida de memoria”.
- Si es decreciente, entonces un Beta es la mejor elección. Es una característica de colas ligeras.
El gráfico de exceso medio se puede utilizar para identificar en qué umbral valor el gráfico se vuelve aproximadamente lineal. Una vez se elige el umbral, se pueden obtener las estimaciones de la distribución de Pareto generalizada utilizando el método de máxima verosimilitud (o algún otro)
Ejercicio 10.3
- Calcule los valores de retorno del siguiente ETF
<- read.csv("./data/spy.csv")
spy head(spy)
Date Open High Low Close Adj.Close Volume
1 1993-01-29 43.96875 43.96875 43.75000 43.93750 25.33402 1003200
2 1993-02-01 43.96875 44.25000 43.96875 44.25000 25.51421 480500
3 1993-02-02 44.21875 44.37500 44.12500 44.34375 25.56825 201300
4 1993-02-03 44.40625 44.84375 44.37500 44.81250 25.83855 529400
5 1993-02-04 44.96875 45.09375 44.46875 45.00000 25.94666 531500
6 1993-02-05 44.96875 45.06250 44.71875 44.96875 25.92863 492100
<- nrow(spy)
n <- diff(log(spy$Adj.Close)) retorno
- Calcule una secuencia de 1000 puntos de umbrales desde 0.0001 hasta 0.12. Luego genere una función que calcule \(e(d)\).
- Mueva el valor del umbral inicial para que la función sea completamente lineal.
- ¿Cuál distribución es la más adecuada en este caso, por qué? Haga un análisis descriptivo para confirmar sus hipótesis.
- Usando el paquete
mev
yfitdistrplus
ajuste una pareto generalizada a partir de los datos generados en el punto 3. Describa el ajuste, log-verosimilitud, AIC, parámetros,etc. - Ajuste una Weibull a estos mismos datos. ¿Qué se observa?
Ejercicio 10.4 Repital los pasos anteriores con la siguiente base de datos. Comente sus resultados.
<- read.csv("data/reclamos.csv")
reclamos <- reclamos$x reclamos