10  Eventos extremos

10.1 Distribución del máximo

Considere un conjunto de \(n\) observaciones de valores no negativos independientes e idénticamente distribuidos.

Sea \(M_n\) el valor máximo de las \(n\) observaciones. Entonces, debido a que ninguna observación puede exceder el máximo, el CDF del máximo es:

\[F_{n}(x)=\operatorname{Pr}\left(M_{n} \leq x\right)=\operatorname{Pr}\left(X_{1} \leq x, X_{2} \leq x, \ldots, X_{n} \leq x\right)\] Por independencia: \[F_{n}(x)=\prod_{i=1}^{n} \operatorname{Pr}\left(X_{i} \leq x\right)=\left[F_{X}(x)\right]^{n}\]

Cuando \(n\) tiende a infinito el valor de la mano derecha lado se acerca a 0 o 1 dependiendo de si \(F_X (x) <1\) o \(F_X (x) = 1.\)

Suponga que se tienen pérdidas de tipo Weibull mes a mes. \[\begin{equation*} F(x)=G_{0, \mu, \theta}(x)=\exp \left[-\exp \left(-\frac{x-\mu}{\theta}\right)\right] . \end{equation*}\]

El valor del máximo anual sería \[\begin{equation*} \begin{aligned} {[F(x)]^{12} } &=\exp \left[-12 \exp \left(-\frac{x-\mu}{\theta}\right)\right] \\ &=\exp \left[-\exp \left(-\frac{x-\mu^*}{\theta}\right)\right] \\ &=G_{0, \mu^*, \theta}(x), \end{aligned} \end{equation*}\] con \(\mu^*=\mu+\theta \ln 12\).

Estas distribuciones se pueden describir a través de la generalizada de valor extremo, y sus casos particulares la Gumbel, Fréchet y Weibull.

10.1.1 Distribución generalizada del valor extremo

La expresión general para la CDF estandarizada de la distribución generalizada de valores extremos es:

\[G(x)=\exp \left[-\left(1+\frac{x}{\alpha}\right)^{-\alpha}\right]\]

Las distribuciones Gumbel, Fréchet y Weibull son casos particulares. Graficamente se ven así:

library(evd)
library(tidyverse)
x <- seq(-5, 5, by = 0.01)

df <- data.frame(x,
  Normal = dnorm(x),
  Frechet = dfrechet(x),
  Gumbel = dgumbel(x),
  Weibull = dweibull(x, shape = 1),
  GEV = dgev(x, scale = 1.5)
) %>%
  pivot_longer(cols = !x)

ggplot(df, aes(x = x, y = value, color = name)) +
  geom_line(size = 1.5) +
  theme_minimal()

10.1.2 Distribución Gumbel

Con el caso de \(\gamma=0\), se obtiene la distribución estandarizada de Gumbel tiene cdf \[\begin{equation*} F(x)=G_0(x)=\exp [-\exp (-x)], \quad-\infty<x<\infty . \end{equation*}\]

Con los parámetros de ubicación y escala \(\mu\) y \(\theta\) incluidos, tiene cdf

\[\begin{equation*} F(x)=G_{0, \mu, \theta}(x)=\exp \left[-\exp \left(-\frac{x-\mu}{\theta}\right)\right], \quad-\infty<x<\infty, \theta>0 . \end{equation*}\]

10.1.3 Distribución de Fréchet

Si \(\gamma>0\) se obtiene la distribución estandarizada de Fréchet tiene cdf

\[\begin{equation*} F(x)=G_{1, \alpha}(x)=\exp \left(-x^{-\alpha}\right), \quad x \geq 0, \alpha>0, \end{equation*}\]

donde \(\alpha\) es un parámetro de forma. Con los parámetros de ubicación y escala \(\mu\) y \(\theta\) incluidos, tiene cdf

\[\begin{equation*} F(x)=G_{1, \alpha, \mu, \theta}(x)=\exp \left[-\left(\frac{x-\mu}{\theta}\right)^{-\alpha}\right], \quad x \geq \mu, \alpha, \theta>0 \end{equation*}\]

10.1.4 Distribución Weibull

Haciendo transformaciones sobre \(G_\gamma(x)\) se obtiene

\[\begin{equation*} F(x)=G_{2, \alpha}(x)=\exp \left[-(-x)^{-\alpha}\right], \quad x \leq 0, \alpha<0 . \end{equation*}\]

Con los parámetros de ubicación y escala \(\mu\) y \(\theta\) incluidos, tiene cdf

\[\begin{equation*} F(x)=G_{2, \alpha, \mu, \theta}(x)=\exp \left[-\left(-\frac{x-\mu}{\theta}\right)^{-\alpha}\right], \quad x \leq \mu, \alpha<0 \end{equation*}\]

Ejemplo 10.1 A continuación se presentan algunos ejemplos del comportamiento del máximo en algunas distribuciones conocidas

Normal

Exponencial

Uniforme

Ejercicio 10.1 Usemos estos datos de temperaturas del estado de Nueva York,

library(lubridate)

temperature <- read.csv(file = "http://www.dataanalysisclassroom.com/wp-content/uploads/2018/03/cp_temperature.csv")

temperature <- temperature %>%
  filter(Year <= 2017) %>%
  mutate(
    TAVG_C = (TAVG - 32) * 5 / 9,
    TMIN_C = (TMIN - 32) * 5 / 9,
    TMAX_C = (TMAX - 32) * 5 / 9
  )

ggplot(temperature %>% filter(Year >= 1995)) +
  geom_point(aes(as.factor(Month), TAVG_C)) +
  facet_wrap(~Year)

  1. Calcule el máximo de cada año y haga un análisis descriptivo del mismo. ¿Qué observa?
  2. Descargue el paquete extRemes y revise la documención de la función fevd. ¿Qué hace la función? Ajuste el modelo de acuerdo con lo indicado en la función. Luego haga un summary y un plot al objeto estimado.
  3. Use la función fitdist para ajustar los modelos de la Weibull, Gumbell
  4. Con todos los modelos ajustados, calcule la probabilidad para que un año en particular se observe una temperatura superior a 33 grados Celsius.
  5. Recuerde que una distribución geométrica es una variable aleatoria que cuenta el número de fracasos hasta el primer éxito. Considere las probabilidades encontradas anteriormente como la probabilidad en una distribución geométrica de parámetro \(p\). ¿Cuál sería el tiempo promedio para observar valores por encima de 33 grados en Nueva York?
  6. ¿Qué temperatura se podría esperar cada 50 años?

10.1.5 Con número aleatorio de pérdidas

Si se tiene un número aleatorio de pérdidas \(N\), entonces el máximo \(M_N\) sería:

\[\begin{align*} F_{M_N}(x) &=\operatorname{Pr}\left(M_N \leq x\right) \\ &=\sum_{n=0}^{\infty} \operatorname{Pr}\left(M_N \leq x \mid N=n\right) \operatorname{Pr}(N=n) \\ &=\sum_{n=0}^{\infty} \operatorname{Pr}(N=n)\left[F_X(x)\right]^n \\ &=P_N\left[F_X(x)\right] \end{align*}\]

10.1.6 Estabilidad del máximo

Para una distribución Gumbel se tiene que, \[\begin{equation*} \begin{aligned} {\left[G_0(x+\ln n)\right]^n } &=\exp [-n \exp (-x-\ln n)] \\ &=\exp [-\exp (-x)] \\ &=G_0(x) \end{aligned} \end{equation*}\]

O equivalentemente, \[\begin{equation*} \left[G_0(x)\right]^n=G_0(x-\ln n) \end{equation*}\]

10.1.7 El teorema de Fisher-Tippett

::: {#thm-Fisher-Tippett:}

Si \(\left[F\left(\frac{x-b_{n}}{a_{n}}\right)\right]^{n}\) tiene una distribución límite no degenerada tal que \(n \rightarrow \infty\) para constantes \(a_{n}\) y \(b_{n}\) que dependen de \(n\), entonces:

\[\left[F\left(\frac{x-b_{n}}{a_{n}}\right)\right]^{n} \rightarrow G(x)\]

cuando \(n \rightarrow \infty\) para todos los valores de \(x\), donde \(G\) es una distribución de valor extremo que es alguna de las siguientes \(G_{0}\), \(G_{1, \alpha}\), o \(G_{2, \alpha}\) para algún parámetro de locación y escala. :::

  • El teorema de Fisher-Tippett demuestra que el máximo normalizado para cualquier distribución (sujeto a la condición límite de no degeneración) converge en distribución a exactamente una de las tres distribuciones de valores extremos: Gumbel, Fréchet y Weibull.

  • Se puede utilizar como una aproximación general a la verdadera distribución de un máximo sin tener que especificar completamente la forma de la distribución subyacente \(F(x)\).

  • Cuando solo tenemos datos de pérdidas extremas como punto de partida, sin datos específicos conocimiento de la forma de la distribución subyacente, el teorema indica que uno de los estas distribuciones serán un modelo útil.

Definición 10.1 El dominio máximo de atracción (DMA) para cualquier distribución \(G\) es el conjunto de todas las distribuciones que tiene \(G\) como distribución límite como \(n \rightarrow \infty\) del máximo normalizado \(\left(M_n-b_n\right) / a_n\) para algunas constantes normativas \(a_n\) y \(b_n\)

Teorema 10.1 (Caracterización del DMA) Una distribución \(F\) pertenece al máximo dominio de atracción de una distribución de valores extremos \(G_i\) con constantes normalizadoras \(a_n\) y \(b_n\) si y solo si\[\begin{equation*} \lim _{n \rightarrow \infty} n S\left(a_n x+b_n\right)=-\ln G_i(x) . \end{equation*}\]

Suponga que \(a_n=1\) y \(b_n=\ln n\), la distribución de máximo para una exponencial sería \[\begin{equation*} \begin{aligned} \operatorname{Pr}\left(\frac{M_n-b_n}{a_n} \leq x\right) &=\operatorname{Pr}\left(M_n \leq a_n x+b_n\right) \\ &=\left[\operatorname{Pr}\left(X \leq a_n x+b_n\right)\right]^n \\ &=[\operatorname{Pr}(X \leq x+\ln n)]^n \\ &=[1-\exp (-x-\ln n)]^n \\ &=\left[1-\frac{\exp (-x)}{n}\right]^n \\ & \rightarrow \exp [-\exp (-x)] \text { as } n \rightarrow \infty \end{aligned} \end{equation*}\]

La distribución límite es Gumbel.

10.2 Distribución del exceso sobre un umbral

Las distribuciones conocidas como distribuciones de Pareto generalizadas están estrechamente relacionados con distribuciones de valores extremos. Se utilizan en conexión con el estudio de los excesos por encima de un umbral. Para estas funciones de distribución, usamos el notación general \(W (x)\).

\[W(x)=1+\ln G(x)\].

La forma de cada distribución es la como sigue.

10.2.1 Distribución exponencial

Tomando \(G(x)\) como la Gumbel, se obtiene \[\begin{equation*} F(x)=W_0(x)=1-\exp (-x), \quad x>0 \end{equation*}\]

10.2.2 Distribución Pareto

Si \(G(x)\) es Fréchet entonces

\[\begin{equation*} F(x)=W_{1, \alpha}(x)=1-x^{-\alpha}, \quad x \geq 1, \alpha>0 . \end{equation*}\]

Si se aplica localización y escala se obtiene

\[\begin{equation*} F(x)=1-\left(\frac{x-\mu}{\theta}\right)^{-\alpha}, \quad x \geq \mu+\theta, \alpha, \theta>0 . \end{equation*}\]

El caso cuando \(\mu=-\theta\), es la forma más usual de la Pareto

\[\begin{equation*} F(x)=W_{1, \alpha, \theta}(x)=1-\left(\frac{\theta}{x+\theta}\right)^\alpha, \quad x \geq 0, \alpha, \theta>0 \end{equation*}\]

10.2.3 Distribución Beta

Usando \(G(x)\) como una Weibull, se obtiene

\[\begin{equation*} F(x)=W_{2, \alpha}(x)=1-(-x)^{-\alpha}, \quad-1 \leq x \leq 0, \alpha<0 \end{equation*}\]

Si se usa el mismo parámetro para localización y escala, se obtiene la forma usual de la Beta.

\[\begin{equation*} W_{2, \alpha, \theta}(x)=1-\left(-\frac{x-\theta}{\theta}\right)^{-\alpha}, \quad 0 \leq x \leq \theta, \alpha<0, \theta>0 \end{equation*}\]

10.2.4 Distribución generalizada de Pareto

Esta es cuando se toma \(G(x)\) como la distribución generalizada de valor extremo.

\[\begin{equation*} F(x)=1-\left(1+\frac{x}{\alpha \theta}\right)^{-\alpha} . \end{equation*}\]

Esta se puede escribir también de la forma,

\[\begin{equation*} F(x)=W_{\gamma, \theta}(x)=1-\left(1+\gamma \frac{x}{\theta}\right)^{-1 / \gamma} . \end{equation*}\]

10.2.5 Estabilidad del exceso de la pareto generalizada

Las distribuciones exponencial, Pareto y beta tienen otra propiedad, llamada “estabilidad de excesos”.

Suponga que \(Y = X - d | X> d\) denote el exceso de variable aleatoria condicional. Suponga que \(X\) es exponencial con parámetro \(\theta\).

\[\begin{equation*} \operatorname{Pr}(X \leq x)=W_{0, \theta}(x)=1-\exp \left(-\frac{x}{\theta}\right), \quad x>0 . \end{equation*}\]

Note lo siguiente

\[\begin{equation*} \begin{aligned} \operatorname{Pr}(Y \leq y) &=\operatorname{Pr}(X \leq d+y \mid X>d) \\ &=\frac{\exp \left(-\frac{d}{\theta}\right)-\exp \left(-\frac{d+y}{\theta}\right)}{\exp \left(-\frac{d}{\theta}\right)} \\ &=1-\exp \left(-\frac{y}{\theta}\right) \\ &=W_{0, \theta}(y), \quad y>0 . \end{aligned} \end{equation*}\]

Es decir distribución “perdió la memoria” después de que se traspasa el umbral.

Algo similar pasa con la Pareto,

\[\begin{equation*} \operatorname{Pr}(X \leq x)=W_{1, \alpha, \theta}(x)=1-\left(\frac{x+\theta}{\theta}\right)^{-\alpha}, \quad x>0, \alpha, \theta>0 \end{equation*}\]

donde se tiene que,

\[\begin{equation*} \begin{aligned} \operatorname{Pr}(Y \leq y) &=\operatorname{Pr}(X \leq d+y \mid X>d) \\ &=1-\frac{S(d+y)}{S(d)} \\ &=1-\left(\frac{d+y+\theta}{d+\theta}\right)^{-\alpha}, \quad x>d \\ &=1-\left(\frac{y+(d+\theta)}{d+\theta}\right)^{-\alpha} \\ &=W_{1, \alpha, d+\theta}(y), \quad y>0 . \end{aligned} \end{equation*}\]

Para la función Pareto generalizadas, se obtiene la fórmula,

\[\begin{aligned} \operatorname{Pr}(Y \leq y) &=\operatorname{Pr}(X \leq d+y \mid X>d) \\ &=1-\frac{S(d+y)}{S(d)} \\ &=1-\left(\frac{1+\gamma\left(\frac{d+y}{\theta}\right)}{1+\gamma\left(\frac{d}{\theta}\right)}\right)^{-1 / \gamma} \\ &=1-\left(\frac{\theta+\gamma(d+y)}{\theta+\gamma d}\right)^{-1 / \gamma} \\ &=1-\left(1+\gamma \frac{y}{\theta+\gamma d}\right)^{-1 / \gamma} \\ &=W_{\gamma, \theta+\gamma d}(y), \quad y>0 \end{aligned}\]

10.2.6 Teorema de Balkema-de Haan-Pickands

Teorema 10.2 (Teorema de Balkema-de Haan-Pickands) Si, para unas constantes \(a_n\) y \(b_n\) que dependen de \(n\), la distribución condicional de los excesos \(F^*\left(a_n x+b_n\right)\) tiene una distribución límite continua cuando \(d\) se acerca al extremo derecho del soporte de \(X\), entonces \[\begin{equation*} F^*(x) \rightarrow W(x) \end{equation*}\] como \(d \rightarrow \infty\) para todo \(x\), donde \(W\) es una distribución de Pareto generalizada que es una de \(W_{0, \ theta_d}\), \(W_{1, \alpha, \theta_d}\), o \(W_{2, \alpha, \theta_d}\) para algún parámetro de escala \(\theta_d>0\).

Al igual que el teorema de Fisher-Tippett, si se desea modelar el exceso de la pérdida, basta con usar alguna de las distribuciones \(W(x)\) mencionadas anteriormente.

10.2.7 Elección del modelo para el exceso sobre un umbral

El exceso medio observado en el umbral \(d\) para una muestra de tamaño \(n\). El resultado debe ayudar a elegir cuál de las distribuciones de Pareto generalizadas debe seleccionarse como un modelo.

Definición 10.2 (Función media de exceso) La esperanza del exceso de pérdida sobre un umbral se define como \[\begin{equation*} e(d) = E[X-d\mid X>d] \end{equation*}\]

La importancia de esta función es que para las pareto generalizadas, se puede escribir como un función lineal en \(d\)

Ejercicio 10.2 Pruebe que para la pareto generalizada se tiene que

\[\begin{equation*} e^{PG}(d) = \frac{\theta+\gamma d}{1-\gamma}. \end{equation*}\]

Encuentre las funciones lineales correspondientes para las funciones de distribución, Exponencial, Beta y Pareto.

Esta función se puede estimar con

\[\widehat{e(d)}=\frac{\sum_{j=1}^{n}\left(x_{j}-d\right)_{+}}{\sum_{j=1}^{n} I_{\left\{x_{j}>d\right\}}}\]

  • Para umbrales grandes, el gráfico debe ser aproximadamente lineal, creciente para el Pareto generalizado.
  • Si gráfico parece bastante plano, entonces la distribución subyacente de la cola condicional es más como una exponencial. Son lo procesos típicos de “perdida de memoria”.
  • Si es decreciente, entonces un Beta es la mejor elección. Es una característica de colas ligeras.

El gráfico de exceso medio se puede utilizar para identificar en qué umbral valor el gráfico se vuelve aproximadamente lineal. Una vez se elige el umbral, se pueden obtener las estimaciones de la distribución de Pareto generalizada utilizando el método de máxima verosimilitud (o algún otro)

Ejercicio 10.3  

  1. Calcule los valores de retorno del siguiente ETF
spy <- read.csv("./data/spy.csv")
head(spy)
        Date     Open     High      Low    Close Adj.Close  Volume
1 1993-01-29 43.96875 43.96875 43.75000 43.93750  25.33402 1003200
2 1993-02-01 43.96875 44.25000 43.96875 44.25000  25.51421  480500
3 1993-02-02 44.21875 44.37500 44.12500 44.34375  25.56825  201300
4 1993-02-03 44.40625 44.84375 44.37500 44.81250  25.83855  529400
5 1993-02-04 44.96875 45.09375 44.46875 45.00000  25.94666  531500
6 1993-02-05 44.96875 45.06250 44.71875 44.96875  25.92863  492100
n <- nrow(spy)
retorno <- diff(log(spy$Adj.Close))
  1. Calcule una secuencia de 1000 puntos de umbrales desde 0.0001 hasta 0.12. Luego genere una función que calcule \(e(d)\).
  1. Mueva el valor del umbral inicial para que la función sea completamente lineal.
  2. ¿Cuál distribución es la más adecuada en este caso, por qué? Haga un análisis descriptivo para confirmar sus hipótesis.
  3. Usando el paquete mev y fitdistrplus ajuste una pareto generalizada a partir de los datos generados en el punto 3. Describa el ajuste, log-verosimilitud, AIC, parámetros,etc.
  4. Ajuste una Weibull a estos mismos datos. ¿Qué se observa?

Ejercicio 10.4 Repital los pasos anteriores con la siguiente base de datos. Comente sus resultados.

reclamos <- read.csv("data/reclamos.csv")
reclamos <- reclamos$x