8 Selección de modelos
El objetivo es determinar el mejor modelo posible.
- Comparación gráfica: densidad y distribución.
- Criterios de comparación
- Pruebas de hipótesis
- Selección del modelo
8.1 Comparación gráfica
La forma más directa de ver qué tan bien el modelo y los datos coinciden es trazar el respectivo gráfico de las funciones de densidad y distribución.
Cuando la función de distribución del modelo está cerca de la función de distribución empírica, es difícil hacer pequeñas distinciones. Entre las muchas formas de ampliar esas distinciones tenemos:
La primera es simplemente trazar la diferencia de las dos funciones. Es decir, si \(F_n(x)\) es la función de distribución empírica y \(F^*(x)\) la distribución del modelo función, graficar \(D(x)=F_{n}(x)-F^{*}(x)\) una parcela correspondiente para da agrupado. No hay una versión para datos agrupados.
Otra forma de resaltar cualquier diferencia es el p-p plot la gráfica se crea ordenando las observaciones \(x_{1} \leq \cdots \leq x_{n}\) graficando el valor correspondiente. Las coordenadas para trazar son \(\left(F_{n}\left(x_{j}\right), F^{*}\left(x_{j}\right)\right)\).
::: {.example}
Suponga que para los datos de la Tabla D, se tiene estos modelos.
8.2 Criterios de comparación
El criterio de información de Akaike (AIC) es una medida de la calidad relativa de un modelo estadistico, para un conjunto dado de datos y un conjunto dado de modelos.
En el caso general, el AIC es \[\begin{equation*}
A I C=2 k-2 \ln (L)
\end{equation*}\] donde \(k\) es el número de parámetros en el modelo estadístico , y \(L\) es el máximo valor de la función de verosimilitud para el modelo estimado.
BIC (Bayesian information criterion): \[\begin{align*}
BIC=\ln (L)+k \ln(n)
\end{align*}\]
Dado un conjunto de modelos candidatos para los datos, el modelo preferido es el que tiene el valor mínimo en el AIC y BIC.
8.3 Pruebas de hipótesis
\(H_{0}\) : Los datos provienen de una población con el modelo propuesto.
\(H_{1}\) : Los datos no vienen de tal población.
8.3.1 Prueba de Kolmogorov-Smirnov
Sea \(t\) el punto de truncamiento izquierdo (\(t\)= 0 si no hay truncamiento) y sea \(u\) el punto de censura (\(u= \infty\) si no hay censura). Entonces, la prueba para datos individuales es:
\[\begin{equation*} D=\max _{t \leq x \leq u}\left|F_{n}(x)-F^{*}(x)\right| \end{equation*}\] Y se compara con un valor crítico de \(\hat{k}\) con valores \(\frac{1.22}{\sqrt{n}}\), \(\frac{1.36}{\sqrt{n}}\) y \(\frac{1.63}{\sqrt{n}}\) para niveles de significaciia de 0.1, 0.05 y 0.01 respectivamente.
Se rechaza la hipótesis nula si \(D>\hat{k}\).
Tarea complementaria: investigar sobre la versión para datos agrupados
8.3.2 Prueba Anderson-Darling
Esta prueba un promedio ponderado de las diferencias al cuadrado entre el modelo y el empírico
\[\begin{equation*} A^{2}=n \int_{t}^{u} \frac{\left[F_{n}(x)-F^{*}(x)\right]^{2}}{F^{*}(x)\left[1-F^{*}(x)\right]} f^{*}(x) d x \end{equation*}\] Este estadístico de prueba tiende a poner más énfasis en el buen ajuste en las colas que en el medio de la distribución. Sin embargo, para datos individuales la integral simplifica a:
\[\begin{align*} A^{2}=&-n F^{*}(u)+n \sum_{j=0}^{k}\left[1-F_{n}\left(y_{j}\right)\right]^{2}\left\{\ln \left[1-F^{*}\left(y_{j}\right)\right]-\ln \left[1-F^{*}\left(y_{j+1}\right)\right]\right\} \\ &+n \sum_{j=1}^{k} F_{n}\left(y_{j}\right)^{2}\left[\ln F^{*}\left(y_{j+1}\right)-\ln F^{*}\left(y_{j}\right)\right] \end{align*}\] Los valores críticos son 1.933, 2.492 y 3.857 para 10%, 5% y 1% niveles de significancia, respectivamente.
8.3.3 Chi-cuadrado
Sea \(\hat{p}_{j} = F^{*} \left (c_{j} \right) -F^{*} \left (c_{j-1} \right)\) la probabilidad a la observación truncada cae en el intervalo de \(c_{j-1}\) a \(c_{j}.\) De manera similar, sea \(p_{nj} = F_{n} \left (c_{j} \right) -F_{n} \left (c_{j-1} \right)\) será la misma probabilidad según la distribución empírica. El estadístico de prueba es: \[\begin{equation*} \chi^{2}=\sum_{j=1}^{k} \frac{n\left(\hat{p}_{j}-p_{n j}\right)^{2}}{\hat{p}_{j}} \end{equation*}\] o la otra forma \[\begin{equation*} \chi^2=\sum_{j=1}^k \frac{\left(E_j-O_j\right)^2}{E_j} \end{equation*}\]
El número de grados de libertad es \(k-1-\text{\# de parámetros en el modelo}\).
8.3.4 Test de verosimilitud
\(H_{0}\) : Los datos vienen de una población con distribución \(A\).
\(H_{1}\) : Los datos vienen de una población con distribución \(B\).
Donde \(A\) debe ser un caso particular de \(B\).
Sea \(L (\theta).\) la función de verosimilitud. Sea \(\theta_ {0}\) el valor de los parámetros que la maximiza. Sin embargo, solo se pueden considerar los valores de los parámetros que están dentro de la hipótesis nula.
Sea \(\theta_{1}\) el estimador de máxima verosimilitud, donde los parámetros pueden variar en todos los valores posibles de la hipótesis alternativa.
La estadística de prueba es \(T = 2 \ln \left( L \left (\theta_{1} \right) / L \left (\theta_{0} \right) \right)\) La hipótesis nula se rechaza si \(T> c\), donde \(c\) se calcula a partir de \(\alpha = \operatorname {Pr} (T > c)\), donde \(T\) tiene una distribución chi-cuadrado con grados de libertad iguales al número de parámetros libres en el modelo de la hipótesis alternativa menos el número de parámetros libres en el modelo de la hipótesis nula.
8.4 Selección del modelo
El principio de parsimonia establece que, a menos que haya pruebas considerables para hacer lo contrario, se prefiere un modelo más simple.
Reestrigir el universo de modelos potenciales, la decisión puede verse influida por el éxito de modelos particulares en similares situaciones o el valor de un modelo en particular para su uso previsto.
La experiencia del analista es fundamental.
Utilizar las medidas numéricas
Ejercicio 8.1 Supongamos que se tiene la Tabla D de eventos en un seguro de 5 años. Ver tabla acá.
<- read.csv("./data/tabla_d.csv")
TablaD
<- TablaD %>%
TablaD mutate(delta = case_when(event == "d" ~ 1,
%in% c("s", "e") ~ 0))
event <-
surv Surv(
time = TablaD$d,
time2 = TablaD$obs,
event = TablaD$delta
)
- Con esta información ajuste modelos Pareto, Gamma, Exponencial, Lognormal, o cualquier otra que esté disponible en
flexsurvreg
. Usando métodos gráficos indique cuál distribución “parece” más correcta. - Tome la función \(F(x)\) ajuste que se obtiene del estimador de Kaplan-Meier y compárela mediante un PP-plot con los modelos usando anteriormente. Nuevamente cuál da mejor ajuste.
- Para este ejercicio, estimaremos el estadístico \(D\) de Kolmogorov-Smirnoff. El problema es que la función de distribución empírica tiene saltos en lugares “aleatorios”. Por eso hay que estimar \(F_n(x)\) y \(F_n(x^{-})\). Este último significa el valor del la distribución antes del salto. Para hacer esto haga lo siguiente:
- Calcule \(F_n(x)\) empíricamente.
- Tome los valores de \(F_n(x)\) y agregue un 0 al inicio del vector y elimine la última observación.
- Calcule \(D=\max(\vert F_{n}(x) - F(x)\vert, \vert F_{n}(x^{-}) - F(x)\vert)\).
- Usando los quantiles vistos anteriormente, ejecute una prueba de hipótesis con todas la distribuciones estudiadas anteriormente.
- Del paquete
KSgeneral
use la funcióncont_ks_cdf
para encontrar el \(p\)-valor de cada una de las distribuciones.
- Con todos estos criterios escoja la mejor distribución para los datos.