Capítulo 13 Modelos Lineales Generalizados

Vista Previa del Capítulo. Este capítulo describe un marco unificador para el modelo lineal de la Parte I y los modelos binarios y de conteo en los Capítulos 11 y 12. Los modelos lineales generalizados, conocidos comúnmente por el acrónimo GLM, representan una clase importante de modelos de regresión no lineal que han encontrado un uso extensivo en la práctica actuarial. Este marco unificador no solo abarca muchos de los modelos que hemos visto, sino que también proporciona una plataforma para nuevos modelos, incluyendo las regresiones gamma para datos con colas gruesas y las distribuciones de “Tweedie” para datos de dos partes.

13.1 Introducción

Existen muchas maneras de extender o generalizar el modelo de regresión lineal. Este capítulo introduce una extensión que es tan utilizada que se conoce como el “modelo lineal generalizado”, o por el acrónimo GLM.

Los modelos lineales generalizados incluyen regresiones lineales, logísticas y de Poisson, todas como casos especiales. Una característica común de estos modelos es que en cada caso podemos expresar la media de la respuesta como una función de combinaciones lineales de variables explicativas. En el contexto de los GLM, es habitual usar \(\mu_i = \mathrm{E}~y_i\) para la media de la respuesta y llamar \(\eta_i = \mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta\) el componente sistemático del modelo. Hemos visto que podemos expresar el componente sistemático como:

  • \(\mathbf{x}_i^{\mathbf{\prime}}\boldsymbol \beta = \mu_i\), para la regresión lineal (normal),
  • \(\mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta = \exp(\mu_i)/(1+\exp(\mu_i))\), para la regresión logística y
  • \(\mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta = \ln (\mu_i)\), para la regresión de Poisson.

Para los GLM, el componente sistemático está relacionado con la media a través de la expresión \[\begin{equation} \eta _i = \mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta = \mathrm{g}\left( \mu _i\right). \tag{13.1} \end{equation}\] Aquí, g(.) es conocida y se llama función de enlace. La inversa de la función de enlace, \(\mu _i = \mathrm{g}^{-1}( \mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta)\), es la función de la media.

La segunda característica común implica la distribución de las variables dependientes. En la Sección 13.2, introduciremos la familia exponencial lineal de distribuciones, una extensión de la distribución exponencial. Esta familia incluye la normal, Bernoulli y Poisson como casos especiales.

La tercera característica común de los modelos GLM es la robustez de la inferencia con respecto a la elección de distribuciones. Aunque la regresión lineal está motivada por la teoría de la distribución normal, hemos visto que las respuestas no necesitan estar distribuidas normalmente para que los procedimientos de inferencia estadística sean efectivos. Las suposiciones de muestreo de la Sección 3.2 se centran en:

  • la forma de la función de la media (suposición F1),
  • variables explicativas no estocásticas o exógenas (F2),
  • varianza constante (F3) y
  • independencia entre observaciones (F4).

Los modelos GLM mantienen las suposiciones F2 y F4 y generalizan F1 a través de la función de enlace. La elección de diferentes distribuciones nos permite relajar F3 especificando la varianza como una función de la media, escrita como \(\mathrm{Var~}y_i = \phi v(\mu_i)\). Tabla 13.1 muestra cómo la varianza depende de la media para diferentes distribuciones. Como veremos al considerar la estimación (Sección 13.3), es la elección de la función de varianza la que impulsa las propiedades más importantes de la inferencia, no la elección de la distribución.

Tabla 13.1. Funciones de Varianza para Distribuciones Seleccionadas

\[ \small{ \begin{array}{lc} \hline \text{Distribución} & \text{Función de Varianza }v(\mu) \\ \hline \text{Normal} & 1 \\ \text{Bernoulli} & \mu ( 1- \mu ) \\ \text{Poisson} & \mu \\ \text{Gamma} & \mu ^2 \\ \text{Gaussiana Inversa} & \mu ^3 \\ \hline \end{array} } \]

Al considerar la regresión en el contexto de los GLM, podremos manejar variables dependientes que sean aproximadamente normales, binarias o que representen conteos, todo dentro de un único marco. Esto facilitará nuestra comprensión de la regresión al permitirnos ver el “panorama general” y no preocuparnos tanto por los detalles. Además, la generalidad de los GLM nos permitirá introducir nuevas aplicaciones, como las regresiones gamma, que son útiles para distribuciones con colas gruesas, y las llamadas distribuciones “Tweedie” para datos de dos partes. Los datos de dos partes son un tema que se aborda en el Capítulo 16, donde hay una masa en cero y un componente continuo. En el caso de los datos de reclamaciones de seguros, el cero representa la ausencia de una reclamación y el componente continuo representa el monto de una reclamación.

Este capítulo describe los procedimientos de estimación para calibrar los modelos GLM, pruebas de significancia y estadísticas de bondad de ajuste para documentar la utilidad del modelo, y residuos para evaluar la robustez del ajuste del modelo. Veremos que el trabajo que realizamos anteriormente en modelos de regresión lineal, binaria y de conteo proporciona las bases para las herramientas necesarias para el modelo GLM. De hecho, muchas de estas herramientas y conceptos son ligeras variaciones de lo que ya hemos desarrollado y podremos construir sobre estas bases.

13.2 Modelo GLM

Para especificar un GLM, el analista elige una distribución subyacente de la respuesta, tema de la Sección 13.2.1, y una función que vincula la media de la respuesta con las covariables, tema de la Sección 13.2.2.

13.2.1 Familia Exponencial Lineal de Distribuciones

Definición. La distribución de la familia exponencial lineal es \[\begin{equation} \mathrm{f}(y; \theta, \phi) = \exp \left( \frac{y\theta - b(\theta)}{\phi} + S(y, \phi) \right). \tag{13.2} \end{equation}\] Aquí, \(y\) es una variable dependiente y \(\theta\) es el parámetro de interés. La cantidad \(\phi\) es un parámetro de escala. El término \(b(\theta)\) depende solo del parámetro \(\theta\), no de la variable dependiente. El estadístico \(S(y, \phi)\) es una función de la variable dependiente y el parámetro de escala, pero no del parámetro \(\theta\).

La variable dependiente \(y\) puede ser discreta, continua o una mezcla. Así, \(\mathrm{f}(.)\) puede interpretarse como una función de densidad o de masa, dependiendo de la aplicación. Tabla 13.8 proporciona varios ejemplos, incluyendo las distribuciones normal, binomial y de Poisson. Para ilustrar, consideremos una distribución normal con una función de densidad de probabilidad de la forma: \[\begin{eqnarray*} \mathrm{f}(y; \mu, \sigma^2) &=& \frac{1}{\sigma \sqrt{2\pi}} \exp\left(- \frac{(y-\mu)^2}{2\sigma^2}\right) \\ &=& \exp\left(\frac{(y\mu - \mu^2/2)}{\sigma^2} - \frac{y^2}{2\sigma^2} - \frac{1}{2} \ln(2\pi \sigma^2)\right). \end{eqnarray*}\] Con las elecciones \(\theta = \mu\), \(\phi = \sigma^2\), \(b(\theta) = \theta^2/2\) y \(S(y, \phi) = -y^2/(2\phi) - \ln(2\pi\phi)/2\), vemos que la función de densidad normal puede expresarse como en la ecuación (13.2).

Para la distribución en la ecuación (13.2), algunos cálculos sencillos muestran que:

  • \(\mathrm{E~}y = b^{\prime}(\theta)\) y
  • \(\mathrm{Var~}y = \phi b^{\prime\prime}(\theta)\).

Para referencia, estos cálculos aparecen en la Sección 13.9.2. Para ilustrar, en el contexto del ejemplo de la distribución normal mencionado arriba, es fácil verificar que \(\mathrm{E~}y = b^{\prime}(\theta) = \theta = \mu\) y \(\mathrm{Var~} y = \sigma^2 b^{\prime\prime}(\theta) = \sigma^2\), como se esperaba.

En situaciones de modelado de regresión, la distribución de \(y_i\) varía por observación a través del subíndice “\(i\)”. Es habitual dejar que la familia de distribuciones permanezca constante, pero permitir que los parámetros varíen por observación utilizando la notación \(\theta_i\) y \(\phi_i\). Para nuestras aplicaciones, la variación del parámetro de escala se debe a factores de peso conocidos. Específicamente, cuando el parámetro de escala varía por observación, se sigue \(\phi_i = \phi / w_i\), es decir, una constante dividida por un peso conocido \(w_i\). Con la relación \(\mathrm{Var~}y_i = \phi_i b^{\prime\prime}(\theta_i) = \phi b^{\prime\prime}(\theta_i) / w_i\), tenemos que un peso mayor implica una varianza menor, todo lo demás constante.

13.2.2 Funciones de Enlace

En situaciones de regresión, deseamos entender el impacto de \(\eta_i = \mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta\), el componente sistemático. Como vimos en la subsección anterior, podemos expresar la media de \(y_i\) como \(\mathrm{E~}y_i = \mu_i = b^{\prime}(\theta_i)\). La ecuación (13.1) sirve para “enlazar” el componente sistemático con \(\mu_i\) y, por lo tanto, con el parámetro \(\theta_i\). Es posible usar la función identidad para g(.) de modo que \(\mu_i = b^{\prime}(\theta_i)\). De hecho, este es el caso habitual en la regresión lineal. Sin embargo, las combinaciones lineales de variables explicativas, \(\mathbf{x}_i^{\mathbf{\prime}} \boldsymbol \beta\), pueden variar entre negativo e infinito positivo, mientras que las medias a menudo están restringidas a un rango más pequeño. Por ejemplo, las medias de Poisson varían entre cero e infinito. La función de enlace sirve para mapear el dominio de la función de la media en toda la recta real.


Caso Especial: Enlaces para la distribución Bernoulli. Las medias de Bernoulli son probabilidades y, por lo tanto, varían entre cero y uno. Para este caso, es útil elegir una función de enlace que mapee el intervalo unitario (0,1) en toda la recta real. A continuación se presentan tres ejemplos importantes de funciones de enlace para la distribución Bernoulli:

  • Logit: \(g(\mu )=\mathrm{logit}(\mu )=\ln (\mu /(1-\mu ))\) .
  • Probit: \(g(\mu )=\Phi ^{-1}(\mu )\), donde \(\Phi ^{-1}\) es la inversa de la función de distribución normal estándar.
  • Complementario log-log: \(g(\mu )=\ln \left( -\ln (1-\mu )\right)\).

Esta ilustración demuestra que puede haber varias funciones de enlace que sean adecuadas para una distribución particular. Para ayudar en la selección, un caso intuitivamente atractivo ocurre cuando el componente sistemático es igual al parámetro de interés ($=$). Para ver esto, recordemos primero que \(\eta =g(\mu )\) y \(\mu =b^{\prime }(\theta )\), omitiendo los subíndices “\(i\)” por el momento. Entonces, es fácil ver que si \(g^{-1}=b^{\prime }\), entonces \(\eta =g(b^{\prime }(\theta ))=\theta\). La elección de \(g\) que es la inversa de \(b^{\prime }(\theta )\) se llama el enlace canónico.

Tabla 13.2 muestra la función de la media y el enlace canónico correspondiente para varias distribuciones importantes.

Tabla 13.2. Funciones de Media y Enlaces Canónicos para Distribuciones Seleccionadas

\[ \small{ \begin{array}{lcc} \hline \text{Distribución} & \text{Función de media } b^{\prime }(\theta ) & \text{Enlace canónico }g(\mu ) \\ \hline \text{Normal} & \theta & \mu \\ \text{Bernoulli} & e^{\theta}/(1+e^{\theta} ) & \mathrm{logit}(\mu ) \\ \text{Poisson} & e^{\theta } & \ln \mu \\ \text{Gamma} & -1/\theta & -1/\mu \\ \text{Gaussiana Inversa} & (-2 \theta )^{-1/2} & -1 /(2 \mu^2) \\ \hline \end{array} } \]

Las funciones de enlace relacionan la media con el componente sistemático y con los parámetros de la regresión. Dado que los parámetros de la regresión son desconocidos, es común especificar los enlaces solo hasta la escala. Por ejemplo, es común especificar el enlace canónico para la gaussiana inversa como \(1 /\mu^2\) (en lugar de $-1 /(2 ^2) $). Si es necesario, siempre se puede recuperar la escala al estimar los coeficientes de regresión desconocidos.


Ejemplo: Clasificación para la Fijación de Tarifas. El proceso de agrupar riesgos con características similares se conoce como clasificación de riesgos. La fijación de tarifas es el arte de establecer primas, o tarifas, basadas en la experiencia de pérdidas y las exposiciones de las clases de riesgo. Por ejemplo, Mildenhall (1999) consideró 8,942 pérdidas por colisión de pólizas de seguros de automóviles de uso privado en el Reino Unido (UK). Los datos fueron obtenidos de Nelder y McCullagh (1989, Sección 8.4.1) pero se originaron en Baxter et al. (1980). Un plan de tarifas típico para automóviles personales se basa en las características del conductor y del vehículo. Las características del conductor pueden incluir la edad, género, estado civil, historial (accidentes e infracciones) y descuento por buen estudiante. Las características del vehículo pueden incluir el tipo y año del modelo del vehículo, propósito (negocios/escuela o placer), área de estacionamiento, entre otras. Podemos representar el componente sistemático como:

\[ \eta_{ij} = \beta_0 + \alpha_i + \tau_j, \]

donde \(\alpha_i\) representa el efecto de la \(i\)-ésima categoría de clasificación del conductor y \(\tau_j\) el efecto del \(j\)-ésimo tipo de vehículo. Tabla 13.3 muestra los datos de Mildenhall para ocho tipos de conductores (grupos de edad) y cuatro clases de vehículos (uso del vehículo). La severidad promedio está en libras esterlinas ajustadas por inflación.

En la terminología de GLM, un plan tarifario aditivo se basa en la función de enlace identidad, mientras que un plan multiplicativo se basa en una función de enlace logarítmica. Específicamente, si usamos \(\eta_{ij} = \ln (\mu_{ij})\), entonces podemos escribir la media como:

\[\begin{equation} \mu_{ij} = \exp(\beta_0 + \alpha_i + \tau_j) = B \times A_i \times T_j, \tag{13.3} \end{equation}\]

donde \(B=\exp(\beta_0)\) es una constante de escala, \(A_i=\exp(\alpha_i)\) representa los efectos del conductor y \(T_j=\exp(\tau_j)\) representa los efectos del vehículo.

Tabla 13.3. Datos de Colisiones en Automóviles Privados en el Reino Unido

\[ \scriptsize{ \begin{array}{lcrr|llcrr} \hline \text{Edad} & \text{Uso del} & \text{Severidad} & \text{Número de} &~~~ & \text{Edad} & \text{Uso del} & \text{Severidad} & \text{Número de } \\ & \text{ Vehículo} & \text{Promedio} & \text{Reclamaciones} &~~~ & \text{Edad} & \text{Vehículo} & \text{Promedio} & \text{Reclamaciones} \\ \hline 17-20 & \text{Recreativo} & 250.48 & 21 & & 35-39 & \text{Recreativo} & 153.62 & 151 \\ 17-20 & \text{ConducirCorto} & 274.78 & 40 & & 35-39 & \text{ConducirCorto} & 201.67 & 479 \\ 17-20 & \text{ConducirLargo} & 244.52 & 23 & & 35-39 & \text{ConducirLargo} & 238.21 & 381 \\ 17-20 & \text{Negocios} & 797.80 & 5 & & 35-39 & \text{Negocios} & 256.21 & 166 \\ \hline 21-24 & \text{Recreativo} & 213.71 & 63 & & 40-49 & \text{Recreativo} & 208.59 & 245 \\ 21-24 & \text{ConducirCorto} & 298.60 & 171 & & 40-49 & \text{ConducirCorto} & 202.80 & 970 \\ 21-24 & \text{ConducirLargo} & 298.13 & 92 & & 40-49 & \text{ConducirLargo} & 236.06 & 719 \\ 21-24 & \text{Negocios} & 362.23 & 44 & & 40-49 & \text{Negocios} & 352.49 & 304 \\ \hline 25-29 & \text{Recreativo} & 250.57 & 140 & & 50-59 & \text{Recreativo} & 207.57 & 266 \\ 25-29 & \text{ConducirCorto} & 248.56 & 343 & & 50-59 & \text{ConducirCorto} & 202.67 & 859 \\ 25-29 & \text{ConducirLargo} & 297.90 & 318 & & 50-59 & \text{ConducirLargo} & 253.63 & 504 \\ 25-29 & \text{Negocios} & 342.31 & 129 & & 50-59 & \text{Negocios} & 340.56 & 162 \\ \hline 30-34 & \text{Recreativo} & 229.09 & 123 & & 60+ & \text{Recreativo} & 192.00 & 260 \\ 30-34 & \text{ConducirCorto} & 228.48 & 448 & & 60+ & \text{ConducirCorto} & 196.33 & 578 \\ 30-34 & \text{ConducirLargo} & 293.87 & 361 & & 60+ & \text{ConducirLargo} & 259.79 & 312 \\ 30-34 & \text{Negocios} & 367.46 & 169 & & 60+ & \text{Negocios} & 342.58 & 96 \\ \hline \end{array} } \]

Fuente: Mildenhall (1999). “ConducirCorto” significa conducir al trabajo menos de 10 millas. “ConducirLargo” significa conducir al trabajo más de 10 millas.

Código en R para Generar la Tabla 13.3