目录

GLM基础(一):广义线性模型原理

应用GLM的条件

GLM(广义线性模型)是线性模型(LM)的推广和延申,可分为3个组成部分:

  1. 随机成分:因变量 $y$ 中的每一个 $y_i$ 相互独立,且服从指数型分布族中的一种分布。指数型分布族包括:正态分布、泊松分布、二项分布、伽马分布、逆高斯分布等。
  2. 系统成分:为自变量的线性组合 $ \eta = β_1x_1 + β_2x_2 + … + β_nx_n$
  3. 联结函数:因变量的预测值 $\hat y$ 不直接等于 $\eta$,而是 $\eta$ 的一个函数变换。线性组合 $\eta$ 等于预测值 $\hat y$ 的期望的一个函数 $g(E(\hat y)) = \eta$。 $g$ 称为联结函数,是一个单调可导函数。

对于拟合LM,通常使用的最小二乘法(OLS)要求数据符合7个假设,包括误差项独立同分布等等。而拟合GLM则对因变量 $y$ 和误差项 $\epsilon$ 的假设由正态分布放宽到指数型分布。同时,将预测值与线性组合的联结函数g由 $\hat y = x $ 放宽到任意单调可导函数。

指数型分布族具有pdf通式和特征参数,将正态分布、泊松分布、二项分布、伽马分布的pdf展开为指数型分布族的pdf通式即可证明以上分布属于指数型分布族并指出其特征参数。

各分布和风险保费的关系

泊松分布通常用于事件计数,其取值范围从0到正无穷,适合模拟索赔次数。

在学习统计之前,我觉得因为这些模型的假设完全不能被满足,所以模型没有意义。例如泊松分布的数据均值等于方差,且假设前一个事件和后一个事件的发生无关,这些都过于理想化。但是学习统计之后,我觉得这些数据分布可以模仿现实发生的事情,从而使用分布的统计量来预测/估计现实。如果某个分布模仿效果太差,就拟合更复杂的分布并承受过拟合和计算量复杂解释性低的代价。一切都是为了找更有效/有依据的方法来分析/预测现实罢了。

二项分布本义为n个0/1中抽到1的个数,通过变换可以解释为抽到1的概率,即logistic模型,适合模拟续保率。

指数分布是泊松分布的“逆向”,泊松分布是单位时间发生的事件数,指数分布是两个先后发生的泊松分布事件的间隔时间,取值范围为0到正无穷。

伽马分布是多个指数分布的复合,即间隔n个的泊松事件的间隔时间。适合模拟索赔强度(每次赔款的金额)。

Tweedie是泊松和伽马的复合分布,可以理解为同时拟合索赔数量(泊松)和索赔强度(伽马),总索赔金额等于X(服从泊松分布)个伽马随机变量的和。其优点在于有一定的概率生成数值为0的样本,这种“零膨胀”适合模拟存在无赔款赔案的现实数据。