GLM基础（一）：广义线性模型原理

2023-07-03 约 974 字预计阅读 2 分钟

应用GLM的条件

GLM（广义线性模型）是线性模型（LM）的推广和延申，可分为3个组成部分：

随机成分：因变量 $y$ 中的每一个 $y_i$ 相互独立，且服从指数型分布族中的一种分布。指数型分布族包括：正态分布、泊松分布、二项分布、伽马分布、逆高斯分布等。
系统成分：为自变量的线性组合 $ \eta = β_1x_1 + β_2x_2 + … + β_nx_n$
联结函数：因变量的预测值 $\hat y$ 不直接等于 $\eta$，而是 $\eta$ 的一个函数变换。线性组合 $\eta$ 等于预测值 $\hat y$ 的期望的一个函数 $g(E(\hat y)) = \eta$。 $g$ 称为联结函数，是一个单调可导函数。

对于拟合LM，通常使用的最小二乘法（OLS）要求数据符合7个假设，包括误差项独立同分布等等。而拟合GLM则对因变量 $y$ 和误差项 $\epsilon$ 的假设由正态分布放宽到指数型分布。同时，将预测值与线性组合的联结函数g由 $\hat y = x $ 放宽到任意单调可导函数。

指数型分布族具有pdf通式和特征参数，将正态分布、泊松分布、二项分布、伽马分布的pdf展开为指数型分布族的pdf通式即可证明以上分布属于指数型分布族并指出其特征参数。

各分布和风险保费的关系

泊松分布通常用于事件计数，其取值范围从0到正无穷，适合模拟索赔次数。

在学习统计之前，我觉得因为这些模型的假设完全不能被满足，所以模型没有意义。例如泊松分布的数据均值等于方差，且假设前一个事件和后一个事件的发生无关，这些都过于理想化。但是学习统计之后，我觉得这些数据分布可以模仿现实发生的事情，从而使用分布的统计量来预测/估计现实。如果某个分布模仿效果太差，就拟合更复杂的分布并承受过拟合和计算量复杂解释性低的代价。一切都是为了找更有效/有依据的方法来分析/预测现实罢了。

二项分布本义为n个0/1中抽到1的个数，通过变换可以解释为抽到1的概率，即logistic模型，适合模拟续保率。

指数分布是泊松分布的“逆向”，泊松分布是单位时间发生的事件数，指数分布是两个先后发生的泊松分布事件的间隔时间，取值范围为0到正无穷。

伽马分布是多个指数分布的复合，即间隔n个的泊松事件的间隔时间。适合模拟索赔强度（每次赔款的金额）。

Tweedie是泊松和伽马的复合分布，可以理解为同时拟合索赔数量（泊松）和索赔强度（伽马），总索赔金额等于X（服从泊松分布）个伽马随机变量的和。其优点在于有一定的概率生成数值为0的样本，这种“零膨胀”适合模拟存在无赔款赔案的现实数据。

目录

GLM基础（一）：广义线性模型原理

应用GLM的条件

各分布和风险保费的关系