广义线性模型
什么是广义线性模型
假设现在有一个预测任务,其输入是xi(1≤i≤n),对应的label 是yi,我们知道可以用线性模型建模为:
y=ωTx+b
广义线性模型一个最简单的解释是,存在一个单调可微的连接函数g(⋅)满足:
g(y)=ωTx+b
那么模型:y=g−1(ωTx+b)就是广义线性模型。
指数分布族
上面说到了广义线性模型需要确定一个连接函数,那么连接函数怎么确定呢?当然单调可微的函数都符合条件,但是狭义上的广义线性模型是与指数分布族这个概念联系在一起的。假设样本标号y的分布属于指数分布族,那么就存在一个相对应的连接函数使得(x,y)可以用广义线性模型建模。
指数分布族的形式如下:
p(y,η)=b(y)exp(ηTT(y)−a(η))
其中η=ωTx(将b也嵌入到ω中)。
从线性回归到逻辑斯谛回归
很多分布都属于指数分布族,如高斯分布,二项分布,泊松分布等。这里以高斯分布和二项分布为例推导广义线性模型。
高斯分布与线性模型
假设y=ωTx+ϵ,其中ϵ∼N(0,σ2),则有y服从正态分布y∼N(ωTx,σ2),将这个正态分布展开:
p(y;η)=1√2πσexp(−(y−η)22σ2)
将其展开成指数分布族的形式:
p(y;η)=1√2πσexp(−y22σ2)exp(yωTxσ2−(ωTx)22σ2)
所以对应着指数分布族有:
b(y)=1√2πσexp(−y22σ2)
T(y)=yσ2
η=ωTx
a(η)=(ωTx)22σ2
由第三行公式η=ωTx可知线性模型的连接函数就是恒等函数
二项分布与逻辑斯谛回归
假设y∈−1,1,也就是说这是一个二分类任务,则样本label服从二项分布:
p(y)=πy(1−π)(1−y)
其中π表示样本为正例的概率,将其变换成指数分布族的形式:
p(y)=exp(ylog(π)+(1−y)log(1−π))
=exp(ylog(y1−y)+log(1−π))
则有:
b(y)=1
T(y)=y
η=log(π1−π)
a(η)=log(1−π)
由η=log(π1−π)可推出sigmoid函数:
π=eη1+eη
因此对于二项分布来说,其连接函数是sigmoid函数。由此可推出Logistic Regression,也能看出LR的输出范围是0-1,可以看作是样本为正例的概率。