什么是广义线性模型

假设现在有一个预测任务,其输入是xi(1in),对应的label 是yi,我们知道可以用线性模型建模为:

y=ωTx+b

广义线性模型一个最简单的解释是,存在一个单调可微的连接函数g()满足:

g(y)=ωTx+b

那么模型:y=g1(ωTx+b)就是广义线性模型。

指数分布族

上面说到了广义线性模型需要确定一个连接函数,那么连接函数怎么确定呢?当然单调可微的函数都符合条件,但是狭义上的广义线性模型是与指数分布族这个概念联系在一起的。假设样本标号y的分布属于指数分布族,那么就存在一个相对应的连接函数使得(x,y)可以用广义线性模型建模。

指数分布族的形式如下:

p(y,η)=b(y)exp(ηTT(y)a(η))


其中η=ωTx(将b也嵌入到ω中)。

从线性回归到逻辑斯谛回归

很多分布都属于指数分布族,如高斯分布,二项分布,泊松分布等。这里以高斯分布和二项分布为例推导广义线性模型。

高斯分布与线性模型

假设y=ωTx+ϵ,其中ϵN(0,σ2),则有y服从正态分布yN(ωTx,σ2),将这个正态分布展开:

p(y;η)=12πσexp((yη)22σ2)


将其展开成指数分布族的形式:

p(y;η)=12πσexp(y22σ2)exp(yωTxσ2(ωTx)22σ2)

所以对应着指数分布族有:

b(y)=12πσexp(y22σ2)

T(y)=yσ2

η=ωTx

a(η)=(ωTx)22σ2


由第三行公式η=ωTx可知线性模型的连接函数就是恒等函数

二项分布与逻辑斯谛回归

假设y1,1,也就是说这是一个二分类任务,则样本label服从二项分布:

p(y)=πy(1π)(1y)


其中π表示样本为正例的概率,将其变换成指数分布族的形式:

p(y)=exp(ylog(π)+(1y)log(1π))

=exp(ylog(y1y)+log(1π))


则有:

b(y)=1

T(y)=y

η=log(π1π)

a(η)=log(1π)

η=log(π1π)可推出sigmoid函数:

π=eη1+eη

因此对于二项分布来说,其连接函数是sigmoid函数。由此可推出Logistic Regression,也能看出LR的输出范围是0-1,可以看作是样本为正例的概率。