本页目录

【模式识别】线性学习器与线性分类器

背景知识

Sigmoid函数

Sigmoid函数通常表示为,值域为,有以下两个常用的性质:

常数问题

你可能看到过两种计算分类结果的方式。以二维空间上的分类为例,前者的分类线可以是任意直线,而后者只能是过原点的直线。事实上,可以通过将问题空间升一个维度来统一两种形式。

,两种形式即可统一。

上述操作相当于,仍然以二维空间上的分类为例,若希望分类线不受过原点的限制,考虑把问题放入三维空间:
坐标不变,令,此时可以在三维空间中用一过原点的平面作为分类面,这个分类面与平面的交线可以是任意(平面上的)直线。

线性回归

动机

用下式:

来估计带标签样本

损失函数

线性回归模型使用最小平方误差:

,可以将损失写作:

最优解

Fisher线性判别

动机

线性二分类问题都可以看作把样本投影到某个方向上,再在这个一维空间中确定一个阈值,将两类样本分开。现在希望找到的方向满足:两类间的距离尽可能大,但每一类内部的样本尽可能聚集。

准则函数

假设两类问题中每类的均值向量分别为,定义类内离散度矩阵

类间离散度矩阵

判别准则为:

最优解

Fisher判别准则下的最优投影方向为:

确定了方向后,分类的阈值可以取两类均值的中心的投影,即:

感知器

动机

感知器用的正负来判断样本的分类。

损失函数

感知器的损失函数可以理解为错分样本的个数,数学形式如下:

更新规则

如果所有样本都分类正确,算法结束;否则对于分错的样本执行:

两类Logistic回归

动机

使用Sigmoid函数将归约到区间,可以把这个输出结果看作概率,那么输出将从单纯的以的符号进行二分类变成连续的概率。

损失函数

考虑最大似然估计,样本集出现的概率为:

使用对数似然函数,考虑单个样本出现的概率:

假设Sigmoid函数的输出是,其含义应为“样本是正类”的概率。因此一个正样本对似然函数的贡献是,而负样本要代入。换句话说,上述对数似然函数中的可以有如下数学表示:

考虑到Sigmoid函数的性质,上式可以统一写作:

希望似然函数取最大,那么定义损失函数为如下形式:

进而化简为:

更新规则

使用梯度下降法,计算出梯度:

然后按照学习率更新下一时刻参数: