【模式识别】线性学习器与线性分类器
背景知识
Sigmoid函数
Sigmoid
函数通常表示为,值域为,有以下两个常用的性质:
常数问题
你可能看到过和两种计算分类结果的方式。以二维空间上的分类为例,前者的分类线可以是任意直线,而后者只能是过原点的直线。事实上,可以通过将问题空间升一个维度来统一两种形式。
令,,两种形式即可统一。
上述操作相当于,仍然以二维空间上的分类为例,若希望分类线不受过原点的限制,考虑把问题放入三维空间:
坐标不变,令,此时可以在三维空间中用一过原点的平面作为分类面,这个分类面与平面的交线可以是任意(平面上的)直线。
线性回归
动机
用下式:
来估计带标签样本。
损失函数
线性回归模型使用最小平方误差:
记,,可以将损失写作:
最优解
Fisher线性判别
动机
线性二分类问题都可以看作把样本投影到某个方向上,再在这个一维空间中确定一个阈值,将两类样本分开。现在希望找到的方向满足:两类间的距离尽可能大,但每一类内部的样本尽可能聚集。
准则函数
假设两类问题中每类的均值向量分别为和,定义类内离散度矩阵:
类间离散度矩阵:
判别准则为:
最优解
Fisher判别准则下的最优投影方向为:
确定了方向后,分类的阈值可以取两类均值的中心的投影,即:
感知器
动机
感知器用的正负来判断样本的分类。
损失函数
感知器的损失函数可以理解为错分样本的个数,数学形式如下:
更新规则
如果所有样本都分类正确,算法结束;否则对于分错的样本执行:
两类Logistic回归
动机
使用Sigmoid
函数将归约到区间,可以把这个输出结果看作概率,那么输出将从单纯的以的符号进行二分类变成连续的概率。
损失函数
考虑最大似然估计,样本集出现的概率为:
使用对数似然函数,考虑单个样本出现的概率:
假设Sigmoid
函数的输出是,其含义应为“样本是正类”的概率。因此一个正样本对似然函数的贡献是,而负样本要代入。换句话说,上述对数似然函数中的可以有如下数学表示:
考虑到Sigmoid
函数的性质,上式可以统一写作:
希望似然函数取最大,那么定义损失函数为如下形式:
进而化简为:
更新规则
使用梯度下降法,计算出梯度:
然后按照学习率更新下一时刻参数: