本页目录

【模式识别】统计决策方法

null likes · null views · 2023-08-31

贝叶斯公式

P (ω_{i} ∣ x) = \frac{P ( x ∣ ω _{i} ) \cdot P ( ω _{i} )}{P ( x )}

$P (ω_{i})$ 为先验概率，表示没有进行任何观测时的主观推测概率
$P (x ∣ ω_{i})$ 为类条件密度，已知
$P (ω_{i} ∣ x)$ 为后验概率，希望得到其值，并用于决策

考虑如下例子，记 $A$ 为抓到方形， $B$ 为抓到实心图形：

$P (A) = \frac{3}{5}$ ， $P (B) = \frac{2}{5}$ ， $P (A B) = \frac{1}{5}$

抓到实心图形时抓到的是方形： $P (A ∣ B) = \frac{1}{2}$

抓到方形时抓到的是实心图形： $P (B ∣ A) = \frac{1}{3}$

结合上述例子理解贝叶斯公式的推导过程：

P (A B) = P (A ∣ B) \cdot P (B)

P (B A) = P (B ∣ A) \cdot P (A)

P (A B) = P (B A) \Rightarrow P (A ∣ B) = \frac{P ( B ∣ A ) \cdot P ( A )}{P ( B )}

最小错误率贝叶斯决策

研究的类别有c个。

若 $P (ω_{i} ∣ x) = max_{j = 1, ..., c} P (ω_{j} ∣ x)$ ，则 $x$ 属于 $ω_{i}$ 类

两分类情况下，最小错误率决策的四种等价规则

后验概率判决

P (ω_{1} ∣ x) > P (ω_{2} ∣ x)

后验概率判决，分母相同看分子

P (x ∣ ω_{1}) P (ω_{1}) > P (x ∣ ω_{2}) P (ω_{2})

似然比 $l$ 、似然比阈值 $λ$

l (x) = \frac{P ( x ∣ ω _{1} )}{P ( x ∣ ω _{2} )}, λ = \frac{P ( ω _{2} )}{P ( ω _{1} )}, l (x) > λ

对数似然比

- ln [l (x)] < ln \frac{P ( ω _{1} )}{P ( ω _{2} )}

可以把每一类的后验概率 $P (ω_{i} ∣ x)$ 或者 $P (x ∣ ω_{i}) P (ω_{i})$ 看作该类的一个判别函数 $g (x)$ ，决策的过程就是各类的判别函数比较大小

最小风险贝叶斯决策

条件风险

R (α_{i} ∣ x) = \sum_{j} λ (α_{i}, ω_{j}) P (ω_{j} ∣ x)

$λ (α_{i}, ω_{j})$ 表示样本 $x \in ω_{j}$ 但被决策为 $ω_{i}$ 类的损失， $i = j$ 表示正确决策

最小风险贝叶斯决策

研究的类别有c个，做了k个决策。

若 $R (α_{i} ∣ x) = min_{j = 1, ..., k} R (α_{j} ∣ x)$ ，则采用决策 $α_{i}$ ，即 $x$ 属于 $ω_{i}$ 类

两分类情况下的最小风险贝叶斯决策

简记 $λ (α_{i}, ω_{j})$ 为 $λ_{ij}$ ：

R (α_{1} ∣ x) = λ_{11} P (ω_{1} ∣ x) + λ_{12} P (ω_{2} ∣ x)

R (α_{2} ∣ x) = λ_{21} P (ω_{1} ∣ x) + λ_{22} P (ω_{2} ∣ x)

若 $R (α_{1} ∣ x) < R (α_{2} ∣ x)$ ，则 $x$ 属于 $ω_{1}$ 类

最小风险贝叶斯决策的另两种形式

若 $(λ_{21} - λ_{11}) P (ω_{1} ∣ x) > (λ_{12} - λ_{22}) P (ω_{2} ∣ x)$ ，则决策 $x \in ω_{1}$

若 $l (x) = \frac{P ( x ∣ ω _{1} )}{P ( x ∣ ω _{2} )} > \frac{λ _{12} - λ _{22}}{λ _{21} - λ _{11}} \cdot \frac{P ( ω _{2} )}{P ( ω _{1} )}$ ，则决策 $x \in ω_{1}$

设损失函数为：

λ (α_{i}, ω_{j}) = {0 i = j 1 i \neq = j

最小错误率贝叶斯决策就是0/1损失函数条件下的最小风险贝叶斯决策。

正态分布的统计决策

从一维正态分布到高维正态分布

单变量正态分布函数：

P (x) = \frac{1}{2 π σ} exp {- \frac{1}{2} \cdot (\frac{x - μ}{σ})^{2}}

双变量正态分布函数：

P (x_{1}, x_{2}) = \frac{1}{2 π σ _{1} σ _{2} 1 - ρ ^{2}} exp {- \frac{1}{2} \cdot \frac{1}{1 - ρ ^{2}} \cdot [(\frac{x _{1} - μ _{1}}{σ _{1}})^{2} - 2 ρ \frac{( x _{1} - μ _{1} ) ( x _{2} - μ _{2} )}{σ _{1} σ _{2}} + (\frac{x _{2} - μ _{2}}{σ _{2}})^{2}]}

对于上述二维正态分布，记：

X = [x_{1} x_{2}], μ = [μ_{1} μ_{2}], Σ = [σ_{1}^{2} ρ σ_{2} σ_{1} ρ σ_{1} σ_{2} σ_{2}^{2}]

则用矩阵形式表示为：

P (X) = \frac{1}{( 2 π ) ^{\frac{d}{2}} ∣ Σ ∣ ^{\frac{1}{2}}} exp {- \frac{1}{2} \cdot (X - μ)^{T} Σ^{- 1} (X - μ)}

此式通用于高维正态分布。

理解这个长公式，先从两个概念入手： $Σ$ 矩阵代表什么？ $ρ$ 似乎没有在通式中体现，其含义是什么？
对于二维正态分布例子中的两个变量来说，它们的协方差定义为：

co v (x_{1}, x_{2}) = E [(x_{1} - μ_{1}) (x_{2} - μ_{2})] = E (x_{1} x_{2}) - μ_{1} μ_{2}

$Σ$ 矩阵的含义其实是两个变量的协方差矩阵，也就是：

Σ = [co v (x_{1}, x_{1}) co v (x_{2}, x_{1}) co v (x_{1}, x_{2}) co v (x_{2}, x_{2})], co v (x_{1}, x_{1}) = σ_{1}^{2}

$ρ$ 的含义为两个变量的相关系数，以上述变量x1,x2为例，计算公式为：

ρ = \frac{co v ( x _{1} , x _{2} )}{σ _{1} σ _{2}} \Rightarrow co v (x_{1}, x_{2}) = ρ σ_{1} σ_{2}

至此就可以理解 $Σ$ , $ρ$ 两个参数的含义了！

正态分布概率模型下的最小错误率贝叶斯决策

P (X ∣ ω_{i}) = \frac{1}{( 2 π ) ^{\frac{d}{2}} ∣ Σ _{i} ∣ ^{\frac{1}{2}}} exp {- \frac{1}{2} \cdot (X - μ_{i})^{T} Σ_{i}^{- 1} (X - μ_{i})}

注意这个类概率密度函数 $P (X ∣ ω_{i})$ 的含义为，第 $ω_{i}$ 类的样本 $X$ 的概率密度。
使用后验概率的变形作为判别函数：

g_{i} (X) = ln [P (X ∣ ω_{i}) P (ω_{i})] = - \frac{d}{2} ln 2 π - \frac{1}{2} ln ∣ Σ_{i} ∣ - \frac{1}{2} (X - μ_{i})^{T} Σ_{i}^{- 1} (X - μ_{i}) + ln P (ω_{i})

从以下三种情况考虑决策面：

Σ_{1} = Σ_{2} = ... = Σ_{c} = σ^{2} I

各类模式分布的协方差矩阵相等，样本统计独立且方差相同，协方差均为0。
此时 $g (X)$ 的前两项与类别无关，后两项化简为：

g_{i} (X) = - \frac{1}{2 σ ^{2}} ∥ X - μ_{i} ∥^{2} + ln P (ω_{i})

如果先验概率相等，则决策只与欧氏距离有关。此时决策为：

若 $∥ X - μ_{i} ∥^{2} = min_{j = 1, ..., c} ∥ X - μ_{j} ∥^{2}$ ，则 $x$ 属于 $ω_{i}$ 类

从几何的视角来看，以上决策规则实际就是比较样本点和各类的中心点距离，并且选择距离最近的类别作为决策结果。
以上分类器也称最小距离分类器，把每个均值看作一个典型的样本，则这种分类方法也称为模板匹配技术。

如果对于上述判别函数 $g (X)$ 的欧式距离项展开，并删掉与类别无关的二次项，得：

g_{i} (X) = W_{i}^{T} X + b

其中 $W_{i} = \frac{1}{σ ^{2}} μ_{i}$ ， $b = - \frac{1}{2 σ ^{2}} μ_{i}^{T} μ_{i} + ln P (ω_{i})$

判别函数是 $X$ 的线性函数，称为线性分类器。

接下来考虑决策面方程：

g_{i} (X) = g_{j} (X) \Rightarrow W^{T} (X - X_{0}) = 0

其中 $W = μ_{i} - μ_{j}$ ， $X_{0} = \frac{1}{2} (μ_{i} + μ_{j}) - σ^{2} \frac{μ _{i} - μ _{j}}{∥ μ _{i} - μ _{j} ∥ ^{2}} ln \frac{P ( ω _{i} )}{P ( ω _{j} )}$

这个方程确定了决策面是通过 $X_{0}$ 并正交于向量 $W$ 的一个超平面。如果是二维平面上的点的分类问题，决策线过 $X_{0}$ 点并且垂直于样本中心的连线。当先验概率相等时， $X_{0}$ 的后项为0，此时决策线就是样本中心连线的中垂线。
来看一个具体的例子！我们需要对平面上的点进行分类任务，第一堆样本点中心为(2,3)，第二堆样本点中心为(4,4)：

红色和蓝色分别标记了两类样本点的分布情况，其中加粗的红点和蓝点表示样本中心的位置；
生成两组样本时使用的方差均为0.8；样本的 $x, y$ 坐标相关性为0。
现在对平面上的所有点计算判别函数g_red和g_blue。g_red更大的区域用红色阴影表示，g_blue更大的区域用蓝色阴影表示。
两个区域的交界处即为自然生成的决策线。结果如下：

决策线垂直于样本中心的连线并且在先验概率相等的前提下过样本中心连线中点(左图)。
如果先验概率不相等，决策线会偏向先验概率小的一侧(中图)，而且有可能超过端点(右图)。

对于三分类问题，得到的结果类似：

Σ_{1} = Σ_{2} = ... = Σ_{c} = Σ

马氏距离

马氏距离可以看作对欧氏距离的修正。考虑下面的例子：
黑色的点距离green类样本中心更近，与red、blue类样本中心等距。它应该被归为哪一类？

按照欧氏距离判别，它应该被归为green类；然而从直觉上判断，它更可能属于red类。
欧式距离并没有考虑样本的方差，以及样本各个维度之间的相关性。
定义马氏距离：

r^{2} = (X - μ)^{T} Σ^{- 1} (X - μ)

如果样本是二维的，且协方差矩阵 $σ$ 为对角矩阵，马氏距离表示为：

r^{2} = [x_{1} - μ_{1} x_{2} - μ_{2}] [1/ σ_{1}^{2} 0 0 1/ σ_{2}^{2}] [x_{1} - μ_{1} x_{2} - μ_{2}] = \frac{( x _{1} - μ _{1} ) ^{2}}{σ _{1}^{2}} + \frac{( x _{2} - μ _{2} ) ^{2}}{σ _{2}^{2}}

如果样本方差一样，则就是欧式距离；如果方差不一样，可以看作是标准化之后的欧氏距离。

判别函数：

g_{i} (X) = - \frac{1}{2} r_{i}^{2} + ln P (ω_{i})

决策面方程：

W^{T} (X - X_{0}) = 0

其中 $W = Σ^{- 1} (μ_{i} - μ_{j})$ ， $X_{0} = \frac{1}{2} (μ_{i} + μ_{j}) - \frac{μ _{i} - μ _{j}}{( μ _{i} - μ _{j} ) ^{T} Σ ^{- 1} ( μ _{i} - μ _{j} )} ln \frac{P ( ω _{i} )}{P ( ω _{j} )}$

此时，先验概率相等的前提下，决策线仍然过样本中心连线中点；但不一定垂直于样本中心的连线。

Σ_{i} \neq = Σ_{j}

此为最一般情况。决策面为超二次曲面。对于二维样本，决策线为二次曲线。
判别函数：

g_{i} (X) = - \frac{1}{2} r_{i}^{2} - \frac{1}{2} ln ∣ Σ_{i} ∣ + ln P (ω_{i})