地址:
模式分类的途径主要分为以下三种:
估计类条件概率密度 :通过和 ,利用贝叶斯规则计算后验概率 ,然后通过最大后验概率做出决策。可以采用两种方法对概率密度进行估计。
1a:概率密度参数估计:基于对的含参数的描述,主要有最大似然估计和贝叶斯估计。
1b:概率密度非参数估计:基于对的非参数的描述,主要有Parzen窗方法。
2. 直接估计后验概率 ,不需要先估计 的。主要有K近邻方法等。
3. 直接计算判别函数,不需要估计或者 。常见的方法有神经网络等。
参数估计基于对 用已知函数形式的参数化表示,估计未知概率密度函数 的问题被简化为估计已知函数形式中的未知参数。
在统计学中, 主要有两个学派:
频率学派 是经典学派, 带头人是Pearson、Fisher、Neyman;他们的主要观点是概率指的是相对频率, 是真实世界的客观属性。参数是固定的未知常数。由于参数不会波动, 因此不能对其进行概率描述。而统计过程应该具有定义良好的频率稳定性。如:一个95%的置信区间应覆盖参数真实值至少95%的频率。我们根据联合分布密度 求解参数值。
贝叶斯学派 概率描述的是主观信念的程度, 而不是频率。这样除了对从随机变化产生的数据进行概率描述外, 我们还可以对其他事物进行概率描述。可以对各个参数进行概率描述, 即使它们是固定的常数, 即为参数生成一个概率分布来对它们进行推导, 点估计和区间估计可以从这些分布得到。
统计学更多关注频率推断, 而机器学习和数据挖掘更偏爱贝叶斯推断。在参数学习里面,主要有最大似然估计(ML)和贝叶斯估计。这两种方法的假设条件分属于上面两个学派。
最大似然估计(ML估计)
•假设:将待估计的参数看作确定的量,只是值未知。
•估计方式:将使得产生训练样本的概率最大的参数值作为这些参数的最佳估计。
贝叶斯估计(贝叶斯学习)
•假设:将待估计的参数看作符合某种先验概率分布的随机变量。
•估计方式:通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度。
ML估计与贝叶斯估计的关系:
• ML估计通常比贝叶斯估计简单。
• ML估计给出参数的值,而贝叶斯估计给出所有可能的参数值的分布。
• 当可用数据很多以至于减轻了先验知识的作用时,贝叶斯估计可以退化为ML估计。
首先看,最大似然估计。
给定c个类:
假设所有的类条件概率密度函数 都具有已知的参数化形式。
假设每个参数 对它所属的类型起的作用是相互独立的。
给定c个数据集(每个数据集对应一个类别):
假设每个数据集 中的样本是独立同分布的随机变量极大似然法,这些随机变量均从某个概率密度函数 中独立抽取。
由于不不同类的参数是相互独立的,那么 无法为 的估计提供任何信息。
因此,可以对每个类别分别进行参数估计,省略下标,记 为 , 为 。
相对于数据集 的似然函数: 。
对 的ML估计即使得似然函数 最大的值。
直观上讲, 是使得观察到中样本的可能性最大化的值。
再看,贝叶斯估计。
给定
参数形式的概率密度函数 ,其中的未知参数表示为向量 。
有关 的先验概率密度
数据集
求解
参数向量 的后验概率密度
x的后验概率密度:。
为明确数据集D的作用,类似于ML估计,贝叶斯决策所需后验概率可重新写作:
记 。
核心问题
已知一组训练样本,这些样本都是从固定但未知的概率密度函数中独立抽取的,要求根据这些样本估计 。
基本思路
假设 为已知参数形式的概率密度。
是 在 的后验概率密度,通过贝叶斯估计得到的。
如果 在某个值 附近形成最显著的尖峰,则 。
贝叶斯估计通过观察数据集,将先验概率密度 转化为后验概率密度 ,并期望其在真实的 值处有一个尖峰:
实例分析:
目标概率密度函数:。
• 未知,但是其分布 已知。
已知, 可简化为 。
我们假设均值 服从:,其中 , 是已知的。不严格的说, 代表了我们对均值 的最好的先验估计, 则表示了我们对这个估计的不确定程度。另外必须记住,在估计 的过程中所作的关键假设并不是均值服从正态分布这一具体形式,而是假设均值 服从某个已知的分布。
应用贝叶斯规则计算 的后验概率:
• 也呈高斯分布
假设,则
联立上式,得:
随着样本数n的递增, 单调递减,即新增的样本能够减少关于 的估计的不确定性。随着n的增大, 的波形变得越来越尖。并且在n趋于无穷大的时候,逼近于狄拉克函数。这一现象称为贝叶斯学习过程。该过程如下图所示:
观察结论:
如果 ,当 时,;
如果 ;
如果 ;
先验知识和经验数据各自的贡献取决于 和 的比值极大似然法,这个比值称为决断因子(dogmatism)。当获得足够多的样本后, 和 的具体数值的精确假定变得无关紧要, 将收敛于样本均值。
有了均值的后验密度之后,就可以计算类条件概率密度函数 了。根据:
得:
其中:
由上式可知,作为x的函数:
最终我们得到了,实现了对该模型的贝叶斯参数估计。
贝叶斯参数估计的一般理论
首先,做一些基本假设:
条件概率密度函数 是完全已知的,虽然参数向量 的具体数值未知。
参数向量 的先验概率密度函数包含了我们对的全部先验知识。
其余的关于参数向量 的信息就包含在观察到的独立样本 中,这些样本都服从未知的概率密度函数。
在贝叶斯估计问题中,最基本的问题就是计算后验概率 ,因为一旦求的后验概率密度函数,我们就可以用下式来计算 ,注意是 的简写形式。
为了计算后验概率,使用贝叶斯公式:
根据样本的独立性假设,我们有:
为了明确样本集中的样本个数,采用以下记号:
当n>1时,有
注意,当尚未有观测样本时,令 。反复运用上述公式,能够产生一系列的概率密度函数:等等。这一过程被称为参数估计的递归的贝叶斯估计。这一过程属于增量学习或在线学习算法,其特点是学习的过程随着观察数据的的不断获得而不断进行。如果这一概密度函数的序列最终能够收敛到一个中心在参数真实值附近的狄拉克函数,那么就实现了贝叶斯学习过程。
实例分析:
问题:
一维样本服从均匀分布
已知:参数 有界,假设 #先验知识
已有样本集
使用递归贝叶斯求解
解:
观察样本之前:
观察样本 :
观察样本 :
观察样本 :
观察样本 :
迭代过程如下:
求的 的分布:
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。 “强基固本”历史文章
误区! Adam+L2并不能发挥效果!
100行用Python实现自动求导(不import任何包的情况下)
从三角函数变换到图神经网络
点云局部特征描述子 SHOT
直观理解万能近似定理(Universal Approximation theorem)
Kmeans 聚类算法
聚类性能评估-V-Measure
完全图解RNN、RNN变体、Seq2Seq、Attention机制
脉冲神经网络(Spiking Neural Network)介绍
流形学习概述
神经网络15分钟入门!——反向传播到底是怎么传播的?
图神经网络的理论基础
深度学习入门与Pytorch|4.2 变分自编码器(VAE)介绍、推导及代码
深度学习入门与Pytorch4.1 深度学习中的几种自编码器的介绍与Pytorch代码实现
更多强基固本专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,请联系我们进行处理。