
| 浏览数(321) | 评论数(0) | 2008-02-29教材:
1: 《pattern classification 》2nd Edition ,Richard O.Duda Peter E.Hart ...
2: 《模式分类》李宏东,姚天翔 等译 机械工业出版社
第一周
关键字
tradoff:平衡点 look for tradeoff between perfomence and ....
critical threshold:门限值
generalization:推广
overfitting:过拟合
adaboost分类算法: 由很多弱分类器组合而成的强分类器
regression:回归模型,即对输入数据找到合适的函数表示,常用于预测新数据的值.
interpolation:函数内插
density estimation:概率密度估计
invariant:不变性
cluster:聚类,(常见于无监督学习)
renforcement learning: 识别结束后,教师仅仅指出结果"对"还是"错",如果错了,并不指出错在哪里.
learning with a critic:基于评价的学习.同上
subset and superset:子集和超集
analysis by synthesis:基于综合的分析技术
statistical PR:统计模式识别
syntactic PR:句法模式识别
tune:调谐,调整
dicision boundary:判别边界
cognitive:认知的
criterion:判别准则
模式识别流程:
Data Collection ------> input ------> sensing(感知器)
-----> segment ------> feature extracting
------> classification ----->
past-processing
其中classification是本书所讲的内容.
that ease with which we recognize a face,... that belies the astroundingly complex process that underlie the acts of pattern recognization.
belie:隐藏
hypothesize:假定
underlie:构成...的基础
overarching goal 最终的目的,最重要的目的
make length measurement:测量长度
第二周 Bayesian Decision Theory (part)
linear machine :线性机器
所谓线性,即在一维中分界点是一个点,在二维(两个特征)中是一条线,在三维(三个特征)中,是个分割平面,在四维中,分割边界就是超平面了。
class-conditional probability(或likelihood) :类条件概率
P(x|wi),先验概率2,事先可以知道的。
prior probability:P(wi) 先验概率1 即类的分布概率,也是实现可以统计知道的。
evidence:P(X) 仅仅一个标量,归一化因子,使得
posterior probility: P(w|x)
后验概率。在知道先验概率1和先验概率2的条件下,仅知道特征x的条件下,类别判断问题就转化为了后验概率的问题,那个后验概率大,就属那类。
P(wi|x) = P(x|wi) * P(wi) / P(X)归一化因子
P(wj|x) = P(x|wi) * P(wj) / P(X)归一化因子
其中P(X) = P(x|wi) * P(wi) + P(x|wi) * P(wj)
lose function:损失函数
discriminant classifer:分类器。
第三周 Bayesian Decision Theory (part2)
第四周 Maximum likelihood and Bayesian parameter estimation (part1)
最大似然及贝叶斯参数估计
1:Data availability: 数据效用
2:贝叶斯决策理论中用到的三大未知分布概率
1)P(wj),
2)P(x|wj),
3)R(a|wi)--风险概率
其中1),2)是我们需要从样本中估计的。
3:独立的样本取样: 即在有放回的样本取样. 即:从样本集中抽取样本,记录值,放回样本再抽取下一个样本
4: 最大似然估计
1)
核心问题求使P(D|θ)取最大值的θ。θ代表了一个特定的分布,如果一个特定的分布有一个参数即可确定,那么θ是一维的,如果一个特定的分布需要多个参数才能确定,那么θ是个向量。EG:
gaussian分布,需要u,σ两个参数,那么θ是个2维向量。
2) P(D|θ)意义:在特定的θ分布下,样本点全部发生的概率。即:
2.1)P(D|θ) = ∏P(xi|θ)F(θ);,该方法是MAP(maximum a posteriori)估计(最大后验估计),使用了先验的对θ的概率估计.
2.2)或P(D|θ) = ∏P(xi|θ);该方法是没有使用先验对θ估计的估计.或称为平信息的估计.
3) 求 P(D|θ) 的最大值,即对θ求导,令各个分量导数=0,解方程组。eg:假设gassian分布,θ1代表u, θ2代表σ,求出θ1,θ2即可。
5:贝叶斯估计.
估计θ的公式.p(θ|D) = p(D|θ)*p(θ) / 积分p(D|θ)*p(θ)dθ. 由于分母与θ无关,是一个与样本集D有关的一个确定的量(积分把θ积没了).所以公式化简为:
p(θ|D) = a*p(D|θ)*p(θ) = a * ∏P(xi|θ)*p(θ). a是一个归一化的系数.与θ无关.
或
5 对向量求导,
(就像求梯度似的?),特别的,当 P =
θ*C*θ,θ是向量,C是个协方差对称矩阵,那么P是个二次型,P对θ求导=2Cθ.
6:估计的方差 = (1/n)∑(x-x_均值)^2 带入 E(估计的方差)=((n-1)/n)*σ^2 != σ^2, 但不能说 (1/n)∑(x-x_均值)^2 就没有 无偏估计(1/n-1)∑(x-x_均值)^2 精确!因为他们都是估计值!无所谓谁更精确!并且在样本书趋近无穷时,都是一样的。
6:实例
最大似然估计,和贝叶斯估计可用于估计任何形式的分布,书上是以高斯分布为例的.
这里一均均匀分布为例.
设一维样本都服从均匀分布 P(D|θ)=U(0,θ)
=1/θ,if 0<x<θ,
=0, else.
现有四个样本{4,7,2,8},每个样本都是独立的从概率密度p(x)中抽取的.
对θ事先的分布我们没有先验知识,我们只知道θ是有界的.也就是平信息的估计.
1)现在用最大似然估计来估计参数 θ.
利用P(D|θ) = ∏P(xi|θ),
1.1)当第一个样本4来的时候 P(D1|θ) = 1/θ ;θ>max(x)=4,此时 P(D1|θ)的最大值,当θ取最小值4时取得.
得到对θ的估计:4
1.2)当第二个样本7来的时候 P(D1|θ) = (1/θ)*(1/θ) ;θ>max(x)=7,此时 P(D1|θ)的最大值,当θ取最小值7时取得.
得到对θ的估计:7
1.3) 当第三个样本2来的时候 P(D1|θ) = (1/θ)*(1/θ)*(1/θ) ;θ>max(x)=7,此时 P(D1|θ)的最大值,当θ取最小值7时取得.
得到对θ的估计:7
1.4) 当第四个样本8来的时候 P(D1|θ) = (1/θ)*(1/θ)*(1/θ)*(1/θ) ;θ>max(x)=8,此时 P(D1|θ)的最大值,当θ取最小值8时取得.
得到对θ的估计:8
到此,完成了最大似然对θ的估计,估计值为8.
注意:1)最大似然估计得到的对θ的估计是一个值!
2)最大似然估计没有所谓的学习过程.上边我们分了四步分别分析当每一个样本来的时候最大似然估计的结果,其实没有必要,可以直接从第四步入手做!!!
2)现在用贝叶斯来估计参数 θ.
利用p(θ|D) = a*p(D|θ)*p(θ) = a *
∏P(xi|θ)*p(θ).
由于没有关于θ的先验信息,我们仅大概估计出θ的范围(0,10),所以
p(θ) = 1/10 0<θ<10;
2.1)当未有观测样本时:p(θ|D0) =
p(θ)=1/10,0<θ<10.
得到对8的估计:是一个函数p(θ).该函数没有一个峰值!!!平坦的.
2.2) 当有第一个样本4来的时候,p(θ|D1) =
a1*(1/θ)*p(θ|D0) = a1*(1/10)*(1/θ) 4<θ<10....
a1是当有一个样本时的归一化系数.
得到对θ的估计:是一个函数,a1*(1/10)*(1/θ) 4<θ<10,此时如图示, θ在4的地方形成一个尖峰
2.3) 当有第二个样本7来的时候,p(θ|D2) = a2*(1/θ)*p(θ|D1) = a2*(1/10)*(1/θ)*(1/θ) 7<θ<10.... a2是当有一个样本时的归一化系数.把a1也归到里面去了.
得到对θ的估计:是一个函数,a2*(1/10)*(1/θ)*(1/θ) 7<θ<10. 此时如图示, θ在7的地方形成一个尖峰,比上一次在4处形成的尖峰更尖!
2.4) 当有第三个样本2来的时候,p(θ|D3) = a3*(1/θ)*p(θ|D2) = a3*(1/10)*(1/θ)*(1/θ)*(1/θ) 7<θ<10.... a3是当有一个样本时的归一化系数.把a1也归到里面去了.
得到对θ的估计:是一个函数,a3*(1/10)*(1/θ)*(1/θ)*(1/θ) 7<θ<10. 此时如图示, θ在同样7的地方形成一个尖峰,但比上一次在7处形成的尖峰更尖!!!
这体现了贝叶斯学习的过程,每一个样本来都会有对θ影响.
当样本全部到达完之后,得到对θ的估计是一个函数,且θ在某一各方有个峰值,该峰值是对原始先验θ的分布的修正.
这是就可以求p(x|D)了,对所有的θ可能取值积分.取平均,其中,最大峰值处的θ值对p(x|D)的贡献最大!!!
区别与最大似然估计,最大似然估计求p(x|D)仅用了峰值处的θ值.而贝叶斯利用的是θ的函数的每一个可能的取值!!!
Powered by Haiwit