Latent Dirichlet Allocation note

Latent Dirichlet Allocation note


2024年5月12日发(作者:联想z510笔记本参数)

Latent dirichlet allocation note

By: Zhou Li (smzlkimi@)

Blog:

Code&Doc: /p/lsa-lda/

July 31, 2009

1 基础知识:贝叶斯统计

假设有两个箱子,每个箱子装了8个球,A箱子3个红球5个白球,B箱子6个红球2个白

球。如果问从A箱子摸出一个红球的概率,那么答案是3/8,如果问从B箱子摸出一个白球

的概率,那么为2/8。这样的正向推理很简单。但是如果问摸出一个红球,它是从A箱子中

摸出的概率是多少,这又如何求呢?贝叶斯方法正是用来求这种”逆”概率。

P(X,Y)表示X,Y的联合概率,有如下公式P(X,Y)=P(Y|X)P(X),由于P(X,Y)=P(Y,X),于是我们得到

P(Y|X)P(X)=P(X|Y)P(Y),将左边P(X)移到右边得到:

这就是贝叶斯公式,其中P(Y|X)称为后验分布,P(X)称为先验分布,P(X|Y)称为似然函数。

贝叶斯问题的详细描述可以参考Pattern Recognition and Machine Learning[1].该书第一章对

贝叶斯方法做了详细的解释。

下面讨论一个概率问题,一对夫妇有两个孩子,已知其中一个是男孩,问另一个也是男孩的

概率?

令A=另一个也是男孩 B=已知其中一个是男孩

由贝叶斯:P(A|B) = P(B|A)P(A)/P(B)

其中 P(B|A) = 1 ,因为另一个也是男孩,表示两个都是男孩。

P(A) = 0.25 即如果有两个孩子,两个都是男孩的概率0.25

P(B) = 0.75 即如果有两个孩子,那么其中一个是男孩的概率为0.75

因此P(A|B) = 1*0.25/0.75=1/3

1.1 基础知识:Dirichlet distribution

假设我们在和一个不老实的人玩掷骰子游戏。按常理我们觉得骰子每一面出现的几率都是

1/6,但是掷骰子的人连续掷出6,这让我们觉得骰子被做了手脚,而这个骰子出现6的几

率更高。而我们又不确定这个骰子出现6的概率到底是多少,所以我们猜测有50%的概率是:

6出现的概率2/7,其它各面1/7;有25%的概率是:6出现的概率3/8,其它各面1/8;还

有25%的概率是:每个面出现的概率都为1/6,也就是那个人没有作弊,走运而已。用图表

表示如下:

我们所猜测的值,如果设为X的话,则表示X的最自然的分布便是Dirichlet distribution。设

随机变量X服从Dirichlet分布,简写为Dir(α),即X~Dir(α)。Α是一个向量,表示的是某个事

件出现的次数。比如对于上例,骰子的可能输出为{1,2,3,4,5,6},假设我们分别观察到了5次

1~5,10次6,那么α = {5,5,5,5,5,10}。X则表示上例中的各种概率组合,比如{1/7,1/7,1/7,

1/7,1/7,2/7};{1/8, 1/8, 1/8, 1/8, 1/8, 3/8};{1/6, 1/6, 1/6, 1/6, 1/6, 1/6},那么P(X)则表示了该

概率组合出现的概率,也就是概率的概率。

以下是公式:

下图来自WIKI

[2]

,图像化了当K=3时的dirichlet分布。

Dirichlet分布的重要性质:


发布者:admin,转转请注明出处:http://www.yc00.com/num/1715487051a2625802.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信