今天看到LDA主题模型,里面涉及到共轭分布,在此总结一下。
共轭分布(conjugate distribution)的概率中一共涉及到三个分布:先验、似然和后验,如果由先验分布和似然分布所确定的后验分布与该先验分布属于同一种类型的分布,则该先验分布为似然分布的共轭分布,也称为共轭先验。
比较绕嘴,下面从公式来理一下思路。假设变量x服从分布P(x|θ),其观测样本为X={x1,x2,...,xm},参数θ服从先验分布Π(θ)。那么后验分布为如果后验分布P(θ|X)与先验分布Π(θ)是同种类型的分布,则称先验分布Π(θ)为似然分布P(X|θ)的共轭分布。
比较常用的几个例子有:高斯分布是高斯分布的共轭分布,Beta分布是二项分布的共轭分布,Dirichlet分布是多项分布的共轭分布。下面对二项分布给出证明。 假设变量x∼Bern(x|μ),其观测样本X={x1,x2,...,xn}的概率分布为二项分布, ,k为正例样本个数,假设μ∼Beta(μ|α,β),那么μ的后验分布为
后验分布仍为Beta分布,所以,Beta分布是二项分布的共轭分布。
共轭分布不仅使求后验分布计算简单,更重要的是保留了先验分布的类型,使概率估计更加准确。