一种面向涌现的比较性话题模型
DOI:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金资助项目(60903225);湖南省自然科学基金项目(11JJ5044);国防科技大学优秀研究生创新基金项目(S100502)


A comparative topic model for words burstiness
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    提出一种CDCMLDA生成模型来实现跨文本集的话题分析,采用狄利克雷组合多项式模型(Dirichlet Compound Multinomial ,DCM)对文本集中词的涌现现象进行建模,把DCM模型和LDA结合起来分析文本集之间话题的差异,采用蒙特卡罗期望最大化方法进行参数推导。在多个实际数据集中通过定性和定量的方法对模型进行评价,实验表明,模型不仅能够发现不同文本集间的异同,而且在模型困惑度指标上相对当前两种主要跨文本集的话题模型具有明显的优势。

    Abstract:

    State-of-the-art cross collections topic models suffer from the serious flaw that it cannot capture the tendency of words to appear in bursts. Based on LDA (Latent Dirichlet Allocation),a topic model CDCMLDA(Cross-collection Dirichlet compound multinomial Latent Dirichlet Allocation), which models the burstiness phenomena of words using Dirichlet compound multinomial (DCM) distribution, was proposed. A Monte Carlo Expectation Maximization algorithm for model inference was presented. A variety of qualitative and quantitative evaluations of CDCMLDA were performed, which shows that CDCMLDA not only discovers the common and unique aspects on topics, but also improves the model perplexity compared with the two cross-collection topic models. 

    参考文献
    相似文献
    引证文献
引用本文

谭文堂,王桢文,殷风景,等.一种面向涌现的比较性话题模型[J].国防科技大学学报,2013,35(4):146-155.
TAN Wentang, WANG Zhenwen, YIN Fengjing, et al. A comparative topic model for words burstiness[J]. Journal of National University of Defense Technology,2013,35(4):146-155.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2012-12-18
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2013-08-22
  • 出版日期:
文章二维码