张文伟,赵辉.LDA 与BTM 概率主题模型抽取科学主题效果比较研究[J].情报工程,2020,6(2):066-077 |
LDA 与BTM 概率主题模型抽取科学主题效果比较研究 |
Comparative Study on the Effect of LDA and BTM Probabilistic Subject Model in Extracting Scientific Subject |
|
DOI:10.3772/j.issn.2095-915X.2020.02.007 |
中文关键词: LDA;BTM;主题抽取;对比分析 |
英文关键词: LDA; BTM; subject extraction; comparative analysis |
基金项目:中国科学技术信息研究所创新研究基金MS2020-02。 |
作者 | 单位 | 张文伟 | 中国科学技术信息研究所 | 赵辉 | 中国科学技术信息研究所 |
|
摘要点击次数: 2078 |
全文下载次数: 2796 |
中文摘要: |
分析文献主题是挖掘科学脉络的基础,目前存在多种提取文献主题的方法,被学者广泛使用的方法是使用概率主题模型抽取文献的主题。使用不同的算法和不同的语料提取出的主题结果也不同,本文通过计算查全率、查准率和定性分析方法分别比较利用了LDA 抽取标题、LDA 抽取摘要、BTM抽取标题、BTM 抽取摘要的主题效果。本文以纳米材料领域数据为例进行分析,实验结果表明使用摘要做语料提取出的主题颗粒度较小且能够反应文献研究内容的细节,LDA 算法在提取摘要主题方面优于BTM 算法,BTM 算法在提取标题主题方面优于LDA 算法。 |
英文摘要: |
Analyzing the subjects of the literature is the foundation for exploring the scientific context. There are several ways to extract the subjects of the literature, the most common way to extract the subjects of the literature is probabilistic topic models. The results of using different algorithms and different corpora to extract the topic are different. This paper compares the subject effects of using LDA and BTM to extract the title and abstract by calculating the recall rate, precision rate, etc. Taking nanomaterials data as an example, the result shows that the topic particle size of abstract corpus extraction is smaller than that of title, which can reflect the specific content of literature research. Compared to the BTM algorithm, the algorithm of LDA is better in extracting an abstract subject. In contrast, the BTM algorithm is prefered than LDA algorithm in extracting the title subject. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |