文章摘要
李岩,徐硕,吴广印,干生洪.一种采用SpotSigs 算法的中文新闻网页相似性检测方法[J].情报工程,2017,3(3):116-124
一种采用SpotSigs 算法的中文新闻网页相似性检测方法
A Chinese News Webpages Similarity Detection Approach Using SpotSigs Algorithm
  
DOI:10.3772/j.issn.2095-915X.2017.03.014
中文关键词: SpotSigs 算法, 新闻网页, 相似性检测, 先行词选取
英文关键词: SpotSigs algorithm, news web pages, similarity detection, antecedents selection
基金项目:本文受国家自然科学基金项目“基于论文和专利资源的技术机会发现研究”(71403255),“十二五”国家科技支撑计划项目“面向科技情报分析的信息服务资源开发与支撑技术研究”(2015BAH25F01)的资助。
作者单位
李岩 中国科学技术信息研究所 
徐硕 中国科学技术信息研究所 
吴广印 中国科学技术信息研究所,万方数据股份有限公司 
干生洪 古联( 北京) 数字传媒科技有限公司 
摘要点击次数: 2528
全文下载次数: 1485
中文摘要:
      互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs 算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。
英文摘要:
      With the rapid development of Internet, news webpages become the primary choice for Internet users to learn about what’s happening. However, there are a lot of repetitive Chinese internet news webpages, thus causing poor user experience and difficulties of data mining on news information. This paper proposed a Chinese news webpages similarity detection approach on the basis of SpotSigs algorithm, which combines basic and optimized antecedents in order to reduce the noise of navigation bar or advertisement. Experimental results on real-world Chinese news webpages indicated that our approach can effectively detect similar Chinese news webpages in terms of precision and recall, especially for the case of low similarity threshold.
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮