金波,刘明童,张玉洁,徐金安,陈钰枫.融合深度语义表示的开放域复述模板抽取[J].情报工程,2021,7(5):040-050 |
融合深度语义表示的开放域复述模板抽取 |
Mining Paraphrase Template with Deep Semantic Representation from Open Domain |
|
DOI:10.3772/j.issn.2095-915X.2021.05.004 |
中文关键词: 复述模板;语义表示;自动聚类 |
英文关键词: Paraphrase template; semantic representation; automatic clustering |
基金项目:国家自然科学基金 (61876198, 61976015, 61370130, 61473294),北京市自然科学基金 (4172047) 和科学技术部国际科技合作计划 (K11F100010)。 |
作者 | 单位 | 金波 | 北京交通大学计算机与信息技术学院 北京 100044 | 刘明童 | 北京交通大学计算机与信息技术学院 北京 100044 | 张玉洁 | 北京交通大学计算机与信息技术学院 北京 100044 | 徐金安 | 北京交通大学计算机与信息技术学院 北京 100044 | 陈钰枫 | 北京交通大学计算机与信息技术学院 北京 100044 |
|
摘要点击次数: 1916 |
全文下载次数: 1188 |
中文摘要: |
[ 目的 / 意义 ] 复述知识在自然语言处理领域应用广泛,例如复述生成、自动问答、复述数据构建等,复述模板是复述知识的一种抽象表现形式。[ 方法 / 过程 ] 早期复述模板抽取方法依赖复述实例和可比语料,近年来,有研究在人工给定种子实体对的基础上,利用实体关系,通过自举迭代的方式获取复述模板,规避对特定语料依赖,但是只能获得语义受限的复述模板,且迭代过程中存在语义偏移现象。因此本文提出从英文维基百科的大规模开放域文本中自动获取复述模板的思路,针对问题,设计融合深度语义表示学习的复述模板抽取方法,从大规模开放域文本中抽取高精度多样化的复述模板。[ 结果 / 结论 ] 实验结果表明,本文所提方法可以获取高质量、语义一致、形式多样的复述模板。 |
英文摘要: |
[Objective/Significance] Paraphrase knowledge plays a vital role in many tasks in the field of natural language processing, such as paraphrase generation, automatic question answering, construction of paraphrase data, etc. Paraphrase template extraction is an important way to obtain paraphrase knowledge. [Methods/Process] This paper proposes a sentencelevel paraphrase template extraction method based on semantic representation and automatic clustering algorithm to extract highprecision and diverse paraphrase templates from open domain. [Results /Conclusions] Our experiments on the Wikipedia English corpus show that the proposed method can effectively obtain semantically similar and diverse forms of paraphrase templates. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |