郭晨睿,王佳敏,崔浩冉,武健.基于 SciBERT 模型的引文上下文识别系统优化[J].情报工程,2021,7(5):003-014 |
基于 SciBERT 模型的引文上下文识别系统优化 |
Optimization of Citation Context Recognition System Based on SciBERT Model |
|
DOI:10.3772/j.issn.2095-915X.2021.05.001 |
中文关键词: 引文识别;隐性引文上下文;SciBERT;引文识别系统 |
英文关键词: Citation recognition; implicit citation context; SciBERT; citation recognition system |
基金项目: |
作者 | 单位 | 郭晨睿 | 1. 武汉大学信息管理学院 武汉 430072; | 王佳敏 | 1. 武汉大学信息管理学院 武汉 430072; | 崔浩冉 | 1. 武汉大学信息管理学院 武汉 430072; | 武健 | 2. 欧道明大学计算机科学系 诺福克 23529 |
|
摘要点击次数: 1982 |
全文下载次数: 1451 |
中文摘要: |
[ 目的 / 意义 ] 本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于 SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为 SmartCiteCon2.0(SCC2.0)。[ 方法 / 过程 ] 该系统的识别模型部分通过 Python 语言编写,基于经过微调的 SciBERT模型构建而成。该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的 27,832 个引用上下文句子对进行训练,并以 SCC 系统使用的 SVM 模型作为对照组以验证效果。[ 结果 / 结论 ] 实验结果表明,微调后的 SciBERT 模型的 F1 值为 90%。相比仅使用句子对文本特征的 SVM 模型 F1 值提升了11%,相比于使用全部特征 SVM 模型的 F1 提升了 3%。在该模型基础上,本文构建的 SCC2.0 系统开箱即用,支持 PDF,以及符合特定标准的 XML 和 JSON 格式的学术文献。该 API 同时支持单文档处理和多文档并发处理,源代码发布于 https://gitee.com/Lan_Tianchen/smart-cite-con。 |
英文摘要: |
[Objective/ Significance] This article introduces a system for extracting explicit citation sentences and implicit citation context from English academic literature. The system is based on the SmartCiteCon (SCC) system to optimize the recognition model. This article calls the improved system SmartCiteCon2.0 (SCC2.0). [Methods/Process] The recognition part of the system is written in Python and constructed based on the fine-tuned SciBERT model. The model is trained based on 27,832 pairs of citing context sentences manually annotated in ACL Anthology, and the SVM model is used as a control group to verify the effect. [Results /Conclusions] The experimental results show that the F1 value of the fine-tuned SciBERT model is 90%. Compared with the SVM model using only sentence-to-text features, the F1 value is increased by 11%, and compared with the F1 using allfeature SVM model, it is increased by 3%. Based on this model, the SCC2.0 system constructed in this paper can be used out of the box, supporting PDF, as well as academic documents in XML and JSON formats that meet specific standards. The API supports both single-document processing and multiple-document concurrent processing. The source code is published at https://gitee.com/Lan_Tianchen/smart-cite-con. |
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |