文章摘要
邢玉艳,刘耀,刘茹.基于 schema 的信息安全标准资源解析研究[J].情报工程,2019,5(5):108-118
基于 schema 的信息安全标准资源解析研究
Application Research on Parsing and Storage of Standards Resource based on Schema Technology
  
DOI:10.3772/j.issn.2095-915X.2019.05.010
中文关键词: 非结构化数据;资源解析;XML Schema;数据存储;信息安全标准
英文关键词: Unstructured data; XML Schema; resource parsing; data storage; standards of information security
基金项目:国家重点研发项目 “ 精准医疗伦理、政策法规框架研究 ” 中课题 1——“ 构建安全、可靠的面向生物医学大数据的、跨系统 样本和数据共享的保障体系 ”(2017YFC0910101)。
作者单位
邢玉艳 中国科学技术信息研究所 
刘耀 中国科学技术信息研究所 
刘茹 北京大学 
摘要点击次数: 2120
全文下载次数: 1347
中文摘要:
      精准医疗伦理的信息安全标准体系构建过程中,会使用大量的资源类型,其中最为重要的就是 标准资源,标准资源具有 “ 非结构化 ”、“ 缺少语义信息 ” 的特点,这对资源中重要文本信息和结构信 息的提取造成了困难。本文提出针对信息安全标准数据特点的资源解析方法,基于 “ 非结构化数据 - 半结构化数据 ” 的转换思想和 XML Schema 技术,设计并实现了针对非结构化 PDF 文件的资源自动解 析工具,将源数据中的非结构化数据转化为半结构化的 XML 格式数据,并以 “ 整体式存储 ” 方式存入 MongoDB 数据库中,实现了在 Solr 服务器中的检索功能和完成信息安全标准体系构建过程中信息提取、 资源解析的工作。通过对比实验证明了基于 XML 数据的资源解析工具比 JSON 数据作为数据中间件, 对信息安全标准的解析效果更佳。
英文摘要:
      In the process of constructing an information security standard system for precision medical ethics, a large number of resource types are used, the most important of which is standard resources. The organization and structure of resource data as well as the parsing process of semantic information is the foundation of text mining. This paper puts forward the “unstructured data to semi-structured data” transformation scheme, through the data exchange technology based on XML Schema, transforming effectively the unstructured source data into semi-structured XML data, with another essential idea of “integral storage” in MongoDB, successfully reached the final purpose of data retrieval in a Solr server,and completed the work of information extraction , resource analysis in the process of building an information security standard system. Through comparative experiments, it is proved that the resource parsing tool based on XML data is better than the JSON data as the data middleware. The parsing effect on the information security standard is more better.
查看全文   查看/发表评论  下载PDF阅读器
关闭

分享按钮