一种从文献中自动提取化学数据的方法和系统技术方案

技术编号:43774322 阅读:23 留言:0更新日期:2024-12-24 16:12
本发明专利技术公开了一种从文献中自动提取化学数据的方法和系统,所述方法包括:将输入的文献转换成纯文本格式;根据预定义的段落标签对目标文章建立段落标识;根据预定义的内容标签对目标段落建立内容标识;使用预设的正则表达式对目标段落内容进行化学数据的识别定位和置标;根据标识结果进行化学数据的提取和输出;所述系统包括输入模块、段落置标模块、内容置标模块、化学数据识别定位和置标模块及提取和输出模块。本发明专利技术不仅实现了从文献中自动识别和提取化学数据,而且提取的化学数据全面,使得提取的数据可建成对应的化学数据库实现化学文献的电子化服务,可为化学研究和开发提供全面的信息支持,对化学研究和开发具有重要意义。

【技术实现步骤摘要】

本专利技术是涉及一种从文献中自动提取化学数据的方法和系统,属于信息处理。


技术介绍

1、科学实验在自然科学发展中的作用越来越明显,作为科学实验主要产出之一的科学数据已经成为一种重要资源受到越来越多的重视,高效且结构化地数据提取一直备受关注。化学作为自然科学的三大基础学科之一,它的研究和应用已经渗透到科学研究、国民经济、社会发展、国家安全的各个方面,形成了许多交叉领域,积累了大量宝贵信息和数据。构建化学数据库,可为化学化工研究和开发提供全面信息服务。因此,对化学数据的需求促使了对文献中化学数据提取技术的研究。

2、虽然对化学数据的搜集和加工在国际上已有200多年历史,但在2010年之前,对化学数据的搜集加工还是以人工处理为主。自2011年剑桥大学jessop、hawizy和d.m.lowe等人先后发表了用于化合物名称自动识别的化学文本挖掘系统,才开创了将人工智能方法用于化学数据处理的新方向。但目前主要是采用机器学习方法从文献中自动提取化学数据,而采用机器学习方法需要人工标引大量同类语料以训练模型,对人力和硬件都有较高要求;另外,目前关于期刊文献中本文档来自技高网...

【技术保护点】

1.一种从文献中自动提取化学数据的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:步骤S1)中所述的文献为中文文献或/和英文文献,所述文献以PDF或Word格式输入。

3.根据权利要求1所述的方法,其特征在于:步骤S2)中所述的段落标签按照XML标签设计规则进行预定义,所述段落标签的内容是由sc起始元素与描述段落类型的中文构成。

4.根据权利要求3所述的方法,其特征在于:所述的段落类型分为通用段落类型和化学类段落类型,所述的通用段落类型是指某个段落是题目、摘要、小标题、正文、图表还是参考文献,所述的化学类段落类型是用于进一步...

【技术特征摘要】

1.一种从文献中自动提取化学数据的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:步骤s1)中所述的文献为中文文献或/和英文文献,所述文献以pdf或word格式输入。

3.根据权利要求1所述的方法,其特征在于:步骤s2)中所述的段落标签按照xml标签设计规则进行预定义,所述段落标签的内容是由sc起始元素与描述段落类型的中文构成。

4.根据权利要求3所述的方法,其特征在于:所述的段落类型分为通用段落类型和化学类段落类型,所述的通用段落类型是指某个段落是题目、摘要、小标题、正文、图表还是参考文献,所述的化学类段落类型是用于进一步对小标题和正文段落按其是否涉及目标化学内容进行分类定义。

5.根据权利要求1所述的方法,其特征在于:步骤s3)中所述的内容标签按照xml标签设计规则进行预定义,所述内容标签的内容是由cc起始元素与描述内容类型的中文构成,所述的内容类型是指某段文字的内容分类。...

【专利技术属性】
技术研发人员:李英勇陈维明周俊红戴静芳赵英莉徐挺军薛小松
申请(专利权)人:中国科学院上海有机化学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1