【技术实现步骤摘要】
本专利技术是涉及一种从文献中自动提取化学数据的方法和系统,属于信息处理。
技术介绍
1、科学实验在自然科学发展中的作用越来越明显,作为科学实验主要产出之一的科学数据已经成为一种重要资源受到越来越多的重视,高效且结构化地数据提取一直备受关注。化学作为自然科学的三大基础学科之一,它的研究和应用已经渗透到科学研究、国民经济、社会发展、国家安全的各个方面,形成了许多交叉领域,积累了大量宝贵信息和数据。构建化学数据库,可为化学化工研究和开发提供全面信息服务。因此,对化学数据的需求促使了对文献中化学数据提取技术的研究。
2、虽然对化学数据的搜集和加工在国际上已有200多年历史,但在2010年之前,对化学数据的搜集加工还是以人工处理为主。自2011年剑桥大学jessop、hawizy和d.m.lowe等人先后发表了用于化合物名称自动识别的化学文本挖掘系统,才开创了将人工智能方法用于化学数据处理的新方向。但目前主要是采用机器学习方法从文献中自动提取化学数据,而采用机器学习方法需要人工标引大量同类语料以训练模型,对人力和硬件都有较高要求;另外
...【技术保护点】
1.一种从文献中自动提取化学数据的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于:步骤S1)中所述的文献为中文文献或/和英文文献,所述文献以PDF或Word格式输入。
3.根据权利要求1所述的方法,其特征在于:步骤S2)中所述的段落标签按照XML标签设计规则进行预定义,所述段落标签的内容是由sc起始元素与描述段落类型的中文构成。
4.根据权利要求3所述的方法,其特征在于:所述的段落类型分为通用段落类型和化学类段落类型,所述的通用段落类型是指某个段落是题目、摘要、小标题、正文、图表还是参考文献,所述的化学类
...【技术特征摘要】
1.一种从文献中自动提取化学数据的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的方法,其特征在于:步骤s1)中所述的文献为中文文献或/和英文文献,所述文献以pdf或word格式输入。
3.根据权利要求1所述的方法,其特征在于:步骤s2)中所述的段落标签按照xml标签设计规则进行预定义,所述段落标签的内容是由sc起始元素与描述段落类型的中文构成。
4.根据权利要求3所述的方法,其特征在于:所述的段落类型分为通用段落类型和化学类段落类型,所述的通用段落类型是指某个段落是题目、摘要、小标题、正文、图表还是参考文献,所述的化学类段落类型是用于进一步对小标题和正文段落按其是否涉及目标化学内容进行分类定义。
5.根据权利要求1所述的方法,其特征在于:步骤s3)中所述的内容标签按照xml标签设计规则进行预定义,所述内容标签的内容是由cc起始元素与描述内容类型的中文构成,所述的内容类型是指某段文字的内容分类。...
【专利技术属性】
技术研发人员:李英勇,陈维明,周俊红,戴静芳,赵英莉,徐挺军,薛小松,
申请(专利权)人:中国科学院上海有机化学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。