一种基于模板生成的化学反应抽取器和抽取方法技术

技术编号:24854772 阅读:75 留言:0更新日期:2020-07-10 19:08
本发明专利技术提出的一种基于模板生成的化学反应抽取方法,包括:对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;将获取的句子集合队列化,并获得反应模板;将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;对抽取的化学实体和反应进行过滤,筛选反应;根据分类器对筛选出的反应进行分类。本发明专利技术通过构建自然语言处理系统从PubMed中自动提取涵盖化学物质的反应。考虑到文献中摘要作为总览全文的浓缩段落,因此本发明专利技术主要是从PubMed摘要中提取单个句子中的反应,此方法也可以处理描述多个反应的句子。

【技术实现步骤摘要】
一种基于模板生成的化学反应抽取器和抽取方法
本专利技术涉及文本处理和生物科学
,尤其涉及一种基于模板生成的化学反应抽取器和抽取方法。
技术介绍
生物合成工作者在开发新的药物或生物燃料等合成领域应用中,需要获取大量的反应路径和新的化合物,而这些内容通常在非结构化的文本中,例如文献摘要,如果依靠传统的人工查找文献,阅读文献的方式很难充分的利用到有价值的信息,生物医学中使用最广泛的资源之一是PubMed数据库。研究人员可以通过使用MeSH术语搜索PubMed进行查询。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种基于模板生成的化学反应抽取器。本专利技术提出的一种基于模板生成的化学反应抽取器,包括:预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合;数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;数据过滤模块,用于根据预设的过滤模型,结合化学实体和反应对句子进行过滤;数据分类模块,用于对过滤后的句子的反应进行分类。一种基于模板生成的化学反应抽取方法,包括:S1、对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;S2、将获取的句子集合队列化,并获得反应模板;S3、将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;S4、对抽取的化学实体和反应进行过滤,筛选反应;S5、根据分类器对筛选出的反应进行分类。优选的,步骤S1具体为:首先获取文献摘要作为生语料,对生语料进行过滤,获得仅包含用于描绘文章所述反应的关键信息的文本集合,关键信息包括标题和摘要;然后对文本集合中的摘要和标题进行合并形成语义上的句子整体,再使用句子切分工具对句子整体进行切分,获得单独的句子作为抽取程序输入对象的句子集合。优选的,步骤S1中,所有的句子合并和句子切分均在多线程并行状态下处理。优选的,步骤S1中,还包括对应每一篇文献附加标识码,文献对应的句子集合以及带抽取的预测集合通过标识码进行关联。优选的,步骤S2中获得反应模板的具体方法包括:S21、选择模板;S22、获得文本样本和外部化合物数据库;S23、通过化合物实体识别工具(NER)识别文本样本中的化合物;S24、结合外部化合物数据库对文本样本的识别结果进行匹配查找,并根据匹配结果对文本样本标记化合物和反应;S25、根据文本样本以及对应的标记结果对模板进行训练,获得反应模板。优选的,步骤S21中,选择的模板为top-down,或者bottom-up。优选的,步骤S4具体为:首先根据抽取结果,删除不包含化学反应的句子,并删除包含的化学实体数量少于1的句子;根据查询词典查询剩余的句子中的关键词,并记录每一个关键词的PMID索引号;利用PMID索引判断句子所属的文章是否涉及化学药品,删除不涉及化学药品的句子,完成最终文本过滤。优选的,查询词典的获取方式为:从Mesh医学主题词表中摘录与化学反应相关的子类关键词保存为查询字典。优选的,步骤S5中,筛选出的反应为步骤S4中最终筛选出的句子中存在的反应。本专利技术提出的一种基于模板生成的化学反应抽取器,通过构建自然语言处理系统从PubMed中自动提取涵盖化学物质的反应。系统使用已标记的训练数据来生成一组用于提取反应的模板反应。通过将反应物转化为标准的InChI表示法,可以将所得反应进行标准化。考虑到文献中摘要作为总览全文的浓缩段落,因此本专利技术主要是从PubMed摘要中提取单个句子中的反应,此方法也可以处理描述多个反应的句子,每个反应由两种或多种化合物组成。附图说明图1为本专利技术提出的一种基于模板生成的化学反应抽取器模块示意图;图2为本专利技术提出的一种基于模板生成的化学反应抽取方法流程图;图3为反应模板的获取流程图。具体实施方式参照图1,本专利技术提出的一种基于模板生成的化学反应抽取器,包括:预处理模块、数据提取模块、数据过滤模块和数据分类模块。预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合。本实施方式中,通过对摘要和标题机械能预处理,保证了文件关键信息的提取效率。数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物。数据过滤模块,用于根据预设的过滤模型,结合化学实体和反应对句子进行过滤。数据分类模块,用于对过滤后的句子的反应进行分类。以下结合一种基于模板生成的化学反应抽取方法,对本专利技术做进一步阐述。参照图2,本专利技术提出的一种基于模板生成的化学反应抽取方法,包括:S1、对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合。本步骤具体实施时,首先获取文献摘要作为生语料,对生语料进行过滤,获得仅包含用于描绘文章所述反应的关键信息的文本集合,关键信息包括标题和摘要;然后对文本集合中的摘要和标题进行合并形成语义上的句子整体,再使用句子切分工具对句子整体进行切分,获得单独的句子作为抽取程序输入对象的句子集合。具体的,本实施方式中,获得文本集合的方式为:首先使用分布式采集系统,从外部数据库获取文献摘要作为拟抽取的生语料,通过对某些和反应抽取无关的项进行过滤,获得只含有标题和摘要一类能够描绘文章所述反应的含有关键信息的文本集合。本实施方式中,所有的句子合并和句子切分均在多线程并行状态下处理,因为从文献集合到文本集合再到句子集合,数据点的增量呈爆炸级增长,并行操作可以更高效的完成文件预处理工作。本步骤S1中,还包括对应每一篇文献附加标识码,文献对应的句子集合以及带抽取的预测集合通过标识码进行关联。如此,通过标识码可快速识别句子集合与文献的对应关系,方便将陆续抽取的句子自动填充到对应的句子集合中。S2、将获取的句子集合队列化,并获得反应模板。本实施方式中,将句子集合队列化后,方便了句子集合有序的输入抽取程序,有利于提高后续抽取程序的效率和精确度。参照图3,本实施方式中,步骤S2中获得反应模板的具体方法包括:S21、选择模板。具体的,本步骤中,选择的模板为top-down,或者bottom-up。top-down模板保留了解析树的层级结构,其中多个亚树是与反应相关的,top-down模板可匹配大量的符合条件的句子,但同时也会引入很多噪音。Bottom-uppatterns忽略了树状层级结构,相对而言是一个扁平化的结构,通过匹配tokens序列,确定tokens的POS标签可以匹配具有相同语义序列的句子。...

【技术保护点】
1.一种基于模板生成的化学反应抽取器,其特征在于,包括:/n预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合;/n数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;/n数据过滤模块,用于根据预设的过滤模型,结合化学实体和反应对句子进行过滤;/n数据分类模块,用于对过滤后的句子的反应进行分类。/n

【技术特征摘要】
1.一种基于模板生成的化学反应抽取器,其特征在于,包括:
预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合;
数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;
数据过滤模块,用于根据预设的过滤模型,结合化学实体和反应对句子进行过滤;
数据分类模块,用于对过滤后的句子的反应进行分类。


2.一种基于模板生成的化学反应抽取方法,其特征在于,包括:
S1、对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;
S2、将获取的句子集合队列化,并获得反应模板;
S3、将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;
S4、对抽取的化学实体和反应进行过滤,筛选反应;
S5、根据分类器对筛选出的反应进行分类。


3.如权利要求2所述的基于模板生成的化学反应抽取方法,其特征在于,步骤S1具体为:首先获取文献摘要作为生语料,对生语料进行过滤,获得仅包含用于描绘文章所述反应的关键信息的文本集合,关键信息包括标题和摘要;然后对文本集合中的摘要和标题进行合并形成语义上的句子整体,再使用句子切分工具对句子整体进行切分,获得单独的句子作为抽取程序输入对象的句子集合。


4.如权利要求3所述的基于模板生成的化学反应抽取方法,其特征在于,步骤S1中,所有的句子合并和句子切分均在多线程并行状态下处理。


5...

【专利技术属性】
技术研发人员:李鑫张百成鲍琦
申请(专利权)人:苏州机数芯微科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1