一种基于模板生成的化学反应抽取器和抽取方法技术

技术编号:24854772 阅读:93 留言:0更新日期:2020-07-10 19:08
本发明专利技术提出的一种基于模板生成的化学反应抽取方法,包括:对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;将获取的句子集合队列化,并获得反应模板;将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;对抽取的化学实体和反应进行过滤,筛选反应;根据分类器对筛选出的反应进行分类。本发明专利技术通过构建自然语言处理系统从PubMed中自动提取涵盖化学物质的反应。考虑到文献中摘要作为总览全文的浓缩段落,因此本发明专利技术主要是从PubMed摘要中提取单个句子中的反应,此方法也可以处理描述多个反应的句子。

【技术实现步骤摘要】
一种基于模板生成的化学反应抽取器和抽取方法
本专利技术涉及文本处理和生物科学
,尤其涉及一种基于模板生成的化学反应抽取器和抽取方法。
技术介绍
生物合成工作者在开发新的药物或生物燃料等合成领域应用中,需要获取大量的反应路径和新的化合物,而这些内容通常在非结构化的文本中,例如文献摘要,如果依靠传统的人工查找文献,阅读文献的方式很难充分的利用到有价值的信息,生物医学中使用最广泛的资源之一是PubMed数据库。研究人员可以通过使用MeSH术语搜索PubMed进行查询。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了一种基于模板生成的化学反应抽取器。本专利技术提出的一种基于模板生成的化学反应抽取器,包括:预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合;数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;数据过滤模块,用于根据预设的过滤模型,结合化学实体本文档来自技高网...

【技术保护点】
1.一种基于模板生成的化学反应抽取器,其特征在于,包括:/n预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合;/n数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;/n数据过滤模块,用于根据预设的过滤模型,结合化学实体和反应对句子进行过滤;/n数据分类模块,用于对过滤后的句子的反应进行分类。/n

【技术特征摘要】
1.一种基于模板生成的化学反应抽取器,其特征在于,包括:
预处理模块,用于获取csv文件,并用于对csv文件的摘要和标题进行合并后切分形成句子,并生成句子集合;
数据提取模块,用于根据预设的反应模板对句子集合中的每一个句子进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;
数据过滤模块,用于根据预设的过滤模型,结合化学实体和反应对句子进行过滤;
数据分类模块,用于对过滤后的句子的反应进行分类。


2.一种基于模板生成的化学反应抽取方法,其特征在于,包括:
S1、对csv文件中的摘要和标题进行合并后切分,获得作为抽取程序输入对象的句子集合;
S2、将获取的句子集合队列化,并获得反应模板;
S3、将队列化的句子集合和反应模板加载到抽取程序中,抽取程序通过反应模板对句子集合进行抽取,获得每一个句子的化学实体和反应,化学实体包括反应物和反应产物;
S4、对抽取的化学实体和反应进行过滤,筛选反应;
S5、根据分类器对筛选出的反应进行分类。


3.如权利要求2所述的基于模板生成的化学反应抽取方法,其特征在于,步骤S1具体为:首先获取文献摘要作为生语料,对生语料进行过滤,获得仅包含用于描绘文章所述反应的关键信息的文本集合,关键信息包括标题和摘要;然后对文本集合中的摘要和标题进行合并形成语义上的句子整体,再使用句子切分工具对句子整体进行切分,获得单独的句子作为抽取程序输入对象的句子集合。


4.如权利要求3所述的基于模板生成的化学反应抽取方法,其特征在于,步骤S1中,所有的句子合并和句子切分均在多线程并行状态下处理。


5...

【专利技术属性】
技术研发人员:李鑫张百成鲍琦
申请(专利权)人:苏州机数芯微科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1