化学实体的信息处理方法及系统、计算机系统及存储介质技术方案

技术编号:37700725 阅读:9 留言:0更新日期:2023-06-01 23:44
本申请提供一种化学实体的信息处理方法、化学实体的信息处理系统、计算机系统以及计算机可读存储介质,所述信息处理方法通过检测所获取的文档中化学实体的行文内容和/或表格内容以确定待识别对象并进行识别以获得所述化学实体的系统命名及对应的编号,然后将化学实体的系统命名转换为预设数据格式的化学结构信息并与编号关联后保存和/或输出,进而显著提升最终有效结果的提取率和准确率,并且没有过多的冗余信息,每个化学实体都同时提取了其在文献中的编号信息,经整理可以得到准确、全面规范的结构化数据,以助于药物发现及研发等工作。工作。工作。

【技术实现步骤摘要】
化学实体的信息处理方法及系统、计算机系统及存储介质


[0001]本申请涉及化学
,具体涉及一种化学实体的信息处理方法、化学实体的信息处理系统、计算机系统以及计算机可读存储介质。

技术介绍

[0002]在药物研发中,需要跟进行业内在某个靶点最新研发进展,例如最新公开的专利文献或期刊论文进行跟踪,从而进行分子设计和优化,以确保研发效率和投入。为了更好地对专利等文献进行解读和分析,需要将其中的分子结构及其对应的实验数据提取出来,整理成结构化的信息。手动摘录固然可以从专利中整理出高质量的结构化数据,但所需的成本和工作量极大,在实际执行过程中会受到很大的限制只有一些商业数据的提供商才有足够的资源支持这一工作,如Elsevier Reaxys。
[0003]目前已有的专利文本挖掘的工具有OSCAR4、Chemical Tagger、Chem Spot、OCMiner、Chem Data Extractor等,这些工具提取专利中相关化合物信息的过程主要可分为两个部分:一是文本中的化学命名实体识别(Named Entity Recognition,简称NER),在文本里面识别出哪些字段是属于一个化学实体,并将所有实体抽取出来,并使用转换工具获取这些实体对应的化学结构,有的文本挖掘工具只包含NER这一个部分;二是命名实体之间的关系提取,对识别到的化学实体相互之间,或与文中的其他类型实体之间通过统计或者规则的方法识别其中的关联信息,如多个化学实体的指代消解,化学实体与疾病、蛋白、基因之间的关联,或化学实体对应的理化属性、生物实验标记数据等。在现有技术中,已存在的文本挖掘工具做NER的方法可分为三类:基于字典的方法、基于语法的方法、和基于上下文的方法。
[0004]基于字典的方法通过将文本与已知名称的字典或目录进行比较来查找文本中的命名实体,在这个方法中,如何设计高质量且全面的字典是非常关键的因素,这种方法最大的局限是字典的覆盖范围有限,并且当字典规模大到一定程度时效率将会呈指数级下降。因此,以非系统命名形式出现的化学实体常用此方法进行识别。
[0005]而对于系统命名(IUPAC),想要构建穷举所有情况的字典是不可能的,所以,一般会使用基于语法的方法。系统命名法实际上是使用一组有限的终端符号的语法,这些终端符号大致对应于化学名称段(例如“methyl/甲基”),多数情况下这些名称段出现在化学实体中的概率要高于在普通文本中的概率,具有比较典型的特征,所以可以从大量的化学名中归纳出一个比较全面的基本名称段字典,然后利用此字典对文本进行分段以及对文本片段做词性标注,再结合一些语法规则识别出完整的命名实体。也可以不构建基本名称片段字典,直接从大量的化学名和非化学名的背景文本中利用n

grams的滑动窗口(是指一串文本中n个连续字符的序列,例如“methyl”有3个4

grams:“meth”、“ethy”、“thyl”)统计n字符序列在化学名和非化学名文本中的条件频率或字符到字符的转换概率(马尔可夫模型),在文本挖掘的过程中同样将文本分割成n字符序列的片段,对片段做概率预测,据此得出具有最高概率的词性标注组合,进而识别出完整的命名实体。
[0006]基于语法的方法中,命名实体被分割成了不同的片段,还需要通过额外的规则或程序来确定命名实体的边界,基于上下文信息的NER则没有这个局限,此方法利用预先标注好的部分文本数据训练机器学习模型,常用的标注方案是将文本中各个片段标注为(B)egining、(I)nner和(O)utside三类,其中,(B)用于化学实体开始的第一个标记,(I)用于化学实体中间的任何其他标记,(O)用于不属于化学实体的所有其他标记。使用此方案可以很容易地确定化学实体的边界,机器学习模型(如条件随机场,CRF)可从用此方案标注好的数据中学习潜在的模式,从而在新的文本中对各个片段所属的标注类别进行预测,进而识别出正确的化学实体。
[0007]目前已有工具的输入多为HTML、XML、Word、文本PDF,即文字可被选中的文档,不能支持图片PDF的直接输入,而在Fast Follow新药研发场景下,所需处理的文献,例如专利文献一般只有图片PDF,即使有些专利数据库已经对原始的图片PDF做了OCR处理,由于OCR技术的限制,得到的文本文档也有不同程度上的信息丢失及错误,尤其是专利中的表格,在OCR识别后排版和结构极有可能将完全丢失,如果仅使用全文OCR之后的文档去做提取,已有的这些工具的提取效果必然会受到OCR识别错误的影响。绝大部分工具并没有针对OCR识别结果的纠正模块,即使有也还停留在简单的错误修正,因而造成识别并提取出的化学实体信息是错误的,并不能作为药物研发的有用数据。

技术实现思路

[0008]鉴于以上所述相关技术的缺点,本申请的目的在于提供一种化学实体的信息处理方法、化学实体的信息处理系统、计算机系统以及计算机可读存储介质,以解决现有技术中从例如专利等文献中识别并提取出的化学实体信息时出现的高错误率的问题。
[0009]为实现上述目的及其他相关目的,本申请的第一方面在于公开一种化学实体的信息处理方法,包括以下步骤:检测所获取的文档中化学实体的行文内容和/或表格内容以确定待识别对象;所述文档包括文本文档或/和图片文档;识别所述待识别对象中的化学实体及编号实体以获得所述化学实体的系统命名及对应的编号;将所述化学实体的系统命名转换为预设数据格式的化学结构信息并与所述编号关联后保存和/或输出。
[0010]本申请的第二方面在于公开一种化学实体的信息处理系统,包括:检测模块,用于检测所获取的文档中化学实体的行文内容和/或表格内容以确定待识别对象;所述文档包括文本文档或/和图片文档;识别模块,用于识别所述待识别对象中的化学实体及编号实体以获得所述化学实体的系统命名及对应的编号;转换模块,用于将所述化学实体的系统命名转换为预设数据格式的化学结构信息并与所述编号关联后保存和/或输出。
[0011]本申请的第三方面在于公开一种计算机系统,包括:至少一个存储器,用于存储至少一种程序;至少一个处理器,与所述至少一个存储器相连,用于从所述至少一个存储器中调用并执行所述至少一个程序时实现如上述第一方面所述的化学实体的信息处理方法。
[0012]本申请的第四方面在于公开一种计算机可读存储介质,其特征在于,包括存储的计算机程序,其中,在所述计算机程序被计算机的处理器运行时,控制所述计算机执行并实现如上述第一方面所述的化学实体的信息处理方法。
[0013]综上所述,本申请的化学实体的信息处理方法、化学实体的信息处理系统、计算机系统以及计算机可读存储介质,通过检测所获取的文档中化学实体的行文内容和/或表格
内容以确定待识别对象并进行识别以获得所述化学实体的系统命名及对应的编号,然后将化学实体的系统命名转换为预设数据格式的化学结构信息并与编号关联后保存和/或输出,进而显著提升最终有效结果的提取率和准确率,并且没有过多的冗余信息,每个化学实体都同时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化学实体的信息处理方法,其特征在于,包括以下步骤:检测所获取的文档中化学实体的行文内容和/或表格内容以确定待识别对象;所述文档包括文本文档或/和图片文档;识别所述待识别对象中的化学实体及编号实体以获得所述化学实体的系统命名及对应的编号;将所述化学实体的系统命名转换为预设数据格式的化学结构信息并与所述编号关联后保存和/或输出。2.根据权利要求1所述的化学实体的信息处理方法,其特征在于,还包括以接收本地上传的方式或利用爬虫工具从网络中抓取的方式获得所述文档,所述文档的格式包括HTML格式、XML格式、TXT格式,Word格式、或PDF格式。3.根据权利要求2所述的化学实体的信息处理方法,其特征在于,所述文档为药物产品说明文档、药物论文文档、或药物专利文档,临床试验文档、审查文档、或临床研究文档。4.根据权利要求1所述的化学实体的信息处理方法,其特征在于,检测所获取的文档中化学实体的行文内容和/或表格内容的步骤包括:通过文字特征定位所述文档中的行文内容以确定待识别对象,以及通过表格特征定位所述文档中的表格内容以确定待识别对象。5.根据权利要求4所述的化学实体的信息处理方法,其特征在于,识别所述待识别对象中的化学实体及编号实体的步骤中,检测到获取的文档为文本文档时,调用预设的行文识别模型识别所述行文内容的文本信息中包含的化学实体及编号实体,以分别获得所述化学实体的系统命名及编号,并依据述化学实体的系统命名及编号在所述文本信息中位置关系确定各该化学实体的系统命名及其对应的编号。6.根据权利要求5所述的化学实体的信息处理方法,其特征在于,所述行文识别模型包括经训练的深度学习模型和/或正则表达式模型。7.根据权利要求4所述的化学实体的信息处理方法,其特征在于,识别所述待识别对象中的化学实体及编号实体的步骤中,检测到获取的文档为文本文档时,调用预设的表格识别模型识别表格内容的文本信息中的化学实体及编号实体,以分别获得所述化学实体的系统命名及编号,并依据所述表格内容的表格属性确定各该化学实体的系统命名及其对应的编号。8.根据权利要求7所述的化学实体的信息处理方法,其特征在于,所述表格识别模型包括正则表达式模型。9.根据权利要求4所述的化学实体的信息处理方法,其特征在于,在检测所获得的文档中化学实体的行文内容及表格内容的步骤中,获取的文档为图片文档时还包括按照预设的切分规则将所述图片文档分成多个图片以及对每张图片做图像增强处理后保存为待识别图片的步骤。10.根据权利要求9所述的化学实体的信息处理方法,其特征在于,获取的文档为图片文档时还包括按照文档的页码为切分单位将所述图片文档切分成多个图片。11.根据权利要求9所述的化学实体的信息处理方法,其特征在于,识别所述待识别图片中行文内容的步骤包括:利用OCR提取所述待识别图片中的行文内容以得到文本信息;调用预设的行文识别模型识别所述行文内容的文本信息中包含的化学实体及编号实
体,以分别获得所述化学实体的系统命名及编号,并依据述化学实体的系统命名及编号在所述文本信息中位置关系确定各该化学实体的系统命名及其对应的编号。12.根据权利要求11所述的化学实体的信息处理方法,其特征在于,识别所述待识别图...

【专利技术属性】
技术研发人员:张声德
申请(专利权)人:南京燧坤智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1