化学实体的信息处理方法及系统、计算机系统及存储介质技术方案

技术编号：37700725 阅读：9 留言：0更新日期：2023-06-01 23:44

本申请提供一种化学实体的信息处理方法、化学实体的信息处理系统、计算机系统以及计算机可读存储介质，所述信息处理方法通过检测所获取的文档中化学实体的行文内容和/或表格内容以确定待识别对象并进行识别以获得所述化学实体的系统命名及对应的编号，然后将化学实体的系统命名转换为预设数据格式的化学结构信息并与编号关联后保存和/或输出，进而显著提升最终有效结果的提取率和准确率，并且没有过多的冗余信息，每个化学实体都同时提取了其在文献中的编号信息，经整理可以得到准确、全面规范的结构化数据，以助于药物发现及研发等工作。工作。工作。

全部详细技术资料下载

【技术实现步骤摘要】
化学实体的信息处理方法及系统、计算机系统及存储介质

[0001]本申请涉及化学
，具体涉及一种化学实体的信息处理方法、化学实体的信息处理系统、计算机系统以及计算机可读存储介质。

技术介绍

[0002]在药物研发中，需要跟进行业内在某个靶点最新研发进展，例如最新公开的专利文献或期刊论文进行跟踪，从而进行分子设计和优化，以确保研发效率和投入。为了更好地对专利等文献进行解读和分析，需要将其中的分子结构及其对应的实验数据提取出来，整理成结构化的信息。手动摘录固然可以从专利中整理出高质量的结构化数据，但所需的成本和工作量极大，在实际执行过程中会受到很大的限制只有一些商业数据的提供商才有足够的资源支持这一工作，如Elsevier Reaxys。
[0003]目前已有的专利文本挖掘的工具有OSCAR4、Chemical Tagger、Chem Spot、OCMiner、Chem Data Extractor等，这些工具提取专利中相关化合物信息的过程主要可分为两个部分：一是文本中的化学命名实体识别(Named Entity Recognition，简称NER)，在文本里面识别出哪些字段是属于一个化学实体，并将所有实体抽取出来，并使用转换工具获取这些实体对应的化学结构，有的文本挖掘工具只包含NER这一个部分；二是命名实体之间的关系提取，对识别到的化学实体相互之间，或与文中的其他类型实体之间通过统计或者规则的方法识别其中的关联信息，如多个化学实体的指代消解，化学实体与疾病、蛋白、基因之间的关联，或化学实体对应的理化属性、生...

【技术保护点】

【技术特征摘要】
1.一种化学实体的信息处理方法，其特征在于，包括以下步骤：检测所获取的文档中化学实体的行文内容和/或表格内容以确定待识别对象；所述文档包括文本文档或/和图片文档；识别所述待识别对象中的化学实体及编号实体以获得所述化学实体的系统命名及对应的编号；将所述化学实体的系统命名转换为预设数据格式的化学结构信息并与所述编号关联后保存和/或输出。2.根据权利要求1所述的化学实体的信息处理方法，其特征在于，还包括以接收本地上传的方式或利用爬虫工具从网络中抓取的方式获得所述文档，所述文档的格式包括HTML格式、XML格式、TXT格式，Word格式、或PDF格式。3.根据权利要求2所述的化学实体的信息处理方法，其特征在于，所述文档为药物产品说明文档、药物论文文档、或药物专利文档，临床试验文档、审查文档、或临床研究文档。4.根据权利要求1所述的化学实体的信息处理方法，其特征在于，检测所获取的文档中化学实体的行文内容和/或表格内容的步骤包括：通过文字特征定位所述文档中的行文内容以确定待识别对象，以及通过表格特征定位所述文档中的表格内容以确定待识别对象。5.根据权利要求4所述的化学实体的信息处理方法，其特征在于，识别所述待识别对象中的化学实体及编号实体的步骤中，检测到获取的文档为文本文档时，调用预设的行文识别模型识别所述行文内容的文本信息中包含的化学实体及编号实体，以分别获得所述化学实体的系统命名及编号，并依据述化学实体的系统命名及编号在所述文本信息中位置关系确定各该化学实体的系统命名及其对应的编号。6.根据权利要求5所述的化学实体的信息处理方法，其特征在于，所述行文识别模型包括经训练的深度学习模型和/或正则表达式模型。7.根据权利要求4所述的化学实体的信息处理方法，其特征在于，识别所述待识别对象中的化学实体及编号实体的步骤中，检测到获取的文档为文本文档时，调用预设的表格识别模型识别表格内容的文本信息中的化学实体及编号实体，以分别获得所述化学实体的系统命名及编号，并依据所述表格内容的表格属性确定各该化学实体的系统命名及其对应的编号。8.根据权利要求7所述的化学实体的信息处理方法，其特征在于，所述表格识别模型包括正则表达式模型。9.根据权利要求4所述的化学实体的信息处理方法，其特征在于，在检测所获得的文档中化学实体的行文内容及表格内容的步骤中，获取的文档为图片文档时还包括按照预设的切分规则将所述图片文档分成多个图片以及对每张图片做图像增强处理后保存为待识别图片的步骤。10.根据权利要求9所述的化学实体的信息处理方法，其特征在于，获取的文档为图片文档时还包括按照文档的页码为切分单位将所述图片文档切分成多个图片。11.根据权利要求9所述的化学实体的信息处理方法，其特征在于，识别所述待识别图片中行文内容的步骤包括：利用OCR提取所述待识别图片中的行文内容以得到文本信息；调用预设的行文识别模型识别所述行文内容的文本信息中包含的化学实体及编号实
体，以分别获得所述化学实体的系统命名及编号，并依据述化学实体的系统命名及编号在所述文本信息中位置关系确定各该化学实体的系统命名及其对应的编号。12.根据权利要求11所述的化学实体的信息处理方法，其特征在于，识别所述待识别图...

【专利技术属性】
技术研发人员：张声德，
申请(专利权)人：南京燧坤智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人