一种物质名称提取方法、装置及存储介质制造方法及图纸

技术编号:26971320 阅读:25 留言:0更新日期:2021-01-06 00:02
本发明专利技术提供一种物质名称提取方法、装置及存储介质,其中,方法包括如下步骤:获取待提取文本文件;确定所述待提取文本文件是否包含预设标识;当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取。通过实施本发明专利技术,根据预设标识查找预设标识对应部分的文本内容中是否含有物质名称信息,而预设标识可以预先根据需要设定,提高了物质名称提取的灵活性,并且,当预设标识为专利文本中实施例、步骤等对应的文本内容包含详细技术内容介绍之类的关键字,在提高物质名称提取的针对性的同时,不需要对整篇专利进行名称提取,从而提高物质名称提取的效率。

【技术实现步骤摘要】
一种物质名称提取方法、装置及存储介质
本专利技术涉及自然语言处理领域,具体涉及一种物质名称提取方法、装置及存储介质。
技术介绍
专利数据是互联网中的一种重要的知识产权数据,研究表明,专利虽然只占文献总量的10%,却能提供全世界90%~95%的新技术信息。而在药物研发领域中尤为明显,大量的潜在成药的小分子数据分布在文献、专利等文档中。其中,化学专利是理解化合物用途、特性和新颖性的重要起点。通常情况下,新化合物最初是在专利文件中公开的,而化学文献中提及这些化学物质可能需要1-3年的时间,这表明专利是一种有价值的但未充分利用的资源。随着每年新化学专利申请数量的急剧增加,如何有效的提取分子名称以发现并利用该分子,是企业界、学术界首要考虑的问题。相关技术中,只能对整篇专利文件进行遍历识别得到物质名称,不能根据不同需求筛选分子名称,提取分子名称灵活性差。
技术实现思路
有鉴于此,本专利技术实施例提供了一种物质名称提取方法、装置及存储介质,以解决现有技术提取分子名称灵活性差的缺陷。根据第一方面,本专利技术实施例提供一种物质名称提取方法,包本文档来自技高网...

【技术保护点】
1.一种物质名称提取方法,其特征在于,包括如下步骤:/n获取待提取文本文件;/n确定所述待提取文本文件是否包含预设标识;/n当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取。/n

【技术特征摘要】
1.一种物质名称提取方法,其特征在于,包括如下步骤:
获取待提取文本文件;
确定所述待提取文本文件是否包含预设标识;
当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取。


2.根据权利要求1所述的方法,其特征在于,所述预先训练好的物质名称提取模型包括:CNN卷积模块,LSTM神经网络模块,线性模块和CRF条件随机场模块;当所述待提取文本文件包含所述预设标识,利用物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取,包括:
利用所述卷积模块对所述文本内容中每一个语句中单词的字符向量进行卷积池化,得到每个单词的字符级特征向量;
将所述每个单词的字符级特征向量、第一预设词向量以及第二预设词向量进行拼接,将拼接结果输入至所述LSTM神经网络模块,得到所述语句的特征信息,所述第一预设词向量从与所述待提取文本文件不同类型的文本文件提取得到,所述第二预设词向量从与所述待提取文本文件同一类型的历史文本文件提取得到;
将所述语句的特征信息输出至线性模块进行计算,将计算结果输出至CRF条件随机场模块进行目标物质名称提取。


3.根据权利要求1所述的方法,其特征在于,所述预设标识为多个,当所述待提取文本文件包含所述预设标识,利用预先训练好的物质名称提取模型对所述预设标识对应的文本内容进行目标物质名称提取,包括:
依次对识别出的每一个预设标识对应的目标位置的文本内容进行目标物质名称提取,直至遍历全部文本内容。


4.根据权利要求1所述的方法,其特征在于,所述获取待提取文本文件,包括:当所述待提取文本文件为不可编辑文本文件,利用目标算法对所述不可编辑文本文件进行可编辑化处理。


5.根据权利要求1所述的方法,其特征在于,所述待提取文本文件为...

【专利技术属性】
技术研发人员:白芳杨宇星周杰龙
申请(专利权)人:北京望石智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1