一种专利中命名实体的提取方法、装置及电子设备制造方法及图纸

技术编号:36368520 阅读:35 留言:0更新日期:2023-01-18 09:25
本发明专利技术提供一种专利中命名实体的提取方法、装置及电子设备,其中,方法包括:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。通过实施本方案,对专利文本进行预处理,得到模型能够识别的文本信息,然后利用预先训练好的命名实体提取模型在专利文件中提取出命名实体,由于预先训练好的命名实体提取模型是根据专利文件进行训练的,其可以有效掌握专利文献的文字表述方式,从而可以有效实现专利文献的命名实体提取,提高专利文件命名实体的提取准确性。文件命名实体的提取准确性。文件命名实体的提取准确性。

【技术实现步骤摘要】
一种专利中命名实体的提取方法、装置及电子设备


[0001]本专利技术涉及自然语言处理
,具体涉及一种专利中命名实体的提取方法、装置及电子设备。

技术介绍

[0002]专利数据是互联网中的一种重要的知识产权数据,研究表明,专利虽然只占文献总量的10%,却能提供全世界90%~95%的新技术信息。而在药物研发领域中尤为明显,大量的潜在成药的小分子数据分布在文献、专利等文档中。其中,化学专利是理解化合物用途、特性和新颖性的重要起点。通常情况下,新化合物最初是在专利文件中公开的,化学文献中提及这些化学物质可能需要1

3年的时间,这表明专利是一种有价值的但未充分利用的资源。随着每年新化学专利申请数量的急剧增加,如何有效的提取并利用这些数据,是企业界、学术界首要考虑的问题,而开发能够从这些专利中提取信息的工具是首要任务。
[0003]相关技术中,一般采用BioBERT在生物医学领域的论文中实现命名实体提取。在构建BioBERT时,使用BERT的权重初始化BioBERT,该BERT利用通用领域语料库(英语Wikipedia和B本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种专利中命名实体的提取方法,其特征在于,包括如下步骤:获取专利文本;对所述专利文本进行数据预处理,得到预处理后的文本信息;将所述文本信息输入预先训练好的命名实体提取模型,得到提取出的命名实体,所述预先训练好的命名实体提取模型为根据专利文本训练得到。2.根据权利要求1所述的方法,其特征在于,所述预先训练好的命名实体提取模型包第一网络模型以及第二网络模型,所述第一网络模型为基于注意力机制建立的网络模型,所述第一网络模型的输出为文本特征向量,所述文本特征向量作为第二网络模型的输入。3.根据权利要求2所述的方法,其特征在于,所述命名实体提取模型的训练过程包括:获取第一专利文本样本数据;根据所述第一专利文本样本数据对BERT模型进行训练,得到基于专利文本的第一预训练网络模型,所述第一预训练网络模型为未经过目标领域专利文件训练的所述第一网络模型;获取目标领域的第二专利文本样本数据;根据标注工具对所述第二专利文本样本数据进行实体标注,得到标注语料,所述标注语料包括标注内容以及标注标签;对所述标注语料进行分句及分词处理,得到多个句子中对应词语的令牌;将每个句子对应词语的令牌序列输入至所述第一预训练网络模型,得到文本特征向量;将所述文本特征向量输入第二预训练网络模型进行训练,当达到目标条件,则完成训练,得到命名实体提取模型,所述第二预训练网络模型为未完成训练的第二网络模型。4.根据权利要求3所述的方法,其特征在于,所述目标领域为生物医药领域,所述实体标注包括分子名称、靶点、疾病、分子式、化合物注册号、试剂简写及CAS号中的至少一种或...

【专利技术属性】
技术研发人员:白芳
申请(专利权)人:北京望石智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1