System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种实体识别方法和装置制造方法及图纸_技高网

一种实体识别方法和装置制造方法及图纸

技术编号:39975562 阅读:9 留言:0更新日期:2024-01-09 01:07
本发明专利技术公开了一种实体识别方法和装置,涉及自然语言处理技术领域。该方法的一具体实施方式包括:接收药学信息文本,根据实体词库对药学信息文本进行标记处理,以确定多个第一实体和第一实体对应的实体类型;根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板;其中,实体识别模板集合中包括多个不同粒度级别的实体识别模板;根据目标实体识别模板对药学信息文本进行识别处理,得到目标实体。该实施方式提高了实体识别的准确率和效率,提高了实体识别的自动化程度,提升了用户体验。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种针对药学信息文本的实体识别方法和装置


技术介绍

1、实体识别又称为实体抽取,是为了从非结构化的文本中获取特定的信息元素,通常是一段文本中带有某些特征的片段(未必连续)。相关技术中,实体识别方法主要分为基于模板规则/统计的传统方法与基于深度学习的方法。

2、而针对药学信息文本(如药品说明书),作为医疗领域的实体识别任务,由于其实体有其特殊性,常常面临十分复杂的实体情况,如超长实体、嵌套实体、共享前/后缀等。相关技术中针对药学信息文本进行实体识别处理时,存在实体识别效率低、识别准确率低,耗费较多人力资源,实体识别的自动化程度较低,导致用户体验较差。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种实体识别方法和装置,能够基于实体词库和实体识别模板对药学信息文本进行实体识别,提高了实体识别的准确率和效率,提高了实体识别的自动化程度,提升了用户体验。

2、为实现上述目的,根据本专利技术实施例的一个方面,提供了一种实体识别方法,包括:

3、接收药学信息文本,根据实体词库对药学信息文本进行标记处理,以确定多个第一实体和第一实体对应的实体类型;

4、根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板;其中,实体识别模板集合中包括多个不同粒度级别的实体识别模板;

5、根据目标实体识别模板对药学信息文本进行识别处理,得到目标实体。

6、进一步地,在根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板的步骤之前,方法还包括:

7、基于药学词典获取多个状态词、因果连接词以及不同粒度级别的实体;

8、根据实体、以及状态词和因果连接词中的至少一项,针对各个粒度级别的实体分别构建多个实体识别模板,多个实体识别模板组成实体识别模板集合。

9、进一步地,根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板;根据目标实体识别模板对药学信息文本进行识别处理,得到目标实体的步骤,包括:

10、按照实体识别模板集合中实体识别模板的粒度级别从低到高的顺序,根据第一实体及其对应的实体类型,从实体识别模板集合中匹配确定中间实体识别模板,基于中间实体识别模板对药学信息文本进行识别处理,得到中间目标实体;

11、根据中间目标实体及其对应的实体类型,再次匹配相应粒度级别的中间实体识别模板,直至无法匹配到相应的实体识别模板,确定当前中间目标实体为目标实体。

12、进一步地,方法还包括:

13、基于实体识别模板对历史药学信息文本的识别结果确定训练样本;

14、根据训练样本和深度学习模型,优化实体识别模板。

15、进一步地,在根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板的步骤之前,方法还包括:

16、根据实体类型对多个第一实体进行聚类处理,以对多个第一实体进行更新。

17、进一步地,在接收药学信息文本的步骤之前,方法还包括:

18、根据药学词典构建实体词库;其中,实体词库中至少包括疾病名称实体、药品名称实体和化合物实体。

19、进一步地,方法还包括:

20、根据药学词典、实体识别模板对历史药学信息文本的识别结果以及远程监督算法对实体词库进行更新。

21、根据本专利技术实施例的另一个方面,提供了一种实体识别装置,其特征在于,包括:

22、标记处理模块,用于接收药学信息文本,根据实体词库对药学信息文本进行标记处理,以确定多个第一实体和第一实体对应的实体类型;

23、目标实体识别模板确定模块,用于根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板;其中,实体识别模板集合中包括多个不同粒度级别的实体识别模板;

24、实体识别模块,用于根据目标实体识别模板对药学信息文本进行识别处理,得到目标实体。

25、根据本专利技术实施例的又一个方面,提供了一种实体识别的电子设备,其特征在于,包括:

26、一个或多个处理器;

27、存储装置,用于存储一个或多个程序,

28、当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一种实体识别方法。

29、根据本专利技术实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现如上述任一种实体识别方法。

30、上述专利技术中的一个实施例具有如下优点或有益效果:因为采用接收药学信息文本,根据实体词库对药学信息文本进行标记处理,以确定多个第一实体和第一实体对应的实体类型;根据第一实体和实体类型,从实体识别模板集合中确定目标实体识别模板;其中,实体识别模板集合中包括多个不同粒度级别的实体识别模板;根据目标实体识别模板对药学信息文本进行识别处理,得到目标实体的技术手段,所以克服了相关技术中存在的实体识别效率低、识别准确率低,耗费较多人力资源,实体识别的自动化程度较低,导致用户体验较差的技术问题,进而达到基于实体词库和实体识别模板对药学信息文本进行实体识别,提高实体识别的准确率和效率,提高实体识别的自动化程度,提升用户体验的技术效果。

31、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

本文档来自技高网...

【技术保护点】

1.一种实体识别方法,其特征在于,包括:

2.根据权利要求1所述的实体识别方法,其特征在于,在所述根据所述第一实体和所述实体类型,从实体识别模板集合中确定目标实体识别模板的步骤之前,所述方法还包括:

3.根据权利要求2所述的实体识别方法,其特征在于,所述根据所述第一实体和所述实体类型,从实体识别模板集合中确定目标实体识别模板;根据所述目标实体识别模板对所述药学信息文本进行识别处理,得到目标实体的步骤,包括:

4.根据权利要求2所述的实体识别方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的实体识别方法,其特征在于,在所述根据所述第一实体和所述实体类型,从实体识别模板集合中确定目标实体识别模板的步骤之前,所述方法还包括:

6.根据权利要求1所述的实体识别方法,其特征在于,在所述接收药学信息文本的步骤之前,所述方法还包括:

7.根据权利要求6所述的实体识别方法,其特征在于,所述方法还包括:

8.一种实体识别装置,其特征在于,包括:

9.一种实体识别的电子设备,其特征在于,包括:</p>

10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。

...

【技术特征摘要】

1.一种实体识别方法,其特征在于,包括:

2.根据权利要求1所述的实体识别方法,其特征在于,在所述根据所述第一实体和所述实体类型,从实体识别模板集合中确定目标实体识别模板的步骤之前,所述方法还包括:

3.根据权利要求2所述的实体识别方法,其特征在于,所述根据所述第一实体和所述实体类型,从实体识别模板集合中确定目标实体识别模板;根据所述目标实体识别模板对所述药学信息文本进行识别处理,得到目标实体的步骤,包括:

4.根据权利要求2所述的实体识别方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的实体识别方法...

【专利技术属性】
技术研发人员:张亚杨帅吴元清周谦
申请(专利权)人:北京京东拓先科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1