System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种样本选择方法、样本选择系统、识别方法和识别系统技术方案_技高网

一种样本选择方法、样本选择系统、识别方法和识别系统技术方案

技术编号:40562188 阅读:7 留言:0更新日期:2024-03-05 19:25
本发明专利技术实施例提供一种样本选择方法、样本选择系统、识别方法和识别系统,涉及实体识别领域,该方法包括:将未标注样本输入初步实体识别模型对所述未标注样本内的实体进行推理识别,输出各未标注样本对应的推理结果;针对每条所述未标注样本对应的推理结果,基于概率分布差异的采样模型确定所述推理结果中的各类型实体的概率分布差异值;将所述概率分布差异值不低于阈值的所述未标注样本作为补充样本。采用基于概率分布差异的采样模型比较未标注样本与标注样本的实体类别的概率分布差异,概率分布差异值大的未标注样本作为补充样本再次训练实体识别模型的样本,最终的实体识别模型能够识别与补充样本中的实体类型相同的实体,提高了召回率。

【技术实现步骤摘要】

本专利技术涉及实体识别领域,具体涉及一种样本选择方法、样本选择系统、识别方法和识别系统


技术介绍

1、命名实体的识别任务具有高度挑战性,要求高准确率和召回率。因为深度学习模型具有数据驱动的上下文编码能力,已经成为命名实体识别任务的主流方法。基于深度学习的专业领域命名实体识别要达到较高的准确率和召回率,通常要收集大量专业领域标注数据,对模型进行充分的训练。然而,很多专业领域如金融、医疗、法律对数据的标注需要具备一定程度的专业知识,相比通用领域,获取数据和对数据的标注成本相对较高。现有就是中的采样策略普遍基于样本的最大长度、样本的识别概率等特征,包括随机采样策略、基于熵的采样策略、基于最低置信度的采样策略、边缘采样策略,主要关注的是已识别实体的准确率低的情况,无法解决召回率低的问题。

2、在实现本专利技术过程中,申请人发现现有技术中至少存在如下问题:在无法获得更多具有专业性的样本时,所训练得到的深度学习模型对专业性实体的识别召回率低,识别效果差。


技术实现思路

1、本专利技术实施例提供一种样本选择方法、样本选择系统、识别方法和识别系统,能够解决现有技术中在无法获得更多具有专业性的样本时,所训练得到的深度学习模型对专业性实体的识别召回率低,识别效果差的技术问题。

2、为达上述目的,第一方面,本专利技术实施例提供一种样本选择方法,包括:

3、推理实体:将未标注样本输入初步实体识别模型对未标注样本内的实体进行推理识别,输出各未标注样本对应的推理结果,推理结果包括:实体、实体类型、各实体的数量以及每种类型实体的数量;

4、计算概率分布差异:针对每条未标注样本对应的推理结果,基于概率分布差异的采样模型确定推理结果中的各类型实体的概率分布差异值;

5、更新标注样本集:将概率分布差异值不低于阈值的未标注样本作为补充样本;补充样本用于补充到标注样本集形成更新的标注样本集,更新的标注样本集用于再次训初步实体识别模型得到最终的实体识别模型。

6、第二方面,本专利技术实施例提供一种命名实体的识别方法,包括前述的样本选择方法;

7、该命名实体的识别方法,还包括:

8、标注样本:将人工标注后的补充样本,补充到标注样本集形成更新的标注样本集;

9、更新实体识别模型:采用更新的标注样本集内的所有标注样本训练初步实体识别模型,得到最终的实体识别模型;

10、实体识别:通过最终的实体识别模型识别待识别数据中的命名实体。

11、第三方面,本专利技术实施例提供一种样本选择系统,包括:

12、实体推理单元,用于将未标注样本输入初步实体识别模型对未标注样本内的实体进行推理识别,输出各未标注样本对应的推理结果,推理结果包括:实体、实体类型、各实体的数量以及每种类型实体的数量;

13、概率分布差异计算单元,用于针对每条未标注样本对应的推理结果,基于概率分布差异的采样模型确定推理结果中的各类型实体的概率分布差异值;

14、标注样本集更新单元:用于将概率分布差异值不低于阈值的未标注样本作为补充样本;补充样本用于补充到标注样本集形成更新的标注样本集,更新的标注样本集用于再次训初步实体识别模型得到最终的实体识别模型。

15、第四方面,本专利技术实施例提供一种命名实体的识别系统,包括前述的样本选择系统;

16、该命名实体的识别系统,还包括:

17、标注单元,用于将人工标注后的补充样本,补充到标注样本集形成更新的标注样本集;

18、实体识别模型训练单元,用于采用更新的标注样本集内的所有标注样本训练初步实体识别模型,得到最终的实体识别模型;

19、实体识别单元,用于通过最终的实体识别模型识别待识别数据中的命名实体。

20、第五方面,本专利技术实施例提供一种计算机可读存储介质,计算机可读存储介质存储一个或多个程序,一个或多个程序当被计算机设备执行时,使得计算机设备执行前述的样本选取方法。

21、第六方面,本专利技术实施例提供一种计算机设备,包括:

22、处理器;以及,被安排成存储计算机可执行指令的存储器,可执行指令在被执行时使处理器执行前述的样本选取方法。

23、上述技术方案具有如下有益效果:采用基于概率分布差异的采样模型,比较未标注样本与标注样本的实体类别的概率分布差异,来量化未标注样本的标注价值,将概率分布差异大的未标注样本选取为有标注价值的补充样本,来对标注样本集进行更新,更新的标注样本集用于作为再次训练实体识别模型的样本,最终的实体识别模型则能够识别与补充样本中的实体类型相同的实体,所以利用较少的样本就能取得较好的实体识别效果,提高了识别的召回率,召回效果好。

本文档来自技高网...

【技术保护点】

1.一种样本选择方法,其特征在于,包括:

2.根据权利要求1所述的样本选择方法,其特征在于,还包括:

3.根据权利要求2所述的样本选择方法,其特征在于,所述构建基于概率分布差异的采样模型,具体包括:

4.根据权利要求1所述的样本选择方法,其特征在于,还包括:

5.一种命名实体的识别方法,其特征在于,包括权利要求1-4任一所述的样本选择方法;

6.根据权利要求5所述的命名实体的识别方法,其特征在于,所述更新实体识别模型,具体包括:

7.一种样本选择系统,其特征在于,包括:

8.根据权利要求7所述的样本选择系统,其特征在于,还包括基于概率分布差异的采样模型的构建单元,所述基于概率分布差异的采样模型的构建单元用于:

9.根据权利要求8所述的样本选择系统,其特征在于,所述基于概率分布差异的采样模型的构建单元:

10.根据权利要求7所述的样本选择系统,其特征在于,还包括:

11.一种命名实体的识别系统,其特征在于,包括权利要求7-10任一所述的样本选择系统;

12.根据权利要求11所述的命名实体的识别系统,其特征在于,还包括测试单元,其中:

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被计算机设备执行时,使得所述计算机设备执行权利要求1-4中任意一项所述的样本选取方法。

14.一种计算机设备,其特征在于,包括:

...

【技术特征摘要】

1.一种样本选择方法,其特征在于,包括:

2.根据权利要求1所述的样本选择方法,其特征在于,还包括:

3.根据权利要求2所述的样本选择方法,其特征在于,所述构建基于概率分布差异的采样模型,具体包括:

4.根据权利要求1所述的样本选择方法,其特征在于,还包括:

5.一种命名实体的识别方法,其特征在于,包括权利要求1-4任一所述的样本选择方法;

6.根据权利要求5所述的命名实体的识别方法,其特征在于,所述更新实体识别模型,具体包括:

7.一种样本选择系统,其特征在于,包括:

8.根据权利要求7所述的样本选择系统,其特征在于,还包括基于概率分布差异的采样模型的构建单元,所述基于概率分...

【专利技术属性】
技术研发人员:陆瑾刘志伟王晓伟杨涛魏申平薛斌
申请(专利权)人:中国电子投资控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1