System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型训练和实体识别方法技术_技高网

一种模型训练和实体识别方法技术

技术编号:39969203 阅读:9 留言:0更新日期:2024-01-09 00:39
本申请公开了一种模型训练和实体识别方法,根据指定文本包含的实体缩略词在指定文本中的第一频次和各实体缩略词在通用语料库中的第二频次,确定各实体缩略词的参考指标,并以此从各实体缩略词中确定指定文本对应的目标缩略词,进而以指定文本为训练样本,以目标缩略词为标注,基于训练样本及其标注训练实体识别模型。基于实体缩略词在指定文本中的第一频次和实体缩略词在通用语料库中的第二频次确定训练样本的标注的方式,可实现自动挖掘缩略词的目的,无需人工标注,降低人力成本。并且,还可提高标注的准确性,进而提高实体识别模型的识别准确性。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种模型训练和实体识别方法


技术介绍

1、随着人工智能技术的发展,自然语言处理(natural language processing,nlp)受到了广泛的关注。其中,实体识别是nlp的一个重要组成部分,实体可以是人名、机构名、地名,更广泛的实体还包括数字、日期、货币、地址等。

2、目前,可以基于文本以及文本中实体词的标注训练实体识别模型,之后,根据训练后的实体识别模型对文本进行识别。

3、但在某些应用场景中,可能存在实体的全称的字数较多的情况。针对全称字数较多的实体,可以用缩略词代替实体的全称。例如,在设备维修记录中,用户为了提高记录效率,可以使用设备的缩略词代替设备的全称,将“低压加热器进汽电动门法兰渗油”记录为“低加进汽电动门法兰渗油”,这其中,“低加”即为全称词“低压加热器”的缩略词。由于在目前的实体识别模型的训练样本中,实体的缩略词的标注较少,导致实体识别模型在识别包含实体的缩略词的文本时,准确性较低。


技术实现思路

1、本申请提供一种模型训练和实体识别方法,以部分的解决现有技术存在的上述问题。

2、本申请采用下述技术方案:

3、本申请提供了一种模型训练方法,包括:

4、获取指定文本,并确定所述指定文本包含的各实体缩略词;

5、根据所述各实体缩略词在所述指定文本中的第一频次,以及所述各实体缩略词在通用语料库中的第二频次,分别确定所述各实体缩略词的参考指标;

6、根据所述各实体缩略词的参考指标,从所述各实体缩略词中确定所述指定文本对应的目标缩略词;

7、以所述指定文本作为训练样本,根据所述指定文本对应的目标缩略词,确定所述训练样本的标注;

8、根据所述训练样本和所述训练样本的标注,训练实体识别模型。

9、可选地,确定所述指定文本包含的各实体缩略词,具体包括:

10、获取目标树;其中,所述目标树基于多个实体全称词和各所述实体全称词分别对应的各参考缩略词构建得到;

11、将所述指定文本和所述目标树进行匹配,得到所述指定文本包含的各实体缩略词。

12、可选地,所述目标树的构建过程,具体包括:

13、根据各实体全称词包含的各字的排列顺序,以及各参考缩略词包含的各字的排列顺序,确定各节点的连接顺序;其中,所述各节点以所述各实体全称词包含的各字以及所述各参考缩略词包含的各字确定;

14、从所述各节点中确定目标节点,并根据所述各节点的连接顺序,确定所述目标节点的父节点和所述目标节点的子节点;

15、根据所述目标节点、所述目标节点的父节点和所述目标节点的子节点,构建目标树。

16、可选地,将所述指定文本和所述目标树进行匹配,得到所述指定文本包含的各实体缩略词,具体包括:

17、依次将所述指定文本包含的各字,与所述目标树的各节点进行匹配,确定所述指定文本在所述目标树中命中的目标路径;

18、根据所述目标路径上各节点对应的字,确定所述指定文本包含的各实体缩略词。

19、可选地,确定所述指定文本在所述目标树中命中的目标路径,具体包括:

20、依次将所述指定文本包含的各字,与所述目标树的各节点进行匹配,确定所述指定文本在所述目标树中命中的各路径;

21、确定所述指定文本在所述目标树中命中的各路径分别包含的节点数;

22、根据节点数大于预设阈值的路径,确定所述指定文本在所述目标树中命中的目标路径。

23、可选地,根据所述各实体缩略词在所述指定文本中的第一频次,以及所述各实体缩略词在通用语料库中的第二频次,分别确定所述各实体缩略词的参考指标,具体包括:

24、确定所述各实体缩略词分别对应的第一权重和至少一个第二权重;其中,所述第一权重为实体缩略词在对应的指定文本中的第一频次对应的权重,每一所述第二权重为实体缩略词在对应的通用语料库中的第二频次对应的权重;

25、根据所述第一权重和所述第二权重,对该实体缩略词在所述指定文本中第一频次以及该实体缩略词在通用语料库中第二频次加权求和,得到该实体缩略词的参考指标。

26、本申请提供了一种实体识别方法,包括:

27、获取实体识别请求;其中,所述实体识别请求对应于待识别文本;

28、利用实体识别模型得到所述待识别文本对应的实体缩略词;其中,所述实体识别模型基于上述的模型训练方法得到。

29、可选地,所述方法还包括:

30、响应于实体识别请求,将待识别文本与对应关系进行匹配;其中,所述对应关系用于表示指定文本的实体全称词和相对应的目标缩略词之间的关系;

31、响应于匹配到成功,将匹配到的目标缩略词作为所述待识别文本包含的实体缩略词;

32、所述利用所述实体识别模型得到所述待识别文本对应的实体缩略词,包括:

33、响应于匹配失败,将所述待识别文本输入训练完成的实体识别模型,得到所述实体识别模型输出的所述待识别文本包含的实体缩略词。

34、本申请提供了一种模型训练装置,包括:

35、第一获取模块,用于获取指定文本,并确定所述指定文本包含的各实体缩略词;

36、参考指标确定模块,用于根据所述各实体缩略词在所述指定文本中的第一频次,以及所述各实体缩略词在通用语料库中的第二频次,分别确定所述各实体缩略词的参考指标;

37、目标缩略词确定模块,用于根据所述各实体缩略词的参考指标,从所述各实体缩略词中确定所述指定文本对应的目标缩略词;

38、标注确定模块,用于以所述指定文本作为训练样本,根据所述指定文本对应的目标缩略词,确定所述训练样本的标注;

39、训练模块,用于根据所述训练样本和所述训练样本的标注,训练实体识别模型。

40、本申请提供了一种实体识别装置,包括:

41、请求获取模块,用于获取实体识别请求;其中,所述实体识别请求对应于待识别文本;

42、实体缩略词确定模块,用于利用实体识别模型得到所述待识别文本对应的实体缩略词;其中,所述实体识别模型基于上述的模型训练方法得到。

43、本申请提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练和实体识别方法。

44、本申请提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练和实体识别方法。

45、本申请采用的上述至少一个技术方案能够达到以下有益效果:

46、本申请提供的模型训练和实体识别方法中,根据指定文本包含的实体缩略词在指定文本中的第一频次和各实体缩略词在通用语料库中的第二频次,确定各实体缩略词的参考指标,根据各实体缩略词的参考指标,从各实体缩略词中本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,确定所述指定文本包含的各实体缩略词,具体包括:

3.如权利要求2所述的方法,其特征在于,所述目标树的构建过程,具体包括:

4.如权利要求2所述的方法,其特征在于,将所述指定文本和所述目标树进行匹配,得到所述指定文本包含的各实体缩略词,具体包括:

5.如权利要求4所述的方法,其特征在于,确定所述指定文本在所述目标树中命中的目标路径,具体包括:

6.如权利要求1所述的方法,其特征在于,根据所述各实体缩略词在所述指定文本中的第一频次,以及所述各实体缩略词在通用语料库中的第二频次,分别确定所述各实体缩略词的参考指标,具体包括:

7.一种实体识别方法,其特征在于,包括:

8.如权利要求7所述的方法,其特征在于,所述方法还包括:

9.一种模型训练装置,其特征在于,包括:

10.一种实体识别装置,其特征在于,包括:

11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~6或7~8任一项所述的方法。

12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~6或7~8任一项所述的方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,确定所述指定文本包含的各实体缩略词,具体包括:

3.如权利要求2所述的方法,其特征在于,所述目标树的构建过程,具体包括:

4.如权利要求2所述的方法,其特征在于,将所述指定文本和所述目标树进行匹配,得到所述指定文本包含的各实体缩略词,具体包括:

5.如权利要求4所述的方法,其特征在于,确定所述指定文本在所述目标树中命中的目标路径,具体包括:

6.如权利要求1所述的方法,其特征在于,根据所述各实体缩略词在所述指定文本中的第一频次,以及所述各实体缩略词在通用语料库中的第二频次,分别...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1