System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本检测模型的训练方法、文本检测方法及相关设备技术_技高网

文本检测模型的训练方法、文本检测方法及相关设备技术

技术编号:41202326 阅读:2 留言:0更新日期:2024-05-07 22:28
本申请提供一种文本检测模型的训练方法、文本检测方法及相关设备,文本检测模型的训练方法包括:获取训练样本集,并对训练样本集中的每个训练样本进行分值标注,得到每个训练样本的标注质量分值;通过待训练的文本检测模型得到每个训练样本的预测质量分值,其中,待训练的文本检测模型包括N个子文本检测模型,预测质量分值为对每个子文本检测模型的输出分值进行加权求和后得到的分值,N为大于1的整数;基于每个训练样本的预测质量分值和标注质量分值,计算损失值,并根据损失值调整待训练的文本检测模型,得到训练后的文本检测模型,以提高模型训练效果。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及到一种文本检测模型的训练方法、文本检测方法及相关设备


技术介绍

1、相关技术中,经常会需要对文本进行质量检测。例如,许多客户服务公司使用人工审核的方式来进行文本质量检测,以发现文本是否合规,但这种方式不仅耗费时间和人力,而且可能会遗漏一些细节。因此,自动化的文本质量检测已经成为客户服务领域的研究热点。常见的文本质量检测方法主要基于构建字典和规则匹配的方式进行检测,这种方法的效果受限于字典的质量和覆盖范围,容易出现文本质量检测准确性较差的情况。


技术实现思路

1、本申请实施例提供一种文本检测模型的训练方法、文本检测方法及相关设备,有利于提高文本质量检测准确性。

2、为了解决上述技术问题,本申请是这样实现的:

3、第一方面,本申请实施例提供了一种文本检测模型的训练方法,包括:

4、获取训练样本集,并对所述训练样本集中的每个训练样本进行分值标注,得到所述每个训练样本的标注质量分值;

5、通过待训练的文本检测模型得到所述每个训练样本的预测质量分值,其中,所述待训练的文本检测模型包括n个子文本检测模型,所述预测质量分值为对每个子文本检测模型的输出分值进行加权求和后得到的分值,n为大于1的整数;

6、基于所述每个训练样本的预测质量分值和标注质量分值,计算损失值,并根据所述损失值调整所述待训练的文本检测模型,得到训练后的文本检测模型。

7、可以看出,在本实施例中,获取训练样本集后,通过对训练样本集中文本进行分值标注,即可得到训练样本集中文本的标注质量分值,无需人工参与分值标注,可减少通过人工标注质量分值过程中由于标注人员主观性以及领域限制等,导致训练样本的标注质量分值准确性较低的情况发生,从而提高对训练样本集中训练样本进行质量分值标注的准确性,后续可利用训练样本集中每个训练样本的预测质量分值和标注质量分值,计算损失值,并根据所述损失值调整所述待训练的文本检测模型,得到训练后的文本检测模型,完成模型训练,以提高模型训练效果。

8、第二方面,本申请实施例还提供一种文本检测方法,包括:

9、获取对话文本;

10、通过训练后的文本检测模型中的n个子文本检测模型,对所述对话文本进文本检测,得到所述对话文本的n个质量分值;

11、对所述n个质量分值进行加权求和,得到所述对话文本的目标质量分值;

12、根据所述目标质量分值,确定所述对话文本的检测结果,其中,所述训练后的文件检测模型通过本申请实施例的文本检测模型的训练方法进行训练得到。

13、可以看出,在本申请实施例的文本检测过程中,可采用多个子文本检测模型分别对对话文本进行检测,得到对话文本的多个质量分值,对多个质量分值进行加权求和,实现对多个质量分值进行加权求和的融合,得到对话文本的目标质量分值,用以确定对话文本的检测结果,检测结果可以为检测通过或检测不通过。由于在这过程中,不但考虑对n个不同子文本检测模型的质量分值的融合,而且还考虑了不同子文本检测模型的权重,通过对n个质量分值进行加权求和获得目标质量分值,利用目标质量分值即可确定对话文本的检测结果,这样,可提高对文本检测的准确性。

14、第三方面,本申请实施例还提供一种文本检测模型的训练装置,包括:

15、第一获取模块,用于获取训练样本集;

16、标注模块,用于获取训练样本集,并对所述训练样本集中的每个训练样本进行分值标注,得到所述每个训练样本的标注质量分值;

17、第二获取模块,用于通过待训练的文本检测模型得到所述每个训练样本的预测质量分值,其中,所述待训练的文本检测模型包括n个子文本检测模型,所述预测质量分值为对每个子文本检测模型的输出分值进行加权求和后得到的分值,n为大于1的整数;

18、训练模块,用于基于所述每个训练样本的预测质量分值和标注质量分值,计算损失值,并根据所述损失值调整所述待训练的文本检测模型,得到训练后的文本检测模型。

19、第四方面,本申请实施例还提供一种文本检测装置,包括:

20、第三获取模块,用于获取对话文本;

21、检测模块,用于通过训练后的文本检测模型中的n个子文本检测模型,对所述对话文本进文本检测,得到所述对话文本的n个质量分值;

22、第四获取模块,用于对所述n个质量分值进行加权求和,得到所述对话文本的目标质量分值;

23、检测结果确定模块,用于根据所述目标质量分值,确定所述对话文本的检测结果,其中,所述训练后的文件检测模型通过本申请实施例的文本检测模型的训练方法进行训练得到。

24、第五方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的文本检测模型的训练方法中的步骤,或者实现上述第二方面的文本检测方法中的步骤。

25、第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的文本检测模型的训练方法中的步骤,或者实现上述第二方面的文本检测方法中的步骤。

本文档来自技高网...

【技术保护点】

1.一种文本检测模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述训练样本集中每个文本分别进行标注,获得所述训练样本集中每个文本的标注质量分值,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据分词结果中各个分词的分数,确定训练样本的第二质量分值,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述训练样本的初始质量分数进行归一化处理,得到所述训练样本的第二质量分值,包括:

5.根据权利要求2所述的方法,其特征在于,所述分词结果中各个分词的分数,通过如下步骤确定:

6.根据权利要求5所述的方法,其特征在于,所述预设的可调参数包括第一预设可调参数和第二预设可调参数;

7.一种文本检测方法,其特征在于,包括:

8.一种文本检测模型的训练装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文本检测模型的训练方法中的步骤,或者如权利要求7所述的文本检测方法中的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本检测模型的训练方法中的步骤,或者如权利要求7所述的文本检测方法中的步骤。

...

【技术特征摘要】

1.一种文本检测模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述训练样本集中每个文本分别进行标注,获得所述训练样本集中每个文本的标注质量分值,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据分词结果中各个分词的分数,确定训练样本的第二质量分值,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述训练样本的初始质量分数进行归一化处理,得到所述训练样本的第二质量分值,包括:

5.根据权利要求2所述的方法,其特征在于,所述分词结果中各个分词的分数,通过如下步骤确定:

6.根据权利要求5所述的方法,其特征在于,所述预设的可调参数包括第...

【专利技术属性】
技术研发人员:夏志超
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1