System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体涉及一种文本处理方法、装置、设备及介质。
技术介绍
1、文本纠错技术是自然语言处理领域检测文本信息中是否存在错别字、以及将错别字纠正过来的技术,常用作语音识别、光学字符识别等任务,从而对错误的文本进行检错及纠正。
2、随着人工智能技术的快速发展,文本纠错技术得到了广泛的应用。现有的文本纠错技术通常是语言模型对文本进行纠错,其中语言模型是通过大量的文本数据进行训练获得的。由于语言模型的训练数据中包括该行业的专业词汇较少,导致使用语言模型对某行业的文本信息进行纠错,出现误纠的情况。
3、因此,现有技术中的文本纠错方案的纠错准确率有待提升。
技术实现思路
1、本申请实施例提供一种文本处理方法、装置、设备及介质,用于降低文本纠错的误纠率,从而提高文本纠错的准确率。
2、第一方面,本申请提供一种文本处理方法,该方法包括:获取待处理的第一文本信息。根据预设的语言模型对第一文本信息进行处理,获得第一文本信息的文本流畅度。若第一文本信息的文本流畅度不满足第一阈值范围,则对第一文本信息进行文本纠错处理,获得第二文本信息,第一阈值范围为第一文本信息对应的行业的文本流畅度的范围。根据第一文本信息的文本流畅度和第二文本信息的文本流畅度,确定第一波动值,第二文本信息的文本流畅度是根据语言模型对第二文本信息进行处理获得的,波动值用于表征两个文本信息的文本流畅度的波动程度。根据第一波动值和预设的第二阈值范围,确定输出的文本信息,其中,若第一波动值满足第二
3、基于该方法,第一设备可以先确定第一文本信息的文本流畅度不在第一阈值范围内,再对第一文本信息进行文本纠错处理,从而避免对第一文本信息进行误纠。
4、进一步的,若第一波动值满足设定阈值,则说明对第一文本信息进行文本纠错的改动较低,则可以输出第二文本信息,否则输出第一文本信息,采用该方法可以降低对第一文本信息的误纠率,从而提高文本纠错的准确率。
5、在一种可实施的方式中,第一阈值范围是根据语言模型对第一文本信息对应的行业的多个文本信息进行处理获得的多个文本流畅度的范围。
6、通过该方式,由于多个文本信息对应的行业与第一文本信息对应的行业相同,则通过多个文本信息确定的第一阈值范围可以作为该行业的文本流畅度基准,从而准确的判断是否需要对第一文本信息进行文本纠错处理。
7、在一种可实施的方式中,根据第一文本信息对应的行业的标准词库包括的实体类型,获得第一文本信息中的待替换词,待替换词的实体类型与标准词库包括的实体类型相同。根据待替换词的实体类型,从标准词库中获取实体类型与待替换词的实体类型相同的替换词。根据替换词对第一文本信息中的待替换词进行替换,获得替换后的文本信息。根据第一文本信息的文本流畅度与替换后的文本信息的文本流畅度,确定第二波动值,替换后的文本信息的文本流畅度是根据语言模型对替换后的文本信息进行处理获得的。若第二波动值满足预设的第三阈值范围,则根据文本纠错模型对替换后的文本信息进行处理,获得第二文本信息。
8、通过该方式,当第二波动值满足设定阈值时,才对替换后的文本信息进行文本纠错处理,获得第二文本信息,从而可以降低后续对第一文本信息进行文本纠错的误纠率,提高文本纠错的准确率。
9、在一种可实施的方式中,标准词库是对第一文本信息对应的行业的多个标准文本信息进行实体抽取获得的。
10、在一种可实施的方式中,第一波动值满足:
11、w1=|pe1-pe2|/max(pe1,pe2)。
12、其中,w1表示为第一波动值,pe1表示为第一文本信息的文本流畅度,pe2表示为第二文本信息的文本流畅度,max表示为取最大值。
13、第二波动值满足:
14、w2=|pe1-pe3|/max(pe1,pe3)。
15、其中,w2表示为第二波动值,pe3表示为替换后的文本信息的文本流畅度。
16、第二方面,本申请提供一种文本处理装置,该装置包括通信模块和处理模块。其中,
17、通信模块,用于获取待处理的第一文本信息。处理模块,用于根据预设的语言模型对第一文本信息进行处理,获得第一文本信息的文本流畅度。若第一文本信息的文本流畅度不满足第一阈值范围,则处理模块,还用于对第一文本信息进行文本纠错处理,获得第二文本信息。处理模块,还用于根据第一文本信息的文本流畅度和第二文本信息的文本流畅度,确定第一波动值,第二文本信息的文本流畅度是根据语言模型对第二文本信息进行处理获得的,波动值用于表征两个文本信息的文本流畅度的波动程度。处理模块,还用于根据第一波动值和预设的第二阈值范围,确定输出的文本信息,其中,若第一波动值满足第二阈值范围,则输出第二文本信息,若第一波动值不满足第二阈值范围,则输出第一文本信息。
18、在一种可实施的方式中,第一阈值范围是根据语言模型对第一文本信息对应的行业的多个文本信息进行处理获得的多个文本流畅度的范围。
19、在一种可实施的方式中,处理模块具体用于:
20、根据第一文本信息对应的行业的标准词库包括的实体类型,获得第一文本信息中的待替换词,待替换词的实体类型与标准词库包括的实体类型相同。根据待替换词的实体类型,从标准词库中获取实体类型与待替换词的实体类型相同的替换词。根据替换词对第一文本信息中的待替换词进行替换,获得替换后的文本信息。根据第一文本信息的文本流畅度与替换后的文本信息的文本流畅度,确定第二波动值,替换后的文本信息的文本流畅度是根据语言模型对替换后的文本信息进行处理获得的。若第二波动值满足预设的第三阈值范围,则根据文本纠错模型对替换后的文本信息进行处理,获得第二文本信息。
21、在一种可实施的方式中,标准词库是对第一文本信息对应的行业的多个标准文本信息进行实体抽取获得的。
22、在一种可实施的方式中,第一波动值满足:
23、w1=|pe1-pe2|/max(pe1,pe2)。
24、其中,w1表示为第一波动值,pe1表示为第一文本信息的文本流畅度,pe2表示为第二文本信息的文本流畅度,max表示为取最大值。
25、第二波动值满足:
26、w2=|pe1-pe3|/max(pe1,pe3)。
27、其中,w2表示为第二波动值,pe3表示为替换后的文本信息的文本流畅度。
28、第三方面,本申请提供一种电子设备,包括:
29、存储器,用于存储程序指令;
30、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。
31、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时本文档来自技高网...
【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述第一阈值范围是根据所述语言模型对所述第一文本信息对应的行业的多个文本信息进行处理获得的多个文本流畅度的范围。
3.如权利要求1所述的方法,其特征在于,所述对所述第一文本信息进行文本纠错处理,获得第二文本信息,包括:
4.如权利要求3所述的方法,其特征在于,所述标准词库是对所述第一文本信息对应的行业的多个标准文本信息进行实体抽取获得的。
5.如权利要求3所述的方法,其特征在于,所述第一波动值满足:
6.一种文本处理装置,其特征在于,所述装置包括:
7.如权利要求6所述的装置,其特征在于,所述第一阈值范围是根据所述语言模型对所述第一文本信息对应的行业的多个文本信息进行处理获得的多个文本流畅度的范围。
8.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-5中任一项所述的方法。
...【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述第一阈值范围是根据所述语言模型对所述第一文本信息对应的行业的多个文本信息进行处理获得的多个文本流畅度的范围。
3.如权利要求1所述的方法,其特征在于,所述对所述第一文本信息进行文本纠错处理,获得第二文本信息,包括:
4.如权利要求3所述的方法,其特征在于,所述标准词库是对所述第一文本信息对应的行业的多个标准文本信息进行实体抽取获得的。
5.如权利要求3所述的方法,其特征在于,所述第一波动值满足:
6.一种文本处理装置,其特征在于,所述装置包括:
...
【专利技术属性】
技术研发人员:张阳,杨宝军,胡伯良,
申请(专利权)人:北京海泰方圆科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。