System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于工单内容的文本纠错方法技术_技高网

一种基于工单内容的文本纠错方法技术

技术编号:40497383 阅读:6 留言:0更新日期:2024-02-26 19:25
本发明专利技术公开了一种基于工单内容的文本纠错方法,使用改进的MacBert4csc方法对待纠错文本进行有效纠错,首先检错网络部分来预测文本语句中各个位置上发生错误的概率,并加入实体过滤部分减少误判率,然后纠错网络部分对纠错成功的位置上的字符进行纠正和替换,可以有效提高纠错的准确率,减少人工校验成本。热线网站用户填写诉求内容中增加文本纠错模块,对于用户输入内容根据标点符号切分成小短句,输入到文本纠错模型中,实时反馈输入错误情况,提示用户输入内容的正确性,并对纠错数据给出建议,帮助用户纠错,提高用户输入内容的正确性,有利于工单的后续处理。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,具体涉及一种基于工单内容的文本纠错方法


技术介绍

1、中文文本纠错是对中文文本进行自动错误检查,并实现自动纠错的一项重要技术。用户通过工单热线网站填写诉求内容时,由于用户输入太快或拼音前后鼻音输错等原因,很容易导致用户文字输入错误,导致后续工单处理时人工校验成本上升。因此通过自动纠错方法,找出用户输入内容中可能有的错字,并给出正确字建议,可以提升后续工单处理效率。

2、现有技术使用的文本纠错方法存在以下缺陷:一方面,传统的机器学习方法通过编辑距离计算词与词之间的相似度进行文本拼音纠错,借助于大规模的语料库,这个方法维护成本高,而且仅对拼音纠错准确率低;另一方面,基于注意力机制的端到端模型如soft-masked bert、macbert4csc等,虽然避免人工提取特征,减少工作量、准确率高,但是在实际应用中,容易对人名、地名、机构名等重要实体信息进行错误纠错,对工单处理造成重大影响,影响用户体验感。


技术实现思路

1、为了克服现有技术的不足,本专利技术提供了一种基于工单内容的文本纠错方法,通过改进的macbert4csc方法对工单诉求内容进行有效纠错,同时加入实体过滤模块,可以减少误判人名、地名、机构名等信息为错误的可能性,同时给出可以替换的正确字建议,由用户决定是否替换,提高用户的使用体验。本专利技术的技术方案如下:

2、一种基于工单内容的文本纠错方法,其特征在于,包括以下步骤:

3、步骤1,获取历史工单诉求内容即初始语料数据,通过人工标注得到纠错文本数据。

4、步骤2,对所述纠错文本数据,通过命名实体识别方法得到实体词典表。

5、步骤3,使用lac分词工具对所述纠错文本数据进行分词,使用停用词典删除无意义的词,使用tfidf计算权重,选取前75%,且字符数大于2的词作为高频词典;将初始语料数据划分为训练集和测试集,构建错误序列,生成“错字-正字”的映射对,用于模型的训练和测试。

6、优选的,构建错误序列的生成过程包括对文本语句中的高频词的部分字符进行替换、删字、增字的随机操作,操作字符个数不超过文本中字符总数的15%。

7、优选的,所述随机操作具体为:其中40%的字符根据音似词典进行替换,40%的字符使用形似词典进行替换,10%使用随机字符进行替换,5%进行删字操作,5%进行增字操作,删字操作不在开始和结尾处进行操作。

8、步骤4,将训练数据经macbert4csc预训练模型训练后得到训练结果,将所述训练结果经过softmax层计算loss,分成检错网络detaction层的lossdet和纠错网络的correction层losscor,加权得到最终的loss。

9、优选的,检错网络detaction层lossdet的加权系数设置为0.7,纠错网络的correction层losscor的加权系数设置为0.3。

10、优选的,在检错网络detaction层增加实体过滤层,步骤如下:

11、根据detaction层得到句子的错误标签:标签为1,表示为错字;标签为0,表示正确字;根据命名实体识别方法获取得到句子的实体标签;判断错误标签是否为实体标签的一部分:

12、若不是,则保持错误标签不动,直接进行下一阶段;

13、若是,则与实体词典表进行匹配:若匹配到相同的实体,则取消这个错误标签即标签改为0;若不是,则保持错误标签不动,直接进行下一阶段。

14、步骤5,将用户输入的数据分成短句,实时输入到训练好的纠错模型中,若检测到用户输入内容中存在错字,则进行画红线提示,并且用户点到红线附近会显示建议的正确字,由用户决定是否接受。

15、步骤6,将用户没选择建议意见的数据设为纠错错误数据,放入模型,进行迭代训练。

16、与现有技术相比,本专利技术的有益效果为:

17、1.提供了一种改进的macbert4csc文本纠错模型,在检错网络层加入了实体过滤部分,由于工单内容填写存在大量人名、地名、机构名等重要信息,这样做可以减少这些信息误判的可能性,提高用户体验感和工单处理效率。

18、2.纠错时考虑了缺字、增字、错字等错误类型,模拟实现了文本纠错过程中可能出现的各种情况。

19、3.热线网站用户填写诉求内容中增加文本纠错模块,对于用户输入内容根据标点符号切分成小短句,输入到文本纠错模型中,实时反馈输入错误情况,提示用户输入内容的正确性,并对纠错数据给出建议,帮助用户纠错,提高用户输入内容的正确性,有利于工单的后续处理。

本文档来自技高网...

【技术保护点】

1.一种基于工单内容的文本纠错方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于工单内容的文本纠错方法,其特征在于,步骤3中构建错误序列的生成过程包括对文本语句中的高频词的部分字符进行替换、删字、增字的随机操作,操作字符个数不超过文本中字符总数的15%。

3.根据权利要求2所述的一种基于工单内容的文本纠错方法,其特征在于,所述随机操作具体为:其中40%的字符根据音似词典进行替换,40%的字符使用形似词典进行替换,10%使用随机字符进行替换,5%进行删字操作,5%进行增字操作,删字操作不在开始和结尾处进行操作。

4.根据权利要求1所述的一种基于工单内容的文本纠错方法,其特征在于,步骤4计算loss的过程中检错网络detaction层lossdet的加权系数设置为0.7,纠错网络的correction层losscor的加权系数设置为0.3。

5.根据权利要求4所述的一种基于工单内容的文本纠错方法,其特征在于,在检错网络detaction层增加实体过滤层,步骤如下:

【技术特征摘要】

1.一种基于工单内容的文本纠错方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于工单内容的文本纠错方法,其特征在于,步骤3中构建错误序列的生成过程包括对文本语句中的高频词的部分字符进行替换、删字、增字的随机操作,操作字符个数不超过文本中字符总数的15%。

3.根据权利要求2所述的一种基于工单内容的文本纠错方法,其特征在于,所述随机操作具体为:其中40%的字符根据音似词典进行替换,40%的字符使用形似词典进行替换,10%使用随...

【专利技术属性】
技术研发人员:周洁琴周金明
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1