一种文本纠错方法、系统以及设备技术方案

技术编号:36693866 阅读:30 留言:0更新日期:2023-02-27 20:03
本发明专利技术公开了一种文本纠错方法、系统以及设备,文本纠错方法,包括:接收待纠错文本;对待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;对待纠错文本中表示情感的短语进行细粒度情感分析,获得短语的第一细粒度情感分类结果,第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;判断第一粗粒度情感分类结果与第一细粒度情感分类结果是否一致,获得一致性检测结果;若一致性检测结果为不一致,则将短语作为待纠错短语,对待纠错短语进行纠错,获得纠错后文本,并输出一致性检测结果和纠错后文本。本发明专利技术实现了文本的深层次的纠错机制,填补了技术空白。空白。空白。

【技术实现步骤摘要】
一种文本纠错方法、系统以及设备


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本纠错方法、系统以及设备。

技术介绍

[0002]随着信息技术的发展,我们已经进入一个数字化时代,越来越多的文稿以电子化的形式呈现,并且文稿的数量也呈爆炸式增长。对这些文稿进行校对与纠错将耗费大量的人力与时间。另一方面,得益文稿的电子化,人们可以利用文本自动纠错技术加快文本的校对与纠错速度,极大地提高工作效率。
[0003]文本纠错技术,或者说文本纠错系统的工作方式是,接收一段可能包含语法、词汇等各种错误文本,对它进行处理,定位其中可能存在的错误并进行纠正,将定位结果以及纠正结果返回并告知用户。
[0004]目前市面上的文本纠错方案主要聚焦于字词级别纠错(不限于:错别字纠错、语音转文字后文本纠错、OCR识别后文本纠错),以及语法级别的纠错(不限于:字词缺失、字词冗余、字词乱序、句式错误)、标点错误等。这些错误大多数情况下会导致句子不通顺,偶尔会引起句子歧义等情况。然而除了这些常见的错误类型,还有一类是由于错误使用成语、惯用语、俗语等短语本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:接收待纠错文本;对所述待纠错文本进行粗粒度情感分析,获得第一粗粒度情感分类结果;对所述待纠错文本中表示情感的短语进行细粒度情感分析,获得所述短语的第一细粒度情感分类结果,所述第一粗粒度情感分类结果和第一细粒度情感分类结果均包括正向情感和负向情感;判断所述第一粗粒度情感分类结果与所述第一细粒度情感分类结果是否一致,获得一致性检测结果;若所述一致性检测结果为不一致,则将所述短语作为待纠错短语。2.根据权利要求1所述的文本纠错方法,其特征在于,对所述待纠错文本分别进行粗粒度情感分析包括:对所述待纠错文本进行第一编码,获得第一编码序列,所述第一编码序列的第一个位置的向量表示代表所述待纠错文本的整体语义信息;对所述第一编码序列的第一个位置的向量表示进行情感分类,获得所述第一粗粒度情感分类结果。3.根据权利要求1所述的文本纠错方法,其特征在于,对所述待纠错文本分别进行细粒度情感分析包括:对所述待纠错文本进行第二编码,获得第二编码序列,所述待纠错文本中每个位置的短语对应所述第二编码序列中对应位置的向量表示;对表示情感的短语对应的向量表示进行情感分类,获得所述短语的第一细粒度情感分类结果。4.根据权利要求1所述的文本纠错方法,其特征在于,获得所述一致性检测结果,具体包括:计算所述第一粗粒度情感分类结果与所述第一细粒度情感分类结果之间的第一相似度;若所述第一相似度大于第一阈值,则所述一致性检测结果为一致;否则,所述一致性检测结果为不一致。5.根据权利要求1所述的文本纠错方法,其特征在于,还包括:对所述待纠错短语进行纠错,获得纠错后文本,并输出所述一致性检测结果和所述纠错后文本。6.根据权利要求5所述的文本纠错方法,其特征在于,对所述待纠错短语进行纠错,获得纠错后文本,具体包括:对所述待纠错短语和知识库中的所有库内短语进行第三编码,获得所述待纠错短语的第一语义表示和所述库内短语的第二语义表示,并计算所述第一语义表示与所有库内短语的第二语义表示之间的第二相似度;对所述待纠错短语和知识库中的所有库内短语进行第四编码,获得所述待纠错短语的第一情感表示和所述库内短语的第二情感表示,并计算所述第一情感表示与所有库内短语的第二情感表示之间的第三相似度;获得高于第二阈值的所有第二相似度,作为第四相似度,并且获得高于第三阈值的所
有第三相似度,作为第五相似度,并将所述第四相似度中的最高值和/或损失第五相似度中的最高值对应的库内短语作为纠正短语;将所述纠正短语和所述待纠错文本的组合作为所述纠错后文本。7.根据权利要求1

6中任一项所述的文本纠错方法,其特征在于,在粗粒度和细粒度情感分析之前,还包括:对所述待纠错文本进行分句,获得至少一个子句;并且,针对每个子句进行粗粒度情感分析、细粒度情感分析、一致性情感检测以及纠错。8.根据权利要求7所述的文本纠错方法,其特征在于,以转折词和并列词为最小划分单位对所述待纠错文本进行分句。9.根据权利要求4所述的文本纠错方法,其特征在于,利用一致性检测模型获得所述一致性检测结果;对所述一致性检测模型进行训练包括:对训练文本分别进行粗粒度情感分析和细粒度情感分析,获得第二粗粒度情感分类结果和所述训练文本中表示情感的短语的第二细粒度情感分类结果;将所有与所述第二粗粒度情感分类结果同向的第二细粒度情感分类结果对应的向量表示分为同向向量组,将所有与所述第二粗粒度情感分类结果...

【专利技术属性】
技术研发人员:杨子清崔一鸣王士进初征
申请(专利权)人:科大讯飞北京有限公司河北省讯飞人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1