语句处理方法及装置制造方法及图纸

技术编号:32583477 阅读:11 留言:0更新日期:2022-03-09 17:15
本申请提供语句处理方法及装置,其中所述语句处理方法包括:获取包含错别字的待纠错语句;确定所述错别字对应的候选字,并基于所述候选字和所述待纠错语句生成候选语句;构建所述候选语句对应的前向语句特征和后向语句特征;将所述前向语句特征和所述后向语句特征输入至排序模块进行处理,根据处理结果确定所述待纠错语句对应的替换语句。待纠错语句对应的替换语句。待纠错语句对应的替换语句。

【技术实现步骤摘要】
语句处理方法及装置


[0001]本申请涉及文本处理
,特别涉及一种语句处理方法。本申请同时涉及一种语句处理装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,各种类型的文档都开始数据化,而文档纠错在各个场景中都是必不可少的一个环节,如在文章发布前,档案存储前,发送邮件前,都会涉及到对文档中文字进行纠错的功能,以此为基础对文档中的错别字进行识别,并通过对其修改的方式保证文档内容的正确性和连贯性。然而现有技术中在对文档中的错别字进行识别时,通常都是采用计算候选句子困惑度的方式,来对具有错别字的句子直接进行替换,以达到避免错别字破坏文档完整性的问题。然而这种方式并未考虑原句的信息,从用户的角度来讲无法保证纠错任务的准确率,候选句子出现概率更高并不能说明原句就一定是错的,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种语句处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种语句处理装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种语句处理方法,包括:
[0005]获取包含错别字的待纠错语句;
[0006]确定所述错别字对应的候选字,并基于所述候选字和所述待纠错语句生成候选语句;
[0007]构建所述候选语句对应的前向语句特征和后向语句特征;
[0008]将所述前向语句特征和所述后向语句特征输入至排序模块进行处理,根据处理结果确定所述待纠错语句对应的替换语句。
[0009]根据本申请实施例的第二方面,提供了一种语句处理装置,包括:
[0010]获取模块,被配置为获取包含错别字的待纠错语句;
[0011]确定模块,被配置为确定所述错别字对应的候选字,并基于所述候选字和所述待纠错语句生成候选语句;
[0012]构建模块,被配置为构建所述候选语句对应的前向语句特征和后向语句特征;
[0013]处理模块,被配置为将所述前向语句特征和所述后向语句特征输入至排序模块进行处理,根据处理结果确定所述待纠错语句对应的替换语句。
[0014]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0015]存储器和处理器;
[0016]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述语句处理方法的步骤。
[0017]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述语句处理方法的步骤。
[0018]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述语句处理方法的步骤。
[0019]本申请提供的语句处理方法,在获取到包含错别字的待纠错语句后,可以先确定错别字对应的候选字,并以此为基础结合待纠错语句生成候选语句,之后结合候选语句的整体特征构建前向语句特征和后向语句特征,并将其输入至排序模型进行处理,即可根据处理结果得到纠错较为精准的替换语句,实现在对待纠错语句进行纠错时,可以充分融合前后文结构与原始语句的信息,使得排序模型可以输出更加可靠的预测结果,从而保证纠错的精准度。
附图说明
[0020]图1是本申请一实施例提供的一种语句处理方法的流程图;
[0021]图2是本申请一实施例提供的一种语句处理方法的示意图;
[0022]图3是本申请一实施例提供的一种应用于文档纠错场景中的语句处理方法的处理流程图;
[0023]图4是本申请一实施例提供的一种语句处理装置的结构示意图;
[0024]图5是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0025]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0026]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0027]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0028]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0029]统计语言模型:NPL领域的基础模型,可用于判断一个句子出现的概率。
[0030]NLP:(Natural Language Processing,自然语言处理技术)是计算机科学领域与人工智能领域中的一个重要方向,它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学,旨在从文本数据中提取信息,目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。
[0031]ELECTRA:一种预训练的掩码语言模型(MLM),模型结构与BERT一致,但训练过程与
BERT存在一定的区别;其中,MLM作为生成器,其作用是为自动选择masked tokens提供一种有效的方法,实现ELECTRA可以快速学习到相应的预测能力。
[0032]GPT2:一种预训练的语言模型(LM),与统计语言模型一样适合判断一个句子出现的概率。
[0033]混淆集:纠错任务中用于寻找错字的候选集,包含每个字的同音字、形近字等。
[0034]困惑度:语言模型评价句子概率的指标,它的值越小,表明句子出现的概率越大。
[0035]BERT模型:(BidirectionalEncoder Representations from Transformer),是基于Transformer的双向编码器表征,BERT模型的根基就是Transformer,来源于attention is all you need。其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
[0036]N

gram模型:一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语句处理方法,其特征在于,包括:获取包含错别字的待纠错语句;确定所述错别字对应的候选字,并基于所述候选字和所述待纠错语句生成候选语句;构建所述候选语句对应的前向语句特征和后向语句特征;将所述前向语句特征和所述后向语句特征输入至排序模块进行处理,根据处理结果确定所述待纠错语句对应的替换语句。2.根据权利要求1所述的语句处理方法,其特征在于,所述获取包含错别字的待纠错语句,包括:获取待处理文本,并基于所述待处理文本构建字符序列;将所述字符序列输入至错别字检测模型进行处理,获得所述待处理文本中包含的错别字;在所述待处理文本中选择包含所述错别字的语句作为所述待纠错语句。3.根据权利要求1所述的语句处理方法,其特征在于,所述确定所述错别字对应的候选字,包括:将所述错别字输入至召回模型进行处理,获得所述错别字对应的多个初始候选字;基于预设的筛选策略,在所述多个初始候选字中筛选出所述错别字对应的所述候选字。4.根据权利要求3所述的语句处理方法,其特征在于,所述基于预设的筛选策略在所述多个初始候选字中筛选出所述错别字对应的所述候选字,包括:根据所述筛选策略确定筛选比例以及候选字混淆集;基于所述筛选比例在所述多个初始候选字中筛选设定数量的中间候选字;利用所述候选字混淆集对设定数量的所述中间候选字进行过滤,根据过滤结果获得所述候选字。5.根据权利要求1所述的语句处理方法,其特征在于,所述基于所述候选字和所述待纠错语句生成候选语句,包括:确定所述错别字在所述待纠错语句中的字符位置;利用所述候选字按照所述字符位置对所述待纠错语句进行更新,获得所述候选语句。6.根据权利要求1

5任意一项所述的语句处理方法,其特征在于,所述构建所述候选语句对应的前向语句特征,包括:根据所述候选字在所述候选语句中的位置对所述候选语句进行划分,获得候选前向语句;将所述待纠错语句与所述候选前向语句进行拼接,获得初始前向语句;在所述初始前向语句中添加语句标识,并基于添加语句标识的初始前向语句构建所述前向语句特征。7.根据权利要求1

5任意一项所述的语句处理方法,其特征在于,所述构建所述候选语句对应的后向语句特征,包括:对所述候选语句进行倒序处理,获得候选后向语句;根据所述候选字在所述候选后向语句中的位置对所述候选后向语句进行划分,获得目标候选后向语句;
将...

【专利技术属性】
技术研发人员:姬子明李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1