【技术实现步骤摘要】
语法纠错方法及装置
[0001]本申请实施例涉及人工智能领域以及自然语言生成领域,尤其涉及一种语法纠错方法及装置。
技术介绍
[0002]语言是必不可少的沟通手段,但是由于语言本身的复杂性,翻译人员或翻译软件往往难以避免会出现错误,影响语义表达的准确性。因此,在语言翻译过程中,为了进行检错和纠错,需要利用算法模型对输入语言进行自然语言处理,但是在自然语言处理过程中又难免会引入新的错误,如语法错误。
[0003]基于此,语法纠错(grammatical error correction,GEC)领域发展成为研究热点和难点。其中,基于序列到序列(sequence to sequence,seq2seq)的策略逐渐成为主流策略,seq2seq策略能够对一般语法错误进行检错和纠错。
[0004]但是,由于语法错误的多样性和随机性,现有语法纠错策略并不能高效充分的进行语法纠错,导致语法纠错效果不理想。
技术实现思路
[0005]本申请实施例提供的语法纠错方法及装置,能够利用输入文本的特征对输入文本进行语法纠错,提升语法纠错效果。并且,将特征和输入文本并行进行编码,有效提高语法纠错效率。
[0006]为达到上述目的,本申请实施例采用如下技术方案:
[0007]第一方面,本申请实施例提供一种语法纠错方法,该方法可以包括:获取输入文本,以及获取输入文本的特征。对特征执行第一编码过程,获得第一编码向量,并对输入文本执行第二编码过程,获得第二编码向量;第一编码过程和第二编码过程并行。利用第 ...
【技术保护点】
【技术特征摘要】
1.一种语法纠错方法,其特征在于,所述方法包括:获取输入文本,以及获取所述输入文本的特征;对所述特征执行第一编码过程,获得第一编码向量,并对所述输入文本执行第二编码过程,获得第二编码向量;所述第一编码过程和所述第二编码过程并行;利用所述第一编码向量和所述第二编码向量,获得输入文本向量;对所述输入文本向量进行解码,输出解码后的输出文本。2.根据权利要求1所述的方法,其特征在于,所述利用所述第一编码向量和所述第二编码向量,获得输入文本向量,包括:获得所述第二编码向量中每一词向量与所述第一编码向量中的特征向量对应的权重,基于所述权重,获得所述输入文本向量。3.根据权利要求2所述的方法,其特征在于,所述第一编码向量与所述第二编码向量相对应;所述获得所述第二编码向量中每一词向量与所述第一编码向量中的特征向量对应的权重,包括:确定第一时刻时,所述第二编码向量中的第一词向量在所述第一编码向量中对应的第一特征向量;所述第一编码向量包含第一部分特征向量和第二部分特征向量,所述第一部分特征向量包含所述第一特征向量,所述第二部分特征向量不包含所述第一特征向量;获得所述第一词向量与所述第一部分特征向量中每一特征向量对应的第一权重,以及获得所述第一词向量与所述第二部分特征向量中按照预设规则抽取的特征向量对应的第二权重。4.根据权利要求1
‑
3任一项所述的方法,其特征在于,所述获取所述输入文本的特征,包括:根据所述输入文本对应的应用场景,利用第一知识库,获取所述输入文本在所述应用场景中对应的特征。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述对所述特征执行第一编码过程,获得第一编码向量,包括:基于transformer编码模型,在所述第一编码过程中,对所述特征中的每一特征进行编码,获得所述第一编码向量;或者,基于知识图谱,在所述第一编码过程中,建立所述输入文本中目标单词或目标文本片段与所述知识图谱中对应的语义信息的映射关系,获得所述第一编码向量。6.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述对所述输入文本执行第二编码过程,获得第二编码向量,包括:基于transformer编码模型,在所述第二编码过程中,对所述输入文本进行词语切分后,对切分后的每一词语进行编码,获得所述第二编码向量。7.一种语法纠错装置,其特征在于,包括:处理器和存储器,所述存储器与所述处理器耦合,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,当所述处理器从所述存储器中读取所述计算机指令,使得所述语法纠错装置执行如下操作:获取输入文本,以及获取所述输入文本的特征;对所...
【专利技术属性】
技术研发人员:刘杰,王笑,张穗云,张晴,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。