识别方法及装置制造方法及图纸

技术编号:37161211 阅读:13 留言:0更新日期:2023-04-06 22:26
本申请提供识别方法及装置,其中所述识别方法包括:获取待识别语句;将所述待识别语句输入至候选召回模型,通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列;在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,并基于所述目标候选字单元确定目标语句。标语句。标语句。

【技术实现步骤摘要】
识别方法及装置


[0001]本申请涉及机器学习
,特别涉及识别方法及装置。

技术介绍

[0002]随着互联网技术的发展,文档纠错在各个场景中都显得尤为重要。如在文章发布场景,档案存储场景,发送邮件场景,都会涉及到对文档中文字进行纠错的功能,以此为基础对文档中的错别字进行识别,并通过对错别字修改的方式保证文档内容的正确性和连贯性。然而现有技术中在对文档中的错别字进行识别时,通常都是采用计算候选句子困惑度的方式,来对具有错别字的句子进行替换,以达到避免错别字破坏文档完整性的问题。虽然能够达到修正的效果,但是上述方案仅考虑了语义信息,从用户的角度来讲无法保证纠错任务的准确率,很容易造成纠错后的语句含义与原语句含义表达不一致的问题发生,因此亟需一种有效的方案以解决上述问题。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种识别装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种识别方法,包括:
[0005]获取待识别语句;
[0006]将所述待识别语句输入至候选召回模型,通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列;
[0007]在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,并基于所述目标候选字单元确定目标语句。
[0008]可选地,所述获取待识别语句,包括:
[0009]获取待识别文本;
[0010]对所述待识别文本进行分句处理,获得至少一个初始待识别语句;
[0011]将各个初始待识别语句输入至识别模型进行处理,获得所述识别模型输出的语句识别结果;
[0012]根据所述语句识别结果在所述至少一个初始待识别语句中筛选出包含错字标签的目标识别语句,作为所述待识别语句;
[0013]其中,所述将所述待识别语句输入至候选召回模型,包括:
[0014]将包含所述错字标签的所述待识别语句输入至所述候选召回模型。
[0015]可选地,所述通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列,包括:
[0016]通过所述候选召回模型中的嵌入单元对所述待识别语句中的目标字单元进行处理,获得所述目标字单元对应所述语义维度的语义特征,以及对应所述音形维度的读音特
征和结构特征;
[0017]将所述语义特征、所述读音特征和所述结构特征进行融合,获得所述目标字单元对应的目标特征;
[0018]通过所述候选召回模型中的候选召回单元对所述目标特征进行处理,获得所述候选召回模型输出的所述目标字单元对应的候选字序列。
[0019]可选地,所述通过所述候选召回模型中的嵌入单元对所述待识别语句中的目标字单元进行处理,获得对应所述语义维度的语义特征,以及对应所述音形维度的读音特征和结构特征,包括:
[0020]通过所述嵌入单元中的语义处理单元对所述待识别语句进行处理,获得所述目标字单元对应的语义特征;
[0021]通过所述嵌入单元中的读音处理单元对所述目标字单元进行处理,获得所述目标字单元对应的读音特征;
[0022]通过所述嵌入单元中的结构处理单元对所述目标字单元进行处理,获得所述目标字单元对应的结构特征。
[0023]可选地,所述通过所述嵌入单元中的读音处理单元对所述目标字单元进行处理,获得所述目标字单元对应的读音特征,包括:
[0024]通过所述读音处理单元对所述目标字单元对应的音素序列进行拆分,获得基础音素和辅助音素;
[0025]构建所述基础音素对应的基础音素特征,以及所述辅助音素对应的辅助音素特征;
[0026]将所述基础音素特征和所述辅助音素特征进行融合,获得所述读音特征。
[0027]可选地,所述在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,包括:
[0028]对所述候选字序列中包含的候选字单元进行排序,根据排序结果选择设定数量的候选字单元组成第一候选字序列;
[0029]检测所述第一候选字序列中是否包含所述目标字单元;
[0030]若是,在所述第一候选字序列中筛选出所述目标字单元对应的所述目标候选字单元。
[0031]可选地,所述检测所述第一候选字序列中是否包含所述目标字单元的检测结果为否,则执行如下步骤:
[0032]根据预设的字典对所述候选字序列进行过滤,获得第二候选字序列;
[0033]在所述第二候选字序列中筛选所述目标字单元对应的所述目标候选字单元。
[0034]可选地,所述在所述第二候选字序列中筛选所述目标字单元对应的所述目标候选字单元,包括:
[0035]利用所述第二候选字序列中包含的候选字单元对所述待识别语句进行更新,获得多个候选语句;
[0036]将各个候选语句分别输入至打分模型进行处理,获得各个候选语句对应的候选分值;
[0037]基于所述候选分值在所述多个候选语句中筛选出目标候选语句,并将所述目标候
选语句中包含的候选字单元作为所述目标候选字单元。
[0038]可选地,所述基于所述目标候选字单元确定目标语句,包括:
[0039]确定所述目标字单元在所述待识别语句中的字符位置;
[0040]基于所述目标候选字单元对所述字符位置的所述目标字单元进行替换,获得所述目标语句。
[0041]可选地,所述候选召回模型通过如下方式训练:
[0042]获取样本语句以及所述样本语句对应的语句属性信息;
[0043]基于所述语句属性信息构建对应所述语义维度的样本语义特征,以及构建对应所述音形维度的样本音形特征;
[0044]将所述样本语义特征和所述样本音形特征进行融合,获得所述样本语句对应的样本特征;
[0045]将所述样本特征输入至初始候选召回模型进行处理,获得所述样本语句中的错别字对应的预测候选字序列;
[0046]根据所述错别字对应的样本候选字序列和所述预测候选字序列对所述初始候选召回模型进行优化,直至获得满足训练停止条件的所述候选召回模型。
[0047]根据本申请实施例的第二方面,提供了一种识别装置,包括:
[0048]获取模块,被配置为获取待识别语句;
[0049]处理模块,被配置为将所述待识别语句输入至候选召回模型,通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列;
[0050]生成模块,被配置为在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,并基于所述目标候选字单元确定目标语句。
[0051]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0052]存储器和处理器;
[0053]所述存储器用于存储计算机可执行指令,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别方法,其特征在于,包括:获取待识别语句;将所述待识别语句输入至候选召回模型,通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列;在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,并基于所述目标候选字单元确定目标语句。2.根据权利要求1所述的识别方法,其特征在于,所述获取待识别语句,包括:获取待识别文本;对所述待识别文本进行分句处理,获得至少一个初始待识别语句;将各个初始待识别语句输入至识别模型进行处理,获得所述识别模型输出的语句识别结果;根据所述语句识别结果在所述至少一个初始待识别语句中筛选出包含错字标签的目标识别语句,作为所述待识别语句;其中,所述将所述待识别语句输入至候选召回模型,包括:将包含所述错字标签的所述待识别语句输入至所述候选召回模型。3.根据权利要求1所述的识别方法,其特征在于,所述通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列,包括:通过所述候选召回模型中的嵌入单元对所述待识别语句中的目标字单元进行处理,获得所述目标字单元对应所述语义维度的语义特征,以及对应所述音形维度的读音特征和结构特征;将所述语义特征、所述读音特征和所述结构特征进行融合,获得所述目标字单元对应的目标特征;通过所述候选召回模型中的候选召回单元对所述目标特征进行处理,获得所述候选召回模型输出的所述目标字单元对应的候选字序列。4.根据权利要求3所述的识别方法,其特征在于,所述通过所述候选召回模型中的嵌入单元对所述待识别语句中的目标字单元进行处理,获得对应所述语义维度的语义特征,以及对应所述音形维度的读音特征和结构特征,包括:通过所述嵌入单元中的语义处理单元对所述待识别语句进行处理,获得所述目标字单元对应的语义特征;通过所述嵌入单元中的读音处理单元对所述目标字单元进行处理,获得所述目标字单元对应的读音特征;通过所述嵌入单元中的结构处理单元对所述目标字单元进行处理,获得所述目标字单元对应的结构特征。5.根据权利要求4所述的识别方法,其特征在于,所述通过所述嵌入单元中的读音处理单元对所述目标字单元进行处理,获得所述目标字单元对应的读音特征,包括:通过所述读音处理单元对所述目标字单元对应的音素序列进行拆分,获得基础音素和辅助音素;构建所述基础音素对应的基础音素特征,以及所述辅助音素对应的辅助音素特征;将所述基础音素特征和所述辅助音素特征进行融合,获得所述读音特征。
6.根据权利要求1所述的识别方法,其特征在于,所述在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,包括:对所述候选字序列中包含的候选字单元进行排序,根据排序结果选择设定数量的候选...

【专利技术属性】
技术研发人员:李长亮姬子明周安桥
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1