【技术实现步骤摘要】
识别方法及装置
[0001]本申请涉及机器学习
,特别涉及识别方法及装置。
技术介绍
[0002]随着互联网技术的发展,文档纠错在各个场景中都显得尤为重要。如在文章发布场景,档案存储场景,发送邮件场景,都会涉及到对文档中文字进行纠错的功能,以此为基础对文档中的错别字进行识别,并通过对错别字修改的方式保证文档内容的正确性和连贯性。然而现有技术中在对文档中的错别字进行识别时,通常都是采用计算候选句子困惑度的方式,来对具有错别字的句子进行替换,以达到避免错别字破坏文档完整性的问题。虽然能够达到修正的效果,但是上述方案仅考虑了语义信息,从用户的角度来讲无法保证纠错任务的准确率,很容易造成纠错后的语句含义与原语句含义表达不一致的问题发生,因此亟需一种有效的方案以解决上述问题。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种识别装置,一种计算设备,以及一种计算机可读存储介质。
[0004]根据本申请实施例的第一方面,提供了一种识别方法,包括:
[0005]获取待识别语句;
[0006]将所述待识别语句输入至候选召回模型,通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列;
[0007]在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,并基于所述目标候选字单元确定目标语句。
[0008]可选地,所述获取待识别语句,包括:
[00 ...
【技术保护点】
【技术特征摘要】
1.一种识别方法,其特征在于,包括:获取待识别语句;将所述待识别语句输入至候选召回模型,通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列;在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,并基于所述目标候选字单元确定目标语句。2.根据权利要求1所述的识别方法,其特征在于,所述获取待识别语句,包括:获取待识别文本;对所述待识别文本进行分句处理,获得至少一个初始待识别语句;将各个初始待识别语句输入至识别模型进行处理,获得所述识别模型输出的语句识别结果;根据所述语句识别结果在所述至少一个初始待识别语句中筛选出包含错字标签的目标识别语句,作为所述待识别语句;其中,所述将所述待识别语句输入至候选召回模型,包括:将包含所述错字标签的所述待识别语句输入至所述候选召回模型。3.根据权利要求1所述的识别方法,其特征在于,所述通过语义维度和音形维度对所述待识别语句进行识别,获得所述待识别语句中的目标字单元对应的候选字序列,包括:通过所述候选召回模型中的嵌入单元对所述待识别语句中的目标字单元进行处理,获得所述目标字单元对应所述语义维度的语义特征,以及对应所述音形维度的读音特征和结构特征;将所述语义特征、所述读音特征和所述结构特征进行融合,获得所述目标字单元对应的目标特征;通过所述候选召回模型中的候选召回单元对所述目标特征进行处理,获得所述候选召回模型输出的所述目标字单元对应的候选字序列。4.根据权利要求3所述的识别方法,其特征在于,所述通过所述候选召回模型中的嵌入单元对所述待识别语句中的目标字单元进行处理,获得对应所述语义维度的语义特征,以及对应所述音形维度的读音特征和结构特征,包括:通过所述嵌入单元中的语义处理单元对所述待识别语句进行处理,获得所述目标字单元对应的语义特征;通过所述嵌入单元中的读音处理单元对所述目标字单元进行处理,获得所述目标字单元对应的读音特征;通过所述嵌入单元中的结构处理单元对所述目标字单元进行处理,获得所述目标字单元对应的结构特征。5.根据权利要求4所述的识别方法,其特征在于,所述通过所述嵌入单元中的读音处理单元对所述目标字单元进行处理,获得所述目标字单元对应的读音特征,包括:通过所述读音处理单元对所述目标字单元对应的音素序列进行拆分,获得基础音素和辅助音素;构建所述基础音素对应的基础音素特征,以及所述辅助音素对应的辅助音素特征;将所述基础音素特征和所述辅助音素特征进行融合,获得所述读音特征。
6.根据权利要求1所述的识别方法,其特征在于,所述在所述候选字序列中筛选出所述目标字单元对应的目标候选字单元,包括:对所述候选字序列中包含的候选字单元进行排序,根据排序结果选择设定数量的候选...
【专利技术属性】
技术研发人员:李长亮,姬子明,周安桥,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。