字符确定方法、装置及电子设备制造方法及图纸

技术编号:33450521 阅读:63 留言:0更新日期:2022-05-19 00:34
本公开提供了一种字符确定方法、装置及电子设备,涉及大数据技术领域,尤其涉及智能搜索技术领域,具体实现方案,包括:获取待识别字符;确定所述待识别字符对应的变形类别,所述变形类别与转换方式对应;根据所述变形类别对应的转换方式将所述待识别字符转换为候选词;在所述候选词的词频大于第一阈值的情况下,确定所述待识别字符为目标字符。定所述待识别字符为目标字符。定所述待识别字符为目标字符。

【技术实现步骤摘要】
字符确定方法、装置及电子设备


[0001]本公开涉及大数据
,尤其涉及智能搜索
,具体涉及一种字符确定方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的发展,一些用户常常采用变形字符来替代目标字符,而上述变形字符通常是对目标字符进行多种变形得到的字符,而当前对目标字符进行审查时,通常采用人工收集整理目标字符的变形字符来进行审查。

技术实现思路

[0003]本公开提供了一种字符确定方法、装置及电子设备。
[0004]根据本公开的第一方面,提供了一种字符确定方法,包括:
[0005]获取待识别字符;
[0006]确定所述待识别字符对应的变形类别,所述变形类别与转换方式对应;
[0007]根据所述变形类别对应的转换方式将所述待识别字符转换为候选词;
[0008]在所述候选词的词频大于第一阈值的情况下,确定所述待识别字符为目标字符。
[0009]根据本公开的第二方面,提供了一种字符确定装置,包括:
[0010]获取模块,用于获取待识别字符
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符确定方法,包括:获取待识别字符;确定所述待识别字符对应的变形类别,所述变形类别与转换方式对应;根据所述变形类别对应的转换方式将所述待识别字符转换为候选词;在所述候选词的词频大于第一阈值的情况下,确定所述待识别字符为目标字符。2.根据权利要求1所述的方法,其中,所述变形类别包括同音变形和字形变形中的至少一种。3.根据权利要求2所述的方法,其中,在所述待识别字符为待识别词,且所述变形类别包括同音变形的情况下,所述根据所述变形类别对应的转换方式将所述待识别字符转换为候选词,包括:确定所述待识别词的拼音;确定所述拼音对应的多个词组;采用预设算法从所述多个词组中确定所述候选词;其中,所述预设算法为预先训练的用于从所述多个词组中确定所述候选词的算法。4.根据权利要求2所述的方法,其中,在所述待识别字符为第一目标文本中的待识别字,所述变形类别包括字形变形的情况下,所述根据所述变形类别对应的转换方式将所述待识别字符转换为候选词,包括:对所述待识别字进行字形拆分,得到第一候选字;或者,从预先获取的多个字中确定第一候选字,所述第一候选字为所述多个字中字向量与所述待识别字的字向量的相似度最大的字;将所述第一候选字与第一目标字组合形成所述候选词,所述第一目标字为所述第一目标文本中与所述待识别字相邻的字。5.根据权利要求2所述的方法,其中,在所述待识别字符为第二目标文本中的待识别字,且所述变形类别包括同音变形和字形变形的情况下,所述根据所述变形类别对应的转换方式将所述待识别字符转换为候选词,包括:对所述待识别字进行字形拆分,得到第二候选字;或者,从预先获取的多个字中确定第二候选字,所述第二候选字为所述多个字中字向量与所述待识别字的字向量的相似度最大的字;将所述第二候选字与第二目标字组合形成待识别词,所述第二目标字为所述第二目标文本中与所述待识别字相邻的字;确定所述待识别词的拼音;确定所述拼音对应的多个词组;采用预设算法从所述多个词组中确定所述候选词;其中,所述预设算法为预先训练的用于从所述多个词组中确定所述候选词的算法。6.根据权利要求1至5中任一项所述的方法,还包括以下至少一项:将目标文本中词频小于第二阈值的字符确定为所述待识别字符;将所述目标文本中分词失败的字符确定为所述待识别字符。7.一种字符确定装置,包括:获取模块,用于获取待识别字符;
第一确定模块,用于确定所述待识别字符对应的变形类别,所述变形类别与转换方式对应;转换模块,用于根据所述变形类别对应的转换方式将所述待识别字符转换为候选词;第二确定模块,用于在所述候选词的词频大于第一阈值的情况下,确定所述待识别字符为目标字符。8.根据权利要求7所述的字符确定装置,其中,所述变形类别包括同音变形和字形变形中的至少一种。9...

【专利技术属性】
技术研发人员:黄英仁包沉浮王洋吕中厚高梦晗张华正田伟娟干逸显
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1