【技术实现步骤摘要】
变体字的获取方法及其装置
[0001]本公开涉及人工智能领域,尤其涉及自然语言处理领域,具体涉及一种变体字的获取方法及其装置。
技术介绍
[0002]随着互联网产品的快速发展,用户通过语言表达自己情感并上传到互联网的方式越来越多,留言、评论、弹幕等形式越来越丰富,用户往往会通过多音字、错别字、拼音缩写等方式来替代原有表达词,替代方式多种多样,这种表达方式被称为“变体字”。很多网上流行语言都是通过变体词产生的,例如“难受”与“蓝瘦”,利用好变体字,可以给网民带来上网体验的新鲜感、娱乐感,如何衍生出变体字就成为了新的难点。
技术实现思路
[0003]本公开提供了一种变体字的获取方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种变体字的获取方法,通过变体字的获取方法,包括:获取目标文字在多个特征维度下的目标特征数据,其中,多个特征维度至少包括发音维度、字形编码维度和音形衍生维度;获取候选文字集中每个候选文字在多个维度下的候选特征数据;获取目标特征数据与每个候选特征数据的相似度;根据相 ...
【技术保护点】
【技术特征摘要】
1.一种变体字的获取方法,包括:获取目标文字在多个特征维度下的目标特征数据,其中,所述多个特征维度至少包括发音维度、字形编码维度和音形衍生维度;获取候选文字集中每个候选文字在所述多个维度下的候选特征数据;获取所述目标特征数据与每个所述候选特征数据的相似度;根据所述相似度,从所述候选文字集中确定一个或多个目标候选文字,作为所述目标文字的变体字。2.根据权利要求1所述的方法,其中,所述从所述候选文字集中确定一个或多个目标候选文字作为所述目标文字的变体字之后,还包括:获取待进行变体的目标词组,其中,所述目标词组中包括所述目标文字;根据所述变体字对所述目标词组中的所述目标文字进行替换,获取变体后的变体词组。3.根据权利要求2所述的方法,其中,所述方法还包括:获取待监测文本,并在所述待监测文本中进行所述变体字和/或所述变体词组的全文对比,判断所述待监测文本中是否包括所述变体字和/或所述变体词组;响应于所述待监测文本中包括所述变体字和/或所述变体词组,发出告警指示。4.根据权利要求1或2所述的方法,其中,所述根据所述相似度,从所述候选文字集中确定一个或多个目标候选文字,作为所述目标文字的变体字,包括:将每个所述相似度与预设的相似度阈值进行对比,将大于或等于所述相似度阈值的所述相似度作为目标相似度;将所述目标相似度对应的所述候选文字作为所述变体字。5.根据权利要求4所述的方法,其中,所述相似度阈值的获取方法,包括:获取预先设置的校验样本集;获取所述相似度中与所述校验样本集中的每个校验文字对应的校验相似度;将数值最小的所述校验相似度作为所述相似度阈值。6.根据权利要求1或2所述的方法,其中,所述根据所述相似度,从所述候选文字集中确定一个或多个目标候选文字,作为所述目标文字的变体字,包括:按照从大到小的顺序对所述相似度进行排序,获取排序后生成的相似度序列;将所述相似度序列中排在前N个的所述相似度作为目标相似度;将所述目标相似度对应的所述候选文字作为所述变体字。7.根据权利要求1所述的方法,其中,所述方法还包括:确定每个所述特征维度所包括的子维度;针对所述目标文字和所述候选文字中的任一文字,获取所述任一文字在每个特征维度所包括的子维度上的第一特征数据;针对每个特征维度,根据该特征维度所包括的子维度上的第一特征数据,得到该特征维度上的第二特征数据;基于每个特征维度的所述第二特征数据,得到所述任一文字对应的特征数据。8.根据权利要求2所述的方法,其中,所述特征维度为发音维度时,所述方法还包括:针对所述目标文字和候选文字中任一文字,获取所述任一文字的标准话发音特征、多
音字发音特征、方言发音特征、前后鼻音特征和平卷舌发音特征中的一个或多个,以生成所述任一文字对应的发音特征数据。9.根据权利要求2所述的方法,其中,所述特征维度为字形编码维度时,所述方法还包括:针对所述目标文字和候选文字中任一文字,获取所述任一文字的笔顺编码特征、四角号码特征、五笔编码特征和仓颉编码特征中的一个或多个,以生成所述任一文字对应的字形编码特征数据。10.根据权利要求2所述的方法,其中,所述特征维度为音形衍生维度时,所述方法还包括:针对所述目标文字和候选文字中任一文字,获取所述任一文字的文字拆解特征、数字转换特征、拼音缩写特征和字音混合特征中的一个或多个,以生成所述任一文字对应的音形衍生特征数据。11.一种变体字的获取装置,包括:第一获取模块,用于获取目标文字在多个特征维度下的目标特征数据,其中,所述多个特征维度至少包括发音维度、字形编码维度和音形衍生维度;第二获取模块,用于获取候选文字集中每个候选文字在所述多个维度下的候选特征数据;第三获取模块,用于获取所述目标特征数据与每个所述候选特征数...
【专利技术属性】
技术研发人员:王鸣云,
申请(专利权)人:百度时代网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。