词语的对齐方法、装置、电子设备及介质制造方法及图纸

技术编号:35701074 阅读:21 留言:0更新日期:2022-11-23 14:54
本申请公开了一种词语的对齐方法、装置、电子设备及介质,其方法包括:生成待对齐词语的拼音n

【技术实现步骤摘要】
词语的对齐方法、装置、电子设备及介质


[0001]本申请涉及数据处理领域,具体涉及一种词语的对齐方法、装置、电子设备及介质。

技术介绍

[0002]很多场景需要用到词语对齐技术,如检索、纠错等,传统的主流对齐模型通常采取多路召回的手段,如pipeline模型。以纠错为例,其大概流程为:先判断输入中是否有拼写错误,再根据不同拼写错误类型采取不同的算法分别进行召回,然后对这些错误类型进行纠正,由于错误类型非常多,如简拼、拼音错误、拼汉字混合、漏字、多字、颠倒、谐音、模糊音、混淆音、形近字等等,导致这种方式的召回工作量非常大、速度慢、效率低下;且准确性低、可扩张性差。

技术实现思路

[0003]本申请实施例针对上述情况,提出了一种词语的对齐方法、装置、电子设备及介质,本方法通过将对齐问题转化为谐音的n

gram特征召回问题以及字符匹配问题,将实体词预处理成拼音,再对匹配上的谐音词集合做精确字符匹配,从而达到显著提升对齐效率和内存管理水平。
[0004]第一方面,本申请实施例提供一种词语的对齐方法,所述方法包本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种词语的对齐方法,其特征在于,所述方法包括:生成待对齐词语的拼音n

gram特征表,所述拼音n

gram特征表包括多个源特征;对各所述源特征在预构建的实体词典中进行匹配,召回至少一个目标特征;将召回的至少一个目标特征映射到所述实体词典中的至少一个实体词;根据所述实体词与所述待对齐词语的相似度,确定与所述待对齐词语对齐的目标词语。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述待对齐词语与所述目标词语不一致,则根据所述目标词语对所述待对齐词语进行纠错。3.根据权利要求1或2所述的方法,其特征在于,所述实体词典是根据下述方法构建的:将预收录到所述实体词典中的各实体词转化为第一拼音词语;提取各所述第一拼音词语的二元以上的多个n

gram特征;对提取的全部n

gram特征进行去重处理;将具有同一个n

gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典;或者,将预收录到所述实体词典中的多个实体词按照相似度进行分组,得到多组实体词;将各组实体词中的的各实体词转化为第一拼音词语;提取各所述第一拼音词语的二元以上的多个n

gram特征;对提取的全部n

gram特征进行去重处理;将各组实体词中具有同一个n

gram特征的多个实体词,按照预设的数据结构存储,形成所述实体词典。4.根据权利要求1或2所述的方法,其特征在于,所述生成待对齐词语的拼音n

gram特征表,包括:将所述待对齐词语转化第一拼音词语;提取所述第一拼音词语的二元以上的多个n

gram特征;将提取的多个n

gram特征作为源特征,并按照字节数量由多到少降序排列为多行,每行包括一个源特征,得到所述待对齐词语的拼音n

gram特征表。5.根据权利要求4所述的方法,其特征在...

【专利技术属性】
技术研发人员:曹博聪
申请(专利权)人:康键信息技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1