一种汉语拼音的拆分的方法、装置制造方法及图纸

技术编号:21088682 阅读:55 留言:0更新日期:2019-05-11 09:39
本发明专利技术公开了一种汉语拼音的拆分的方法、装置,所述方法包括:获取待拆分拼音数据;对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据;将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据;对所述目标标准拼音数据进行拆分,将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。

【技术实现步骤摘要】
一种汉语拼音的拆分的方法、装置
本专利技术涉及信息检索技术,尤其涉及一种汉语拼音的拆分的方法、装置。
技术介绍
在应用搜索中,汉语拼音搜索是常见的搜索方式。例如,用户输入liudehuawangqingshui,目的是搜索刘德华演唱的忘情水。这时候,需要能拆分出liudehua和wangqingshui两个实体。同时拼音输入相比较汉字输入更容易输入错误,且存在多音字问题,而目前技术只允许在用户的输入完全正确时才能正确拆分,如果存在输入错误,则无法拆分,而现实情况中,拼音输入错误的情况普遍存在;另外,现有技术采用对拼音数据直接进行拆分,致使拆分效率较低。
技术实现思路
为解决上述技术问题,本专利技术实施例提供了一种汉语拼音的拆分的方法、装置。本专利技术实施例提供的一种汉语拼音拆分的方法,包括:获取待拆分拼音数据;对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据;将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据;对所述目标标准拼音数据进行拆分,将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。其中,所述对所述目标标准拼音数据进行拆分,包括:在所述目标标准拼音数据中的标记符号的所在位置处,对所述目标标准拼音数据进行拆分。其中,所述方法还包括:获取汉语语料数据;对所述汉语语料数据进行预处理,得到所述标准拼音数据。其中,所述预处理包括:将所述汉语语料数据进行归一化处理,得到归一化汉语语料数据;对所述归一化汉语语料数据进行汉字转拼音处理,得到归一化拼音数据;基于所述归一化拼音数据,生成标准拼音数据。其中,所述归一化处理包括:将所述汉语语料数据中的繁体字转换为简体字,和/或将所述汉语语料数据中的字符状态由全角转为半角,和/或删除所述汉语语料数据中的括号以及括号中的内容,和/或删除所述汉语语料数据中的各类符号以及空格。其中,所述基于所述归一化拼音数据,生成标准拼音数据包括:在所述归一化拼音数据待拆分的位置插入标记符号,得到所述标准拼音数据。其中,所述归一化拼音数据待拆分的位置包括:所述归一化拼音数据中所属类别不同的拼音数据之间,或根据拆分需求确定的位置。其中,所述基于所述归一化拼音数据,生成标准拼音数据包括:组合至少两个归一化拼音数据,得到所述标准拼音数据;其中,在所述标准拼音数据中不同的归一化拼音数据之间插入有标记符号。其中所述方法还包括:基于所述目标标准拼音数据,对所述待拆分拼音数据中存在的拼写错误进行纠正。本专利技术实施例提供的一种汉语拼音拆分的装置,包括:获取模块,用于获取待拆分拼音数据;归一化处理模块,用于对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据;相似度匹配模块,用于将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据;拆分模块,用于对所述目标标准拼音数据进行拆分,将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。其中,在所述拆分模块中,所述对所述目标标准拼音数据进行拆分,包括:在所述目标标准拼音数据中的标记符号的所在位置处,对所述目标标准拼音数据进行拆分。其中,所述装置还包括:汉语语料数据获取模块和预处理模块所述汉语语料数据获取模块,用于获取汉语语料数据;所述预处理模块,用于对所述汉语语料数据进行预处理,得到所述标准拼音数据。其中,所述预处理模块中,所述预处理包括:将所述汉语语料数据进行归一化处理,得到归一化汉语语料数据;对所述归一化汉语语料数据进行汉字转拼音处理,得到归一化拼音数据;基于所述归一化拼音数据,生成标准拼音数据。其中,所述预处理模块中,所述归一化处理包括:将所述汉语语料数据中的繁体字转换为简体字,和/或将所述汉语语料数据中的字符状态由全角转为半角,和/或删除所述汉语语料数据中的括号以及括号中的内容,和/或删除所述汉语语料数据中的各类符号以及空格。其中,所述预处理模块中,所述基于所述归一化拼音数据,生成标准拼音数据包括:在所述归一化拼音数据待拆分的位置插入标记符号,得到所述标准拼音数据。其中,所述预处理模块中,所述归一化拼音数据待拆分的位置包括:所述归一化拼音数据中所属类别不同的拼音数据之间,或根据拆分需求确定的位置。其中,所述预处理模块中,所述基于所述归一化拼音数据,生成标准拼音数据包括:组合至少两个归一化拼音数据,得到所述标准拼音数据;其中,在所述标准拼音数据中不同的归一化拼音数据之间插入有标记符号。其中,所述装置还包括:拼写错误纠正模块,用于基于所述目标标准拼音数据,对所述待拆分拼音数据中存在的拼写错误进行纠正。本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述汉语拼音拆分的方法中任一项步骤。本专利技术实施例的技术方案中,获取待拆分拼音数据;对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据;将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据;对所述目标标准拼音数据进行拆分,将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。如此,将对待拆分拼音数据的拆分最后转化为对目标标准拼音数据的拆分,即使待拆分拼音数据中有输入错误,也可以完成拆分过程,通过;另外,通过将对待拆分拼音数据的拆分转化为对目标标准拼音数据的拆分,提高了拆分效率。附图说明附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例;图1为本专利技术实施例的一种汉语拼音拆分的方法的流程示意图;图2为本专利技术实施例的一种基于N-Gram相似度算法的拆分结果返回示意图;图3为本专利技术实施例的一种汉语拼音拆分的装置的结构示意图;图4为本专利技术实施例的一种汉语拼音拆分的装置的结构示意图。具体实施方式为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本专利技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术实施例。图1为本专利技术实施例的一种汉语拼音拆分的方法的流程示意图,如图1所示,所述汉语拼音拆分的方法包括以下步骤:步骤101:获取待拆分拼音数据。在检索的场景下,这里的待拆分拼音数据可以是用户输入的拼音检索词。例如:在音频、视频APP应用场景中,用户通常会在搜索框中输入拼音检索词进行音视频的搜索,此时该拼音检索词为对待拆分拼音数据。步骤102:对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据。这里的归一化处理可以包括:将繁体字转换为简体字,和/或将字符状态由全角转为半角,和/或删除括号以及括号中的内容,比如:待拆分拼音数据为夜曲(中国好声音),归一化处理后为夜曲;和/或删除各类符号以及空格等。步骤103:将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据。在一个实施例中,所述方法还包括:获取汉语语料数据;对所述汉语语料数据进行预处理,得到所述标准拼音数据。这里的汉语语料数据可以是业务(如用户检索或其他业务)过程中生成的汉语语料数据,比如,用户通过汉语检索词进行检索,可以将该汉语检索词作为汉语语料数据。在一个实施例中,所述预处理包括:将所述汉语语料数据进行归一化处理,得到归一化汉语语料数据;对本文档来自技高网
...

【技术保护点】
1.一种汉语拼音拆分的方法,其特征在于,所述方法包括:获取待拆分拼音数据;对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据;将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据;对所述目标标准拼音数据进行拆分,将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。

【技术特征摘要】
1.一种汉语拼音拆分的方法,其特征在于,所述方法包括:获取待拆分拼音数据;对所述待拆分拼音数据进行归一化处理,得到归一化拼音数据;将所述归一化拼音数据与标准拼音数据进行相似度匹配,确定与所述归一化拼音数据相似度最高的目标标准拼音数据;对所述目标标准拼音数据进行拆分,将得到的目标标准拼音数据的拆分结果作为所述待拆分拼音数据的拆分结果。2.根据权利要求1所述的汉语拼音拆分的方法,其特征在于,所述对所述目标标准拼音数据进行拆分,包括:在所述目标标准拼音数据中的标记符号的所在位置处,对所述目标标准拼音数据进行拆分。3.根据权利要求1所述的汉语拼音拆分的方法,其特征在于,所述方法还包括:获取汉语语料数据;对所述汉语语料数据进行预处理,得到所述标准拼音数据。4.根据权利要求3所述的汉语拼音拆分的方法,其特征在于,所述预处理包括:将所述汉语语料数据进行归一化处理,得到归一化汉语语料数据;对所述归一化汉语语料数据进行汉字转拼音处理,得到归一化拼音数据;基于所述归一化拼音数据,生成标准拼音数据。5.根据权利要求4所述的汉语拼音的拆分的方法,其特征在于,所述归一化处理包括:将所述汉语语料数据中的繁体字转换为简体字,和/或将所述汉语语料数据中的字符状态由全角转为半角,和/或删除所述汉语语料数据中的括号以及括号中的内容,和/或删除所述汉语语料数...

【专利技术属性】
技术研发人员:王昌
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1