一种汉字转数字的方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:22467621 阅读:39 留言:0更新日期:2019-11-06 11:26
本申请公开了一种汉字转数字的方法、装置、设备和计算机可读存储介质,通过将待转换汉字文本的每个汉字拼音与0~9十个数字的每个数字的拼音两两计算编辑距离,取最小编辑距离对应的数字作为待转换汉字文本的汉字对应的数字输出,不需要在代码上做汉字与数字的映射,节省了数据映射整理的时间,简化了汉字转数字的代码,解决了现有的汉字转数字方法采用在代码上做汉字与数字的映射关系方式,存在整理映射关系耗时长和代码复杂冗长的技术问题。

A method, device, device and computer readable storage medium for converting Chinese characters to numbers

【技术实现步骤摘要】
一种汉字转数字的方法、装置、设备和计算机可读存储介质
本申请涉及字符转换
,尤其涉及一种汉字转数字的方法、装置、设备和计算机可读存储介质。
技术介绍
ASR(AutomaticSpeedRecognition,自动语音识别技术)是一种将人的语音转换为文本的技术。在移动端ASR数字唤醒的场景下,某个数字有可能会被识别为不同的汉字,比如数字“4”可能会被识别为汉字的“四”或“是”,数字“3”可能会被识别为汉字“三”或“山”,不利于机器对数字进行识别。现有的汉字转数字的方法是在代码上进行映射,例如“三”或“山”映射成“3”、“四”或“是”映射成“4”,把所有可能的映射情况都一一列举,这种一一例举的映射方式除了本身的映射,还要考虑各种谐音的情况,需要花费大量的时间整理映射关系,代码复杂冗长。
技术实现思路
本申请提供了一种汉字转数字的方法、装置、设备和计算机可读存储介质,用于解决现有的汉字转数字方法采用在代码上做汉字与数字的映射关系方式,存在整理映射关系耗时长和代码复杂冗长的技术问题。有鉴于此,本申请第一方面提供了一种汉字转数字的方法,包括:获取待转换汉字文本对应的汉字拼音;将每个所述汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离;输出最小编辑距离对应的数字作为所述待转换汉字文本的汉字对应的数字。优选地,所述获取待转换的汉字文本对应的汉字拼音,具体包括:从预置拼音库中获取所述待转换汉字文本对应的汉字拼音。优选地,所述预置拼音库为python拼音库或pypinyin库。优选地,所述获取待转换的汉字文本对应的汉字拼音,之前还包括:根据ASR从语音样本获取待转换汉字文本。优选地,所述输出最小编辑距离对应的数字作为所述待转换汉字文本的汉字对应的数字,之前还包括:遍历所有所述编辑距离,在所有所述编辑距离中获取最小编辑距离。本申请第二方面提供了一种汉字转数字的装置,包括:获取模块,用于获取待转换汉字文本对应的汉字拼音;距离模块,用于将每个所述汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离;输出模块,用于输出最小编辑距离对应的数字作为所述待转换汉字文本的汉字对应的数字。优选地,所述获取模块具体用于:从预置拼音库中获取所述待转换汉字文本对应的汉字拼音。优选地,还包括:预处理模块,用于根据ASR从语音样本获取待转换汉字文本;遍历模块,用于遍历所有所述编辑距离,在所有所述编辑距离中获取最小编辑距离。本申请第三方面提供了一种汉字转数字的设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第一方面的任一种所述的汉字转数字的方法。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面的任一种所述的汉字转数字的方法。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中,提供了一种汉字转数字的方法,包括:获取待转换汉字文本对应的汉字拼音;将汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离;输出最小编辑距离对应的数字作为待转换汉字文本对应的数字。本申请中提供的汉字转数字的方法,通过将待转换汉字文本的每个汉字拼音与0~9十个数字的每个数字的拼音两两计算编辑距离,取最小编辑距离对应的数字作为待转换汉字文本的汉字对应的数字输出,不需要在代码上做汉字与数字的映射,节省了数据映射整理的时间,简化了汉字转数字的代码,解决了现有的汉字转数字方法采用在代码上做汉字与数字的映射关系方式,存在整理映射关系耗时长和代码复杂冗长的技术问题。附图说明图1为本申请提供的一种汉字转数字的方法的一个实施例的流程示意图;图2为本申请提供的一种汉字转数字的方法的另一个实施例的流程示意图;图3为本申请提供的一种汉字转数字的装置的一个实施例的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为了便于理解,请参阅图1,本申请提供的一种汉字转数字的方法的一个实施例,包括:步骤101、获取待转换汉字文本对应的汉字拼音。需要说明的是,本申请实施例中,首先需要获取到待转换为数字的汉字文本,将汉字文本转换为对应的拼音,如待转换汉字文本为“是”,将其转换为对应的拼音“shi”。步骤102、将每个汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离。需要说明的是,编辑距离,是指针对二个字符串的差异程度量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。数字0,1,2,3,4,5,6,7,8,9对应的拼音为ling,yi,er,san,si,wu,liu,qi,ba,jiu,申请人发现这十个数字的发音并不具备一致性,因此可以用来作为不同的汉字标识。本申请实施例中,将汉字文本的每个汉字拼音与这十个数字的拼音分别计算两两拼音的编辑距离,如“是”的拼音“shi”与“ling”,“yi”,“er”,“san”,“si”,“wu”,“liu”,“qi”,“ba”,“jiu”的编辑距离分别是4,2,3,2,1,3,3,2,3,3,计算编辑距离的方法为现有技术,不作为本申请实施的改进点,在此不再进行赘述。步骤103、输出最小编辑距离对应的数字作为待转换汉字文本的汉字对应的数字。需要说明的是,本申请实施例中,将编辑距离最小对应的数字作为输出结果,如步骤102中的“是”与0~9的数字的最小编辑距离是“1”,最小编辑距离“1”对应的数字是“4”,所以最终输出的数字是“4”,因此,汉字“是”对应的转换结果数字为“4”。本申请实施例中提供的一种汉字转数字的方法,包括:获取待转换汉字文本对应的汉字拼音;将汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离;输出最小编辑距离对应的数字作为待转换汉字文本对应的数字。本申请中提供的汉字转数字的方法,通过将待转换汉字文本的每个汉字拼音与0~9十个数字的每个数字的拼音两两计算编辑距离,取最小编辑距离对应的数字作为待转换汉字文本的汉字对应的数字输出,不需要在代码上做汉字与数字的映射,节省了数据映射整理的时间,简化了汉字转数字的代码,解决了现有的汉字转数字方法采用在代码上做汉字与数字的映射关系方式,存在整理映射关系耗时长和代码复杂冗长的技术问题。为了便于理解,请参阅图2,本申请实施例中提供了一种汉字转数字的方法的另一个实施例,包括:步骤201、根据ASR从语音样本获取待转换汉字文本。需要说明的是,本申请实施例中的待转换汉字文本可以通过ASR从语音样本中获取。步骤202、获取待转换汉字文本对应的汉字拼音。需要说明的是,本申请实施例中,首先需要获取到待转换为数字的汉字文本,将汉字文本转换为对应的拼音,如待转换汉字文本为“是”,将其转换为对应的拼音“shi”。步骤203、从预置拼音库中获取待转换汉字文本对应的汉字拼音。需要说明的是,本申请实施例中,可以从python拼音库或pypinyi本文档来自技高网
...

【技术保护点】
1.一种汉字转数字的方法,其特征在于,包括:获取待转换汉字文本对应的汉字拼音;将每个所述汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离;输出最小编辑距离对应的数字作为所述待转换汉字文本的汉字对应的数字。

【技术特征摘要】
1.一种汉字转数字的方法,其特征在于,包括:获取待转换汉字文本对应的汉字拼音;将每个所述汉字拼音与0~9十个数字中的每个数字的拼音两两计算编辑距离;输出最小编辑距离对应的数字作为所述待转换汉字文本的汉字对应的数字。2.根据权利要求1所述的汉字转数字的方法,其特征在于,所述获取待转换的汉字文本对应的汉字拼音,具体包括:从预置拼音库中获取所述待转换汉字文本对应的汉字拼音。3.根据权利要求2所述的汉字转数字的方法,其特征在于,所述预置拼音库为python拼音库或pypinyin库。4.根据权利要求1所述的汉字转数字的方法,其特征在于,所述获取待转换的汉字文本对应的汉字拼音,之前还包括:根据ASR从语音样本获取待转换汉字文本。5.根据权利要求1所述的汉字转数字的方法其特征在于,所述输出最小编辑距离对应的数字作为所述待转换汉字文本的汉字对应的数字,之前还包括:遍历所有所述编辑距离,在所有所述编辑距离中获取最小编辑距离。6.一种汉字转数字的装置,其特征在于,包括:获取模块,用于...

【专利技术属性】
技术研发人员:王泽龙
申请(专利权)人:广州国音智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1