语音与文本匹配的方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:20921927 阅读:36 留言:0更新日期:2019-04-20 10:50
本发明专利技术提出一种语音与文本匹配的方法、装置、设备和计算机可读介质,所述方法包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。本发明专利技术实施例通过依次进行精确匹配、拼音模糊匹配,可以加快匹配的速度,提高语音交互过程的流畅度。进一步地,通过句子向量匹配可以在精确匹配和拼音模糊匹配失败的情况下进行语义相似匹配,从而可以更加准确的匹配到用户的真实意图。

The Method, Device, Equipment and Computer Readable Media of Speech and Text Matching

The invention provides a method, device, device and computer readable medium for matching speech and text. The method includes: recognizing the received speech signal and acquiring speech recognition text; matching speech recognition text with multiple candidate texts first; matching speech recognition text with multiple candidate texts second when the first matching is unsuccessful. The embodiment of the present invention can accelerate the matching speed and improve the fluency of the voice interaction process by precise matching and fuzzy matching of Pinyin in turn. Furthermore, through sentence vector matching, semantic similarity matching can be carried out in the case of precise matching and fuzzy matching failure of Pinyin, so that the real intention of users can be more accurately matched.

【技术实现步骤摘要】
语音与文本匹配的方法、装置、设备及计算机可读介质
本专利技术涉及人工智能领域,尤其涉及一种语音与文本匹配的方法及装置、设备和计算机可读介质。
技术介绍
随着语音技术的发展,现有越来越多的场景中自动识别语音命令。例如,用户可以在一些游戏中,用户可以通过语音输入,从而使游戏人物执行某一些游戏技能。然而目前在对用户语音和文字进行匹配时,一般只是通过简单的正则匹配或者改写等,来“套”用户的语音输入,然后得到对应的意图。当匹配和改写都没有命中的时候,一般就返回“我没能理解,请再说一般”之类的兜底话术。中国语言本身博大精深千变万化,再加上各地的口音不尽相同,即使是同一句话,识别的结果也可能完全不同。因此,通过正则匹配或者改写的方法,得到的数据十分有限,很难可以真正匹配上识别的结果。就会导致设备不断地向用户提问,问用户究竟想做什么。语音交互游戏的流畅度差,用户体验不好。
技术实现思路
本专利技术实施例提供一种语音与文本匹配的方法、装置、设备及计算机可读介质,以解决或缓解现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种语音与文本匹配的方法,包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。在一种实施方式中,所述方法还包括:当第一匹配或拼音的第二匹配成功时,输出匹配到的候选文本。在一种实施方式中,所述方法还包括:当拼音的第二匹配不成功时,计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项。在一种实施方式中,所述将语音识别文本与多项候选文本逐个进行拼音的第二匹配,包括:将语音识别文本和多项候选文本都转化为拼音;计算语音识别文本和多项候选文本的拼音的相似度;获取相似度最大的候选文本,当所述候选文本大于设定阈值时,则作为匹配的候选文本进行输出。在一种实施方式中,所述计算语音识别文本和候选文本的各个选项的拼音的相似度,采用以下公式进行计算:其中s表示候选文本的选项的拼音,q代表语音识别文本的拼音,LCS(s,q)表示候选文本的拼音和语音识别文本的拼音之间最长公共序列的长度,len(s)表示候选文本的拼音的长度。在一种实施方式中,所述计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项,包括:将语音识别文本和多项候选文本进行分词操作;获取分词后的每个词语的词向量;将语音识别文本的词向量进行相加,获得语音识别文本的句子向量,以及将每项候选文本的词向量相加,分别获取各项候选文本的句子向量;计算语音识别文本的句子向量和各项候选文本的矩形向量的余弦相似度,获取余弦相似度最大的候选文本。第二方面,本专利技术实施例提供了一种语音与文本匹配的装置,包括:识别模块,用于对接收的语音信号进行识别,获取语音识别文本;第一匹配模块,用于将语音识别文本与多项候选文本进行第一匹配;第二匹配模块,用于当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。在一种实施方式中,该装置还包括:输出模块,用于当第一匹配或拼音的第二匹配成功时,输出匹配到的候选文本。在一种实施方式中,该装置还包括:向量匹配模块,用于当拼音的第二匹配不成功时,计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项。在一种实施方式中,所述第二匹配模块包括:转化子模块,用于将语音识别文本和多项候选文本都转化为拼音;拼音相似度计算子模块,用于计算语音识别文本和多项候选文本的拼音的相似度;匹配子模块,用于获取相似度最大的候选文本,当所述候选文本大于设定阈值时,则作为匹配的候选文本进行输出。在一种实施方式中,所述拼音相似度计算子模块在计算语音识别文本和多项候选文本的拼音相似度时,具体采用以下公式:其中s表示候选文本的选项的拼音,q代表语音识别文本的拼音,LCS(s,q)表示候选文本的拼音和语音识别文本的拼音之间最长公共序列的长度,len(s)表示候选文本的拼音的长度。在一种实施方式中,所述向量匹配模块包括:分词子模块,用于将语音识别文本和多项候选文本进行分词操作;词向量获取子模块,用于获取分词后的每个词语的词向量;句子向量获取子模块,用于将语音识别文本的词向量进行相加,获得语音识别文本的句子向量,以及将每项候选文本的词向量相加,分别获取各项候选文本的句子向量;向量相似度计算子模块,用于计算语音识别文本的句子向量和各项候选文本的矩形向量的余弦相似度,获取余弦相似度最大的候选文本。第三方面,在一个可能的设计中,语音与文本匹配的装置的结构中包括处理器和存储器,所述存储器用于存储支持语音与文本匹配的装置执行上述第一方面中语音与文本匹配的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音与文本匹配的装置还可以包括通信接口,用于语音与文本匹配的装置与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读介质,用于存储语音与文本匹配的装置所用的计算机软件指令,其包括用于执行上述第一方面的语音与文本匹配的方法所涉及的程序。本专利技术实施例通过依次进行精确匹配、拼音模糊匹配,可以加快匹配的速度,提高语音交互过程的流畅度。进一步地,通过句子向量匹配可以在精确匹配和拼音模糊匹配失败的情况下进行语义相似匹配,从而可以更加准确的匹配到用户的真实意图。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1为本专利技术一实施例的语音与文本匹配的方法的流程图;图2为本专利技术一实施例的步骤S130的具体流程图;图3为本专利技术另一实施例的语音与文本匹配的方法的流程图;图4为本专利技术另一实施例的步骤S140的具体流程图;图5为本专利技术一实施例的语音和文本匹配方法的整体流程图;图6为本专利技术一实施例的语音与文本匹配的装置的连接框图;图7为本专利技术一实施例的第二匹配模块的连接框图;图8为本专利技术另一实施例的语音与文本匹配的装置的连接框图;图9为本专利技术另一实施例的语音与文本匹配的装置的连接框图;图10为本专利技术一实施例的向量匹配模块的连接框图;图11为本专利技术另一实施例的语音与文本匹配的设备框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。本专利技术实施例主要提供了一种通语音与文本匹配的的方法及装置,下面分别通过以下实施例进行技术方案的展开描述。本专利技术提供了一种语音与文本匹配的方法和装置,以下详细介绍本专利技术实施例的语音与文本匹配的方法和装置的具体处理流程和原理。如图1所示,其为本专利技术实施例的语音与文本匹配的方法的流程图。本专利技术实施例的语音与文本匹配的方法可以包括以下步骤:S110:对接收的语音信号本文档来自技高网...

【技术保护点】
1.一种语音与文本匹配的方法,其特征在于,包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。

【技术特征摘要】
1.一种语音与文本匹配的方法,其特征在于,包括:对接收的语音信号进行识别,获取语音识别文本;将语音识别文本与多项候选文本进行第一匹配;当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。2.根据权利要求1所述的方法,其特征在于,还包括:当第一匹配或拼音的第二匹配成功时,输出匹配到的候选文本。3.根据权利要求1所述的方法,其特征在于,还包括:当拼音的第二匹配不成功时,计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项。4.根据权利要求1所述的方法,其特征在于,所述将语音识别文本与多项候选文本逐个进行拼音的第二匹配,包括:将语音识别文本和多项候选文本都转化为拼音;计算语音识别文本和多项候选文本的拼音的相似度;获取相似度最大的候选文本,当所述候选文本大于设定阈值时,则作为匹配的候选文本进行输出。5.根据权利要求4所述的方法,其特征在于,所述计算语音识别文本和候选文本的各个选项的拼音的相似度,采用以下公式进行计算:其中s表示候选文本的选项的拼音,q代表语音识别文本的拼音,LCS(s,q)表示候选文本的拼音和语音识别文本的拼音之间最长公共序列的长度,len(s)表示候选文本的拼音的长度。6.根据权利要求3所述的方法,其特征在于,所述计算语音识别文本和多项候选文本的句子向量相似度,输出句子向量相似度最大的候选文本选项,包括:将语音识别文本和多项候选文本进行分词操作;获取分词后的每个词语的词向量;将语音识别文本的词向量进行相加,获得语音识别文本的句子向量,以及将每项候选文本的词向量相加,分别获取各项候选文本的句子向量;计算语音识别文本的句子向量和各项候选文本的矩形向量的余弦相似度,获取余弦相似度最大的候选文本。7.一种语音与文本匹配的装置,其特征在于,包括:识别模块,用于对接收的语音信号进行识别,获取语音识别文本;第一匹配模块,用于将语音识别文本与多项候选文本进行第一匹配;第二匹配模块,用于当第一匹配不成功时,将语音识别文本与多项候选文本进行拼音的第二匹配。8.根...

【专利技术属性】
技术研发人员:陆永帅
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1