同音词的语音搜索处理方法及装置制造方法及图纸

技术编号:12799935 阅读:104 留言:0更新日期:2016-01-30 20:49
本申请提出一种同音词的语音搜索处理方法和装置,其中,该方法包括:接收用户输入的语音信息,检索与所述语音信息对应的多个同音词;根据预设的搜索特征信息库,获取每个同音词与用户搜索需求的相似度,其中,所述搜索特征信息库包括:至少一个搜索特征,以及对应的数学模型;根据所述相似度和预设的相似度计算策略,确定与所述用户搜索需求对应的搜索词,以便根据所述搜索词进行信息检索。实现了根据用户自身的搜索需求进行智能识别,满足用户的个性化需求节约了处理资源,减少了用户的搜索时间,提高了处理效率和用户体验度。

【技术实现步骤摘要】

本申请涉及搜索信息处理
,尤其涉及一种同音词的语音搜索处理方法及 目.ο
技术介绍
随着语音识别技术的发展,语音识别技术的应用领域越来越广,使用语音进行搜索的用户也越来越多。然而,在语音搜索的场景下,经常会出现多个同音词。对于不同用户在不同的搜索场景下,同一个发音对应的搜索词可能是不同的。现有的语音搜索应用中,若根据用户输入的语音信息,获知对应多个同音词,则根据当前的搜索热度列表,从多个同音词中识别出最热门的同音词作为用户的搜索词,并直接对该搜索词进行检索。由此可见,针对同音词的语音搜索,现有技术只是根据其他用户搜索记录从多个同音词中识别最热门的词进行检索,并不能根据用户自身的搜索需求进行智能识别,不能满足用户的个性化需求,造成大量的无效搜索,浪费了处理资源,降低了处理效率。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种同音词的语音搜索处理方法,该方法实现了根据用户自身的搜索需求进行智能识别,满足用户的个性化需求节约了处理资源,减少了用户的搜索时间,提高了处理效率和用户体验度。本申请的第二个目的在于提出一种同音词的语音搜索处理装置。为达上述目的,本申请第一方面实施例提出了一种同音词的语音搜索处理方法,包括:接收用户输入的语音信息,检索与所述语音信息对应的多个同音词;根据预设的搜索特征信息库,获取每个同音词与用户搜索需求的相似度,其中,所述搜索特征信息库包括:至少一个搜索特征,以及对应的数学模型;根据所述相似度和预设的相似度计算策略,确定与所述用户搜索需求对应的搜索词,以便根据所述搜索词进行信息检索。本申请实施例的同音词的语音搜索处理方法,首先接收用户输入的语音信息,检索与所述语音信息对应的多个同音词,然后根据预设的搜索特征信息库,获取每个同音词与用户搜索需求的相似度,其中,所述搜索特征信息库包括:至少一个搜索特征,以及对应的数学模型;最后根据所述相似度和预设的相似度计算策略,确定与所述用户搜索需求对应的搜索词,以便根据所述搜索词进行信息检索。由此,实现了根据用户自身的搜索需求进行智能识别,满足用户的个性化需求节约了处理资源,减少了用户的搜索时间,提高了处理效率和用户体验度。为达上述目的,本申请第二方面实施例提出了一种同音词的语音搜索处理装置,包括:检索模块,用于接收用户输入的语音信息,检索与所述语音信息对应的多个同音词;获取模块,用于根据预设的搜索特征信息库,获取每个同音词与用户搜索需求的相似度,其中,所述搜索特征信息库包括:至少一个搜索特征,以及对应的数学模型;确定模块,用于根据所述相似度和预设的相似度计算策略,确定与所述用户搜索需求对应的搜索词,以便根据所述搜索词进行信息检索。本申请实施例的同音词的语音搜索处理装置,通过检索模块接收用户输入的语音信息,检索与所述语音信息对应的多个同音词;通过获取模块根据预设的搜索特征信息库,获取每个同音词与用户搜索需求的相似度,其中,所述搜索特征信息库包括:至少一个搜索特征,以及对应的数学模型;通过确定模块根据所述相似度和预设的相似度计算策略,确定与所述用户搜索需求对应的搜索词,以便根据所述搜索词进行信息检索。由此,实现了根据用户自身的搜索需求进行智能识别,满足用户的个性化需求节约了处理资源,减少了用户的搜索时间,提高了处理效率和用户体验度。【附图说明】本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一个实施例的同音词的语音搜索处理方法的流程图;图2是本申请另一个实施例的同音词的语音搜索处理方法的流程图;图3是本申请一个实施例的同音词的语音搜索处理装置的结构示意图;图4是本申请另一个实施例的同音词的语音搜索处理装置的结构示意图。【具体实施方式】下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的同音词的语音搜索处理方法及装置。图1是本申请一个实施例的同音词的语音搜索处理方法的流程图。如图1所示,该同音词的语音搜索处理方法包括:步骤101,接收用户输入的语音信息,检索与所述语音信息对应的多个同音词。本专利技术实施例提供的同音词的语音搜索处理方法应用于具有人机语音交互接口的终端设备中,终端设备上安装有能够访问人机语音交互接口的应用来为用户提供语音搜索服务,该应用可以根据实际需要进行选择,本实施例对此不作限制。用户需要进行语音搜索服务时,向人机语音交互接口输入语音信息,当接收到用户输入的语音信息时,检索与该语音信息对应的多个同音词,具体的检索方式有很多,可以根据实际应用需要进行选择,举例说明如下:方式一,采用倒排索引方式检索同音词,包括:识别所述语音信息的音节,所述音节包括:发音音节和/或模糊音节;查询预设的倒排索引获取与所述音节对应的多个同音词。具体地,识别用户输入的语音信息的音节,其中,本实施例中涉及的音节包括:发音音节和/或模糊音节,音节是用听觉可以区分清楚的语音基本单位,音节之间具有明显可感知的界限。在汉语中一般一个汉字的读音即为一个音节,音节包括声母、韵母和音调。需要注意的是,在某些方言中,有很多音节与普通话不同,专门为对某些音节容易混淆的用户设计模糊音节。例如:声母模糊音zh和z,ch和c,sh和s ;以及韵母模糊音ang和an,eng 和 en,iang 和 ian 等。识别出用户输入的语音信息的音节之后,查询预设的倒排索引获取与音节对应的多个同音词。其中,预设的倒排索引是基于语音音节建立的,倒排索引指的是用“单词-文档矩阵”表示的一种具体存储形式,通过倒排索引可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”,由于搜索引擎的通常索引单位是单词,因此,通过查询倒排索引的单词词典,可以获取与音节对应的多个同音Τ.κ| ο方式二,采用预设的语音模型检索同音词,具体包括:预先存储有语音数据库,语音数据库中包括大量的词组语音模型,每个词组语音模型对应了所有发该语音的词汇列表。将用户输入的语音信息进行词组划分,将各个词组的语音信息与预先存储的词组语音模型进行匹配,若匹配结果一致,则将与所述词组语音模型对应的词汇列表中的所有词作为与当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种同音词的语音搜索处理方法,其特征在于,包括以下步骤:接收用户输入的语音信息,检索与所述语音信息对应的多个同音词;根据预设的搜索特征信息库,获取每个同音词与用户搜索需求的相似度,其中,所述搜索特征信息库包括:至少一个搜索特征,以及对应的数学模型;根据所述相似度和预设的相似度计算策略,确定与所述用户搜索需求对应的搜索词,以便根据所述搜索词进行信息检索。

【技术特征摘要】

【专利技术属性】
技术研发人员:李裕东颜振祥赵程亮郎文静陈凯
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1