【技术实现步骤摘要】
一种搜索方法、装置及服务器
本专利技术涉及数据处理
,具体涉及一种搜索方法、装置及服务器。
技术介绍
当用户在利用搜索引擎进行内容搜索的时候,经常情况下用户仅仅知道想要搜索内容的近似发音,而并不能确定实际想要搜索的内容是什么,从而导致用户输入的文本内容与用户想要搜索的实际内容之间存在误差,用户仅仅能够在搜索引擎中输入与用户想要搜索的实际内容近似发音的文本内容。而现有技术在搜索与用户输入的文本内容匹配的搜索结果的时候,是按照用户输入的文字在数据库中进行匹配查找,然而,用户输入的文字往往是与用户想要搜索的实际内容近似发音的文字,而并不是用户想要搜索的实际文字,现有基于文字在数据库中匹配搜索的方式,有可能在匹配的搜索结果中找不到用户实际想要的内容;比如当用户想要搜索歌词的时候,在搜索引擎中输入一句听到并理解的模糊歌词如:“风到这里就思念”,其实真实歌词是“风到这里就是粘”,这样,用户通过搜索引擎搜索到的歌词是与“风到这里就思念”相关的搜索结果,而不是与“风到这里就是粘”相关的搜索结果,用户在搜索到的与“风到这里就思念”相关的搜索结果中有可能找不到用户实际想要的内容 ...
【技术保护点】
一种搜索方法,其特征在于,包括:接收输入文本,所述输入文本包括至少一个文字;提取所述输入文本的各文字的音素;调取预存储的至少一个候选文本;按照输入文本的文字顺序,将输入文本的各文字的音素依序与各候选文本的文字的音素相匹配,得到各候选文本中所匹配的文字的关联度;根据各候选文本所匹配的各文字的关联度,确定各候选文本所匹配的所有文字的总关联度;将总关联度符合预定条件的候选文本所匹配的文字依序组合的结果,作为搜索结果。
【技术特征摘要】
1.一种搜索方法,其特征在于,包括:接收输入文本,所述输入文本包括至少一个文字;提取所述输入文本的各文字的音素;调取预存储的至少一个候选文本;按照输入文本的文字顺序,将输入文本的各文字的音素依序与各候选文本的文字的音素相匹配,得到各候选文本中所匹配的文字的关联度;根据各候选文本所匹配的各文字的关联度,确定各候选文本所匹配的所有文字的总关联度;将总关联度符合预定条件的候选文本所匹配的文字依序组合的结果,作为搜索结果。2.根据权利要求1所述的方法,其特征在于,所述按照输入文本的文字顺序,将输入文本的各文字的音素依序与各候选文本的文字的音素相匹配,得到各候选文本中所匹配的文字的关联度包括:按照输入文本的文字顺序,依据预存储的音素关联度表,将输入文本的各文字的音素依序与各候选文本的文字的音素相匹配,确定各候选文本中所匹配的文字的关联度,其中,所述预存储的音素关联度表中记录有各音素之间的关联度。3.根据权利要求2所述的方法,其特征在于,所述音素关联度表记录有音素中每两个声母之间的关联度与每两个韵母之间的关联度;所述按照输入文本的文字顺序,依据预存储的音素关联度表,将输入文本的各文字的音素依序与各候选文本的文字的音素相匹配,确定各候选文本中所匹配的文字的关联度包括:按照输入文本的文字顺序,依据所述音素关联度表,分别将输入文本的各文字的声母依序与各候选文本的文字的声母相匹配,得到各候选文本中所匹配的文字的声母关联度;按照输入文本的文字顺序,依据所述音素关联度表,分别将输入文本的各文字的韵母依序与各个候选文本的文字的韵母相匹配,得到各候选文本中所匹配的文字的韵母关联度;结合各候选文本中所匹配的文字的声母关联度,和各候选文本中所匹配的文字的韵母关联度,确定各候选文本中所匹配的文字的关联度。4.根据权利要求3所述的所述的方法,其特征在于,所述文字的关联度为文字的差别度,所述音素关联度表为音素差别度表,所述音素差别度表记录有音素中每两个声母之间的差别度与每两个韵母之间的差别度;所述声母关联度为声母差别度,所述韵母关联度为韵母差别度;所述结合各候选文本中所匹配的文字的声母关联度,和各候选文本中所匹配的文字的韵母关联度,确定各候选文本中所匹配的文字的关联度包括:根据公式X=a1*x1+b1*x2确定各候选文本中所匹配的文字的差别度,其中,X为各候选文本中所匹配的文字的差别度,所述x1为各候选文本中所匹配的文字的声母差别度,所述x2为各候选文本中所匹配的文字的韵母差别度,a1为声母差别系数,b1为韵母差别系数。5.根据权利要求3所述的方法,其特征在于,所述文字的关联度为文字的相似度,所述音素关联度表为音素相似度表,所述音素相似度表记录有音素中每两个声母之间的相似度与每两个韵母之间的相似度;所述声母关联度为声母相似度,所述韵母关联度为韵母相似度;所述结合各候选文本中所匹配的文字的声母关联度,和各候选文本中所匹配的文字的韵母关联度,确定各候选文本中所匹配的文字的关联度包括:根据公式Y=a2*y1+b2*y2确定各候选文本中所匹配的文字的相似度,其中,Y为各候选文本中所匹配的文字的相似度,所述y1为各候选文本中所匹配的文字的声母相似度,所述y2为各候选文本中所匹配的文字的韵母相似度,a2为声母相似系数,b2为韵母相似系数。6.根据权利要求3所述的所述的方法,其特征在于,所述文字的关联度为文字的差别度,所述音素关联度表为音素相似度表,所述音素相似度表记录有音素中每两个声母之间的相似度与每两个韵母之间的相似度;所述声母关联度为声母相似度,所述韵母关联度为韵母相似度;所述结合各候选文本中所匹配的文字的声母关联度,和各候选文本中所匹配的文字的韵母关联度,确定各候选文本中所匹配的文字的关联度包括:根据公式X=1-a2*y1-b2*y2确定各候选文本中所匹配的文字的差别度,其中,X为各候选文本中所匹配的文字的差别度,所述y1为各候选文本中所匹配的文字的声母相似度,所述y2为各候选文本中所匹配的文字的韵母相似度,a2为声母相似系数,b2为韵母相似系数。7.根据权利要求2-6任意一项所述的方法,其特征在于,预先建立音素关联度表的过程包括:获取语音片段,所述语音片段包括至少一个文字;提取语音片段中的音素发音,其中,所述音素发音包括:声母发音和韵母发音;提取所述音素发音的13维MFCC特征;对所述音素发音的13维MFCC特征进行处理,得到所述音素发音的39维MFCC特征;基于所述音素发音的39维MFCC特征,确定每两个音素之间的发音关联度;对所述每两个音素之间的发音关联度进行归一化处理,得到所述每两个音素之间的归一化发音关联度;依据所述每两个音素...
【专利技术属性】
技术研发人员:傅鸿城,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。