【技术实现步骤摘要】
一种语义理解方法、装置、设备和存储介质
[0001]本公开实施例涉及计算机应用技术及自然语言处理技术,尤其涉及一种语义理解方法、装置、设备和存储介质。
技术介绍
[0002]随着科技的不断进步,自然语言处理技术得到了快速发展,为人们的日常生活和工业生产均带来了极大便利。
[0003]在相关的语义理解技术中,通常是通过字典树的方式预先存储大量的实体词汇,在获取到待检测信息时,通过字符串搜索的方式在字典树中查找对应的实体词汇,如果查找到对应的实体词汇,则该实体词汇便反应了该待检测信息的语义,如果查找不到对应的实体词汇,则表明无实体出现在待检测信息中。
[0004]然而,在实现本申请的过程中,专利技术人发现上述方式至少存在如下缺陷:需要待检测信息与字典树中的实体词汇完全匹配,才能确定该待检测信息的语义。上述方式不适用于对待检测信息为语音信息时的语义理解,即:由于用户的口语表达习惯、语音识别准确性以及语音输入设备的性能差异等原因,经常会出现错字、多字或少字等情况时,此时上述技术无法准确理解语音信息的语义。
专 ...
【技术保护点】
【技术特征摘要】
1.一种语义理解方法,其特征在于,包括:获取与语音信息匹配的识别字符串;在实体词汇库中,获取与所述识别字符串中各识别字符分别对应的至少一个实体词汇;根据各所述实体词汇对所述识别字符串的命中情况,确定匹配的实体词汇作为对所述语音信息的语义理解结果。2.根据权利要求1所述的方法,其特征在于,在获取与语音信息匹配的识别字符串之前,还包括:根据所述实体词汇库中包括的各实体词汇,建立与实体词汇库匹配的倒排索引表,其中,所述倒排索引表中包括多个键值对,键值对中的键名为字符,键值对中的键值为包含所述字符的至少一个实体词汇;所述在实体词汇库中,获取与所述识别字符串中各识别字符分别对应的至少一个实体词汇,包括:查询与所述实体词汇库匹配的所述倒排索引表,获取与所述识别字符串中各识别字符分别对应的至少一个实体词汇。3.根据权利要求1或2所述的方法,其特征在于,所述根据各所述实体词汇对所述识别字符串的命中情况,确定匹配的实体词汇作为对所述语音信息的语义理解结果,包括:根据各所述实体词汇的字符长度,在所述识别字符串中分别遍历与各所述字符长度匹配的局部识别字符串,并计算各所述局部识别字符串与匹配的实体词汇之间的局部相似度;根据所述识别字符串与各所述实体词汇分别对应的各局部相似度,确定与所述语音信息匹配的实体词汇。4.根据权利要求3所述的方法,其特征在于,所述根据各所述实体词汇的字符长度,在所述识别字符串中分别遍历与各所述字符长度匹配的局部识别字符串,并计算各所述局部识别字符串与匹配的实体词汇之间的局部相似度,包括:获取与当前处理的目标实体词汇匹配的目标字符长度,并设置与所述目标字符长度匹配的滑动窗口;根据滑动窗口的滑动起点在所述识别字符串中的位置,获取与滑动窗口匹配的目标局部识别字符串,滑动起点的初始位置为所述识别字符串的首个字符;计算所述目标实体词汇与所述目标局部识别字符串之间的相似度作为所述局部相似度;将所述滑动起点更新为下一字符位置后,返回执行根据滑动窗口中滑动起点在所述识别字符串中的位置,获取与滑动窗口匹配的目标局部识别字符串的操作,直至所述目标局部识别字符串包括所述识别字符串的末尾字符。5.根据权利要求4所述的方法...
【专利技术属性】
技术研发人员:张贺,李航,汪洋,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。