一种语义模糊匹配方法组成比例

技术编号:8533061 阅读:224 留言:0更新日期:2013-04-04 16:12
本发明专利技术实施例提供一种语义模糊匹配方法,所述方法包括:对语音识别后的文本进行特征提取,得到特征数据;用条件随机场CRF模型对所述特征数据进行命名实体的识别,找到句子中关键语义类;对所述关键语义类进行精确匹配,在精确匹配失败时进行模糊匹配,计算所述关键语义类与词典中关键词的相似度,选择相似度较大的关键词替代所述关键语义类,并进行类别标注。本发明专利技术实施例利用统计的方法,即CRF进行序列标注,将查询语句中的关键语义类进行初步标注和定位,缩小模糊匹配的范围,然后再依照领域词典,进行相似度计算,用相似度最大的词典词条来取代用户查询中出错的关键语义类,减少了运算量,提高了识别的速度。

【技术实现步骤摘要】

本申请涉及语音识别领域,具体来说,涉及。
技术介绍
人机交互系统是由用户通过口语提出查询请求,系统提供信息服务。一个典型的人机交互系统包括自动语音识别,口语理解,对话管理和语音合成这四个组成部分。口语理解部分是将语音识别后的查询语句转化成相应的语义表示。然而,口语理解经常会遇到 这样的问题,即用户的查询语句存在语音识别带来的发音变异、识别错误和关键语义概念的不完整,如何在获得部分关键信息的情况下仍能获得正确的理解结果,这就需要用模糊匹配来提高系统的鲁棒性。通常的人机交互服务都是限定在某些特定领域的,相关领域的数据都会保存在数据库中。传统的模糊匹配算法主要是在给定的文本串中找出与模式串匹配的子串的起始位置,多数是使用编辑距离作为相似性函数,这样的方法中用户查询语句中的每个汉字都要参与运算,如果句子比较长,则运算速度将大大降低。
技术实现思路
针对现有技术中的问题,本专利技术实施例的目的在于提供,所述方法包括对语音识别后的文本进行特征提取,得到特征数据;用条件随机场CRF模型对所述特征数据进行命名实体的识别,找到句子中关键语义类;对所述关键语义类进行精确匹配,在精确匹配失败时进行模糊匹配本文档来自技高网...

【技术保护点】
一种语义模糊匹配方法,其特征在于,所述方法包括:对语音识别后的文本进行特征提取,得到特征数据;用条件随机场CRF模型对所述特征数据进行命名实体的识别,找到关键语义类;对所述关键语义类进行精确匹配,在精确匹配失败时进行模糊匹配,计算所述关键语义类与词典中关键词的相似度,选择相似度较大的关键词替代所述关键语义类,并进行类别标注。

【技术特征摘要】
1.一种语义模糊匹配方法,其特征在于,所述方法包括 对语音识别后的文本进行特征提取,得到特征数据; 用条件随机场CRF模型对所述特征数据进行命名实体的识别,找到关键语义类; 对所述关键语义类进行精确匹配,在精确匹配失败时进行模糊匹配,计算所述关键语义类与词典中关键词的相似度,选择相似度较大的关键词替代所述关键语义类,并进行类别标注。2.如权利要求1所述的语义模糊匹配方法,其特征在于,所述计算所述关键语义类与词典中关键词的相似度,具体包括,用所述关键语义类的词汇与关键词的交集的汉字个数的两倍除以所述关键语义类的词汇与关键词的所有汉字的个数之和,所得的商越大,相似度越高。3.如权利要求1所述...

【专利技术属性】
技术研发人员:张艳李艳玲徐为群颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1