一种浅层自然口语理解系统及方法技术方案

技术编号:4348366 阅读:210 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种浅层自然口语理解系统及方法,该系统包括:预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Viterbi搜索模块。该系统及方法首先通过预处理解决部分口语现象,以简化后续处理;接着对语句进行特征提取,包括基本字词特征,上下文字词特征和实体特征;采用最大熵分类器进行识别;对整句进行优化得到最后分类标记序列;最后从分类标记序列中提取出命名实体。本发明专利技术的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。

【技术实现步骤摘要】

本专利技术涉及自然语言理解领域,特别一种口语理解的系统及方法。
技术介绍
自然口语理解(Spoken Language Understanding—SLU)系统执行着将输入的字符 序列转化为对应的语义表示的职能。在口语对话系统中,语音识别模块将用户的语 音信号识别为文字序列;随后文字序列输入到自然口语理解模块,自然口语理解模 块对文字序列的语义进行识别,送给对话管理模块;对话管理模块再生成对用户的 回复信息,从而完成了与用户的对话,如图l所示。通常,口语理解任务可以分解为关键命名实体识别(Named Entity Recognition, NER)子任务和意图(或语力)识别子任务。其中命名实体识别和抽取任务在自然 语言信息提取(Information Extraction, IE)中应用比较广泛。NER通常的方法是对输入字词序列进行序列分类,通过判断序列中每一个字是 否属于某个命名实体来确定整个序列中出现的命名实体。如图2所示,其中X表示 观察序列,C表示在各个观察点通过分类得到的分类标记序列。由图中的分类标记 序列C得到2个实体中关村属于类别loc(地点类),中国银行属于类别bank (银行类)。常用的基于统计学习的序列分类方法有隐马尔可夫模型(Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、条件随机场模型(Conditional Random Field)、 AdaBoost模型以及混合模型等等。最大熵模型是一种区分型模型,主要的工作原理如公式(l)所示,其中;K。lx,) 表示在输入序列x的第/时刻观察到jc,的条件下,该时刻的观察属于。类的后向概 率。对于同一个观察;c,,获得后向概率最大c就是最优的类。对于输入序列所有的点 求取最优分类,就得出相应的分类标记序列C。<formula>formula see original document page 6</formula>其中。{/ = 1,...,《/}的定义可以根据任务领域的特点,事先自行定义感兴趣的实体。 例如在一个周边生活信息搜索应用中,我们可以定义地点、银行、饭店、旅馆、电 影院、医院、加油站和运动场馆等实体。/ ,{m-l,...,M)是预定义好的特征函数,Am {附=1,...,肘}是与// 相对应的参数,zoo是归一化参数。
技术实现思路
为了克服上述现有技术的不足,本专利技术在借鉴NLU中命名实体识别方法的基础 上,针对口语理解应用中输入语句存在大量噪音(口语的重复、填充词等口语现象 和ASR识别错误等)的情况下,设计一个浅层的处理方式,在能够耐受大部分噪音, 抽取出语句中的关键信息,从而实现鲁棒性口语理解。为了达到上述目的,本专利技术提供的是基于最大 熵模型实现命名实体识别和语力的浅层理解。在最大熵统计学习模型的框架下,通过精心设计一组特征函数集合,实现尽可能 避免噪声影响的同时又最大化的利用可用的上下文信息,从而较好的提高识别性能。 特征函数集合可以分成以下三个主要部分1、 词汇信息通过利用各个实体类和非实体经常出现的词汇帮助对当前类别的判别。如词请问是常见的非实体词,那么如果当前词是请问,就容易判定当 前词属于非实体类。2、 句子上下文信息通常在实体的前、后会有一些特定的词汇,如我在中关 村中作为地点实体的中关村前面经常会出现在、从、到等等这类关 键词,所以这些上下文信息对于实体类别的判定具有指向作用。3、 实体的知识信息本系统利用已有的实体知识库,通过设计一种限定的模糊 匹配算法,在输入语句中探测并识别出知识库中己有的命名实体。本专利技术提供的一种浅层自然口语理解系统,该系统包括一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语 音序列输出。一词汇特征提取模块,用于通过各个实体类和非实体类经常出现的词汇,判断 预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块。一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后的 语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块。一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的预 处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入 最大熵分类模块。一最大熵分类模块,用于对输入的实体类别的所有点取最优分类,得到相应的分类标记序列,并将该分类标记序列送入维特比(Viterbi)搜索模块。及一 Viterbi搜索模块,用于在输入的分类标记序列上搜索最优路径,最终得到命 名实体。其中,所述词汇特征提取模块包括-一单字特征考察模块,用于利用训练语料生成单字特征函数,并根据单字特征 函数,考察语音序列中的单字特征,判断当前单字的实体类别。一双字特征考察模块,用于考察语音序列中的双字特征,并根据生成的双字特 征函数,判断当前双字的实体类别。一常见字与双字考察模块,用于从训练语料中通过统计方法获得每一类别的常 见字和双字的集合,并利用命名实体种类数量定义各个常见字特征函数,然后根据 该集合及各个常见字特征函数得到当前字或者双字的常见字特征,判断当前字或者 双字的实体类别。其中,所述上下文特征提取模块进一步包括一考察当前观察前一个观察点己经标记的类别,利用前一观察点类别这一历史 信息帮助当前观察点类别的判别的模块-,一考察当前观察前面的词是否某个实体类别的触发词,通过触发词的出现帮助判别当前观察是否属于某个类别的模块;其中,所述实体模糊匹配模块包括一匹配偏移点计算模块,用于对输入的语音序列中的匹配点进行偏移处理,并 将处理后的结果送入预匹配模块。一预匹配模块,用于将当前输入的字符串与己知类别的实体匹配首先抽取已知实体库内所有实体的前两个双字^A和^'^'2,形成map数据结构n^ne一bg;所 述map数据结构m—ne—bg的键是被抽取的所有实体的前两个双字^ X、和x'i ^ , 这些双字对应的值为实体列表;然后,考察经过偏移的当前双字'+^'+1,如果该双 字和map数据结构m_ne—bg中的某个key 键(即实体的前两个双字)相同,则预 匹配成功,且待匹配的实体就是对应键值中的所有实体;其中,t表示当前时刻,s 表不偏移量。一实体匹配程度计算模块,用于利用列维斯坦(Levenstein)最小编辑距离定义 匹配程度的度量,并将匹配度最高的实体类别输出,公式如下-p — /eve败wfew其中,/e是待匹配实体的长度;A^,^是当前字符串和实体的Levenstein最小编辑距离;当完全匹配时Z),w^为0, p为1,表示最高匹配程度;当完全不匹配 时A,幽为&, p为0,表示最低的匹配程度。一yO门限值设定模块,用于设定p的门限值,匹配度大于或等于p门限值的字 符串即被识别为实体类别。本专利技术提供的一种浅层自然口语理解方法,包括以下步骤(1) 对输入语句进行预处理 预处理模块将输入的语句中无意义的填充词去除,并将预处理后的语音序列输出。(2) 经预处理后,对语句的每个时刻的观察抽取特征,包括以下子步骤(21) 词汇特征的提取 词汇特征提取模块通过各个实体类和非实体类经常出现的词汇,判断预处理后的语音序列中的词的实本文档来自技高网
...

【技术保护点】
一种浅层自然口语理解系统,该系统包括: 一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语音序列输出; 一最大熵分类模块,对输入序列的每一点,通过选取该点的词汇特征、上下文特征等特征,通过最大熵算法取得该点的所 有可能的分类的后向概率分布; 一维特比搜索模块,用于在最大熵输出的分类标记序列网上搜索最优路径,得到最优的分类标记序列,从而得出命名实体; 其特征在于,最大熵模型选择的特征模块包括: 一词汇特征提取模块,用于通过各个实体类 和非实体类经常出现的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块; 一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;和   一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的预处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入最大熵分类模块。

【技术特征摘要】
1、一种浅层自然口语理解系统,该系统包括一预处理模块,用于将输入的口语中无意义的填充词去除,并将预处理后的语音序列输出;一最大熵分类模块,对输入序列的每一点,通过选取该点的词汇特征、上下文特征等特征,通过最大熵算法取得该点的所有可能的分类的后向概率分布;一维特比搜索模块,用于在最大熵输出的分类标记序列网上搜索最优路径,得到最优的分类标记序列,从而得出命名实体;其特征在于,最大熵模型选择的特征模块包括一词汇特征提取模块,用于通过各个实体类和非实体类经常出现的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;一上下文特征提取模块,用于通过实体前、后的特定的词汇,判断预处理后的语音序列中的词的实体类别,并将该实体类别送入最大熵分类模块;和一实体模糊匹配模块,用于利用实体知识库,通过模糊匹配算法,在输入的预处理后的语音序列中探测并识别出知识库中已有的实体类别,并将该实体类别送入最大熵分类模块。2、 根据权利要求l所述的浅层自然口语理解系统,其特征在于,所述词汇特征 提取模块包括-一单字特征考察模块,用于利用训练语料生成单字特征函数,并根据单字特征 函数,考察语音序列中的单字特征,判断当前单字的实体类别;一双字特征考察模块,用于考察语音序列中的双字特征,并根据生成的双字特 征函数,判断当前双字的实体类别;一常见的字与双字考察模块,用于从训练语料中通过统计方法获得每一类别的 常见字和双字的集合,并利用命名实体种类数量定义各个常见字特征函数,然后根 据该集合及各个常见字特征函数得到当前字或者双字的常见字特征,判断当前字或 者双字的实体类别。3、 根据权利要求l所述的浅层自然口语理解系统,其特征在于,所述上下文特 征提取模块进一步包括一考察当前观察前一个观察点己经标记的类别,利用前一观察点类别这一历史信息帮助当前观察点类别的判别的模块;一考察当前观察前面的词是否某个实体类别的触发词,通过触发词的出现帮助判别当前观察是否属于某个类别的模块。4、根据权利要求l所述的浅层自然口语理解系统,其特征在于,所述实体模糊匹配模块包括一匹配偏移点计算模块,用于对输入的语音序列中的匹配点进行偏移处理,并 将处理后的结果送入预匹配模块;一预匹配模块,用于将当前输入的字符串与已知类别的实体匹配首先抽取已知实体库内所有实体的前两个双字^'。x'i和^x'2,形成map数据结构m—ne—bg;所 述map数据结构m—ne一bg的键是被抽取的所有实体的前两个双字^ X、和^ x、, 所述所有实体的前两个双字对应的值为实体列表;然后,考察经过偏移的当前双字,如果该双字和map数据结构m—ne—bg中的某个实体的前两个双字相同, 则预匹配成功,且待匹配的实体就是对应键值中的所有实体;其中,t表示当前时刻, s表示偏移量s一实体匹配程度计算模块,用于利用列维斯坦最小编辑距离定义匹配程度的度量,并将匹配度最高的实体类别输出,公式如下其中,/e是待匹配实体的长度;A^一,是当前字符串和实体的列维斯坦最小 编辑距离;当完全匹配时Z)^,^为0,户为1,表示最高匹配程度;当完全不匹配 时A^^为^W, p为0,表示最低的匹配程度。5、 根据权利要求4所述的浅层自然口语理解系统,其特征在于,所述实体模糊 匹配模块还包括一p门限值设定模块,用于设定p的门限值,匹配度大于或等于/ 门 限值的字符串即被识别为实体类别。6、 一种浅层自然口语理解方法,该方法包括以下步骤(1) 对输入语句进行预处理 预处理模块将输入的语句中无意...

【专利技术属性】
技术研发人员:徐为群包长春李亚丽潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利