一种浅层自然口语理解系统及方法技术方案

技术编号：4348366 阅读：210 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种浅层自然口语理解系统及方法，该系统包括：预处理模块、词汇特征提取模块、上下文特征提取模块、实体模糊匹配模块、最大熵分类模块及Ｖｉｔｅｒｂｉ搜索模块。该系统及方法首先通过预处理解决部分口语现象，以简化后续处理；接着对语句进行特征提取，包括基本字词特征，上下文字词特征和实体特征；采用最大熵分类器进行识别；对整句进行优化得到最后分类标记序列；最后从分类标记序列中提取出命名实体。本发明专利技术的系统及方法能够有效地、鲁棒地解决口语中特有的重复、停顿、填充词等不连贯口语现象以及口语识别中可能出现的识别错误等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言理解领域，特别一种口语理解的系统及方法。
技术介绍
自然口语理解(Spoken Language Understanding—SLU)系统执行着将输入的字符序列转化为对应的语义表示的职能。在口语对话系统中，语音识别模块将用户的语音信号识别为文字序列；随后文字序列输入到自然口语理解模块，自然口语理解模块对文字序列的语义进行识别，送给对话管理模块；对话管理模块再生成对用户的回复信息，从而完成了与用户的对话，如图l所示。通常，口语理解任务可以分解为关键命名实体识别(Named Entity Recognition, NER)子任务和意图(或语力)识别子任务。其中命名实体识别和抽取任务在自然语言信息提取(Information Extraction, IE)中应用比较广泛。NER通常的方法是对输入字词序列进行序列分类，通过判断序列中每一个字是否属于某个命名实体来确定整个序列中出现的命名实体。如图2所示，其中X表示观察序列，C表示在各个观察点通过分类得到的分类标记序列。由图中的分类标记序列C得到2个实体中关村属于类别loc(地点类)，中国银行属于类别bank (银行类)。常用的基于统计学习的序列分类方法有隐马尔可夫模型(Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、条件随机场模型(Conditional Random Field)、 AdaBoost模型以及混合模型等等。最大熵模型是一种区分型模型，主要的工作原理如公式(l)所示，其中;K。lx,) 表示在输入序列x的第/...

【技术保护点】
一种浅层自然口语理解系统，该系统包括：　一预处理模块，用于将输入的口语中无意义的填充词去除，并将预处理后的语音序列输出；　一最大熵分类模块，对输入序列的每一点，通过选取该点的词汇特征、上下文特征等特征，通过最大熵算法取得该点的所有可能的分类的后向概率分布；　一维特比搜索模块，用于在最大熵输出的分类标记序列网上搜索最优路径，得到最优的分类标记序列，从而得出命名实体；　其特征在于，最大熵模型选择的特征模块包括：　一词汇特征提取模块，用于通过各个实体类和非实体类经常出现的词汇，判断预处理后的语音序列中的词的实体类别，并将该实体类别送入最大熵分类模块；　一上下文特征提取模块，用于通过实体前、后的特定的词汇，判断预处理后的语音序列中的词的实体类别，并将该实体类别送入最大熵分类模块；和　　一实体模糊匹配模块，用于利用实体知识库，通过模糊匹配算法，在输入的预处理后的语音序列中探测并识别出知识库中已有的实体类别，并将该实体类别送入最大熵分类模块。

【技术特征摘要】
1、一种浅层自然口语理解系统，该系统包括一预处理模块，用于将输入的口语中无意义的填充词去除，并将预处理后的语音序列输出；一最大熵分类模块，对输入序列的每一点，通过选取该点的词汇特征、上下文特征等特征，通过最大熵算法取得该点的所有可能的分类的后向概率分布；一维特比搜索模块，用于在最大熵输出的分类标记序列网上搜索最优路径，得到最优的分类标记序列，从而得出命名实体；其特征在于，最大熵模型选择的特征模块包括一词汇特征提取模块，用于通过各个实体类和非实体类经常出现的词汇，判断预处理后的语音序列中的词的实体类别，并将该实体类别送入最大熵分类模块；一上下文特征提取模块，用于通过实体前、后的特定的词汇，判断预处理后的语音序列中的词的实体类别，并将该实体类别送入最大熵分类模块；和一实体模糊匹配模块，用于利用实体知识库，通过模糊匹配算法，在输入的预处理后的语音序列中探测并识别出知识库中已有的实体类别，并将该实体类别送入最大熵分类模块。2、根据权利要求l所述的浅层自然口语理解系统，其特征在于，所述词汇特征提取模块包括-一单字特征考察模块，用于利用训练语料生成单字特征函数，并根据单字特征函数，考察语音序列中的单字特征，判断当前单字的实体类别；一双字特征考察模块，用于考察语音序列中的双字特征，并根据生成的双字特征函数，判断当前双字的实体类别；一常见的字与双字考察模块，用于从训练语料中通过统计方法获得每一类别的常见字和双字的集合，并利用命名实体种类数量定义各个常见字特征函数，然后根据该集合及各个常见字特征函数得到当前字或者双字的常见字特征，判断当前字或者双字的实体类别。3、根据权利要求l所述的浅层自然口语理解系统，其特征在于，所述上下文特征提取模块进一步包括一考察当前观察前一个观察点己经标记的类别，利用前一观察点类别这一历史信息帮助当前观察点类别的判别的模块；一考察当前观察前面的词是否某个实体类别的触发词，通过触发词的出现帮助判别当前观察是否属于某个类别的模块。4、根据权利要求l所述的浅层自然口语理解系统，其特征在于，所述实体模糊匹配模块包括一匹配偏移点计算模块，用于对输入的语音序列中的匹配点进行偏移处理，并将处理后的结果送入预匹配模块；一预匹配模块，用于将当前输入的字符串与已知类别的实体匹配首先抽取已知实体库内所有实体的前两个双字^'。x'i和^x'2，形成map数据结构m—ne—bg;所述map数据结构m—ne一bg的键是被抽取的所有实体的前两个双字^ X、和^ x、，所述所有实体的前两个双字对应的值为实体列表；然后，考察经过偏移的当前双字，如果该双字和map数据结构m—ne—bg中的某个实体的前两个双字相同，则预匹配成功，且待匹配的实体就是对应键值中的所有实体；其中，t表示当前时刻， s表示偏移量s一实体匹配程度计算模块，用于利用列维斯坦最小编辑距离定义匹配程度的度量，并将匹配度最高的实体类别输出，公式如下其中，/e是待匹配实体的长度；A^一,是当前字符串和实体的列维斯坦最小编辑距离；当完全匹配时Z)^，^为0，户为1,表示最高匹配程度；当完全不匹配时A^^为^W， p为0，表示最低的匹配程度。5、根据权利要求4所述的浅层自然口语理解系统，其特征在于，所述实体模糊匹配模块还包括一p门限值设定模块，用于设定p的门限值，匹配度大于或等于/ 门限值的字符串即被识别为实体类别。6、一种浅层自然口语理解方法，该方法包括以下步骤(1) 对输入语句进行预处理预处理模块将输入的语句中无意...

【专利技术属性】
技术研发人员：徐为群，包长春，李亚丽，潘接林，颜永红，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：11[]

全部详细技术资料下载我是这个专利的主人