语音交互中的易错字校准方法技术

技术编号:16483383 阅读:222 留言:0更新日期:2017-10-31 15:50
本发明专利技术提供了一种语音交互中的易错字校准方法,包括:识别语境步骤、基于限制语义的自动纠错步骤、基于语义反馈的人工纠错步骤。本发明专利技术通过与用户语音交互,感知、识别话题语境,从而在受限语义范围内,利用命名实体识别技术,对含有特定意义的实体实现自动纠错功能,并支持通过人工反馈获得附加语义进而纠错,实现比现有语音识别软件更高的输入效率以及更方便的错字修正方式。

Error calibration method of voice interaction in the word

The present invention provides a method of voice interaction, including: identifying the context word error prone calibration step, based on the automatic error correction procedure, based on semantic constraints semantic feedback artificial error correction steps. The present invention through interaction with the user perception, speech recognition and semantic topic context, in a limited range, the use of named entity recognition technology, automatic error correction function to contain the specific meaning of the entity, and is supported by artificial feedback to obtain additional semantic and error correction, the input efficiency is higher than the existing voice recognition software and more convenient the error correction method.

【技术实现步骤摘要】
语音交互中的易错字校准方法
本专利技术涉及易错字校准技术,具体地,涉及语音交互中的易错字校准方法,尤其是将自然语言理解方法应用于语音交互易错字的校准与纠正中,实现了一个可用的语音交互易错字校准方案。
技术介绍
语音交互作为一种人机交互的新途径,近年来,获得了突飞猛进的广泛应用。这首先源于语音识别技术的发展,从隐马尔科夫模型(HiddenMarkovModel,HMM)、混合高斯模型(GaussianMixtureModel,GMM)到现在的深度神经网络模型(DeepNeuralNetwork,DNN),语音识别系统的错误率大幅下降;其次,智能设备用户的使用习惯尚未成型,新技术如语音交互容易被大众接受;而云计算、移动互联网的超常规发展使得大量的全新语料资源产生进而助推了语音识别技术的发展。在很多场景下,语音交互具有更加现实的实用价值,符合人类的交互习惯。然而,由于语音输入不可避免会受到环境噪声、衰落信道的影响,经常会产生很多错误结果,此外,由于汉语中存在大量的同音字、音近字现象,导致机器无法准确识别用户的语音输入,使语音识别中较易出现错字。换言之,目前的语音识别正确率尚未达到人们期望的水平,语音识别技术也必须在很多方面取得突破性进展。经对现有技术文献的检索发现,中国专利文献号CN201210584746.2,公开号CN103021412A,记载了一种“语音识别方法和系统”,该技术包括:对用户输入的语音信号进行语音识别,获得语音识别结果以及语音识别结果中各字符对应的语音片段;接收用户单独输入的纠错信息并生成纠错字符串;根据纠错字符串确定用户输入的语音信号中产生识别错误的语音段;根据语音识别结果中各字符对应的语音片段,确定产生识别错误的语音段在语音识别结果中所对应的字符串,作为错误字符串;利用纠错字符串替换错误字符串。该技术实现一种错误字符串纠错方法,但纠错字符串的录入需要使用特殊按键后方可录入,或使用拼音、手写等其他方式录入。其中语音录入方式仅可重复之前录入内容,以期达到修正错误识别的目的;但若用户录入的字词未被系统所录入,则该方案将无法正确纠正。中国专利文献号CN201310589827.6,公开号CN103680505A,记载了一种“语音识别方法及系统”,该方法包括:持续接收录音输入;利用小词汇量语音识别网络对所述录音进行语音识别,以检查所述录音中是否包含预设的关键词;如果所述录音中包含所述关键词,则利用大词汇量语音识别网络对所述关键词后的录音进行识别,得到识别结果。该技术解决了长时间监听命令时的识别准确率问题,可由小词汇量网络顺利过渡至正常的语音识别阶段,即文中所述的大词汇量网络。但该技术并未对大词汇量网络进行优化,如限制语境下的语义增强等,且未提到相关的易错字校准技术。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种语音交互中的易错字校准方法。本专利技术使用现有语音识别API(ApplicationProgrammingInterface,应用程序编程接口),完成一个可用的有价值的易错字校准系统。该系统通过与用户语音交互,感知、识别话题语境,从而在受限语义范围内,利用命名实体识别技术,对含有特定意义的实体实现自动纠错功能,并支持通过人工反馈获得附加语义进而纠错,实现比现有语音识别软件更高的输入效率以及更方便的错字修正方式。根据本专利技术提供的一种语音交互中的易错字校准方法,包括:识别语境步骤:针对不同的领域创建相应的语境知识库,构造语境知识库的步骤包括:首先根据领域的关键词,通过搜索引擎得到相关文档,作为该领域的语料库;然后根据语义知识,获取该领域的核心词,按照核心词聚类得到该领域的实例句子,从而构建了语境知识库。优选地,在识别语境步骤中,依据文本句子与语境知识库中不同领域的语境相似度来判断,作为自动纠错的前提;其中,语境相似度的具体算法如下:S1:统计文本句子A中每个词语出现的次数,并表示成向量形式;S2:按照余弦相似度计算公式,计算文本句子A与语境Ci中向量形式的每一个实例句子B这两个向量之间向量夹角的余弦值,作为基于向量的词形相似度;S3:将文本句子A的所有词语转为拼音形式,统计文本句子A中每个不同拼音序列出现的次数,表示成向量形式,计算以拼音形式表示的文本句子A与语境Ci中向量形式的每一个实例句子B这两个向量之间向量夹角的余弦值,得到基于向量的拼音相似度;S4:通过对拼音相似度和词形相似度赋予不同权重,计算文本句子A与每一个实例句子B的句子相似度,并选择句子相似度最大的值,作为文本句子A与语境Ci的句子相似度;S5:计算文本句子A与语境Ci的核心词匹配率,即文本句子A中含有语境Ci中所有核心词的数量占文本句子A中所有词语数量的百分比;S6:通过对句子相似度和核心词匹配率赋予不同权重,计算文本句子A与语境Ci的语境相似度;S7:计算文本句子A与语境Ci基于前文语境的平滑语境相似度SmoothContextSim(A,Ci):SmoothContextSim(A,Ci)=λ1·ContextSim(A-2,Ci)+λ2·ContextSim(A-1,Ci)+λ3·ContextSim(A,Ci)λ1+λ2+λ3=1λ1≤λ2≤λ3其中,A,A-1,A-2分别表示当前文本句子、当前文本句子的前第一句、当前文本句子的前第两句;λ1,λ2,λ3是常数;ContextSim(X,Y)表示文本句子X与语境Y的语境相似度。优选地,还包括:基于限制语义的自动纠错步骤:获取用户语音输入的文本句子中的待纠错地名,对待纠错地名进行差错纠错。优选地,所述基于限制语义的自动纠错步骤,包括:文本句子读取步骤:读入用户语音输入的文本句子P,P=P1P2...Pi...Pn;其中,pi表示文本句子中的第i个汉字,n表示文本句子的长度;待纠错地名获取步骤:扫描P,根据地名匹配规则进行匹配,得到待纠错地名;差错纠错步骤:将待纠错地名与地名库中的所有地名进行短文本相似度匹配,得到与待纠错地名最相似的地名,作为查错纠错后的正确地名。优选地,地名匹配规则包括如下任一个规则:规则一:如果Wl属于左边界字的集合,Wr属于右边界字的集合,Wp的字数Wp.len大于1,则将Wp识别为待纠错地名;规则二:如果Wl于左边界字的集合,Wr属于地名后缀的集合,则将由Wp、Wr构成的字串识别为待纠错地名;规则三:如果Wl属于地名后缀的集合,Wr属于右边界字的集合,Wp的字数大于1,则将Wp识别为待纠错地名;规则四:如果Wl属于地名后缀的集合,Wr地名后缀的集合,则将由Wp、Wr构成的字串识别为待纠错地名;其中,Wl是待纠错词的前一个词,Wp是待纠错词,Wr是待纠错词的后一个词。优选地,在基于限制语义的自动纠错步骤中,采用带权重的最长公共子序列算法来计算短文本相似度匹配;所述带权重的最长公共子序列算法,是指:两序列的任意两元素之间存在相似度函数,寻找两序列中相似度之和最大的公共子序列,其中,相似度函数定义为两拼音之间的拼音相似度。优选地,所述拼音相似度,是指:分别计算两拼音中声母的相似度、两拼音中韵母的相似度,并对音节混用的情况分别赋予相应的相似度。优选地,还包括:基于语义反馈的人工纠错步骤:根据语音输入的更正句式进行本文档来自技高网
...
语音交互中的易错字校准方法

【技术保护点】
一种语音交互中的易错字校准方法,其特征在于,包括:识别语境步骤:针对不同的领域创建相应的语境知识库,构造语境知识库的步骤包括:首先根据领域的关键词,通过搜索引擎得到相关文档,作为该领域的语料库;然后根据语义知识,获取该领域的核心词,按照核心词聚类得到该领域的实例句子,从而构建了语境知识库。

【技术特征摘要】
1.一种语音交互中的易错字校准方法,其特征在于,包括:识别语境步骤:针对不同的领域创建相应的语境知识库,构造语境知识库的步骤包括:首先根据领域的关键词,通过搜索引擎得到相关文档,作为该领域的语料库;然后根据语义知识,获取该领域的核心词,按照核心词聚类得到该领域的实例句子,从而构建了语境知识库。2.根据权利要求1所述的语音交互中的易错字校准方法,其特征在于,在识别语境步骤中,依据文本句子与语境知识库中不同领域的语境相似度来判断,作为自动纠错的前提;其中,语境相似度的具体算法如下:S1:统计文本句子A中每个词语出现的次数,并表示成向量形式;S2:按照余弦相似度计算公式,计算文本句子A与语境Ci中向量形式的每一个实例句子B这两个向量之间向量夹角的余弦值,作为基于向量的词形相似度;S3:将文本句子A的所有词语转为拼音形式,统计文本句子A中每个不同拼音序列出现的次数,表示成向量形式,计算以拼音形式表示的文本句子A与语境Ci中向量形式的每一个实例句子B这两个向量之间向量夹角的余弦值,得到基于向量的拼音相似度;S4:通过对拼音相似度和词形相似度赋予不同权重,计算文本句子A与每一个实例句子B的句子相似度,并选择句子相似度最大的值,作为文本句子A与语境Ci的句子相似度;S5:计算文本句子A与语境Ci的核心词匹配率,即文本句子A中含有语境Ci中所有核心词的数量占文本句子A中所有词语数量的百分比;S6:通过对句子相似度和核心词匹配率赋予不同权重,计算文本句子A与语境Ci的语境相似度;S7:计算文本句子A与语境Ci基于前文语境的平滑语境相似度SmoothContextSim(A,Ci):SmoothContextSim(A,Ci)=λ1·ContextSim(A-2,Ci)+λ2·ContextSim(A-1,Ci)+λ3·ContextSim(A,Ci)λ1+λ2+λ3=1λ1≤λ2≤λ3其中,A,A-1,A-2分别表示当前文本句子、当前文本句子的前第一句、当前文本句子的前第两句;λ1,λ2,λ3是常数;ContextSim(X,Y)表示文本句子X与语境Y的语境相似度。3.根据权利要求1所述的语音交互中的易错字校准方法,其特征在于,还包括:基于限制语义的自动纠错步骤:获取用户语音输入的文本句子中的待纠错地名,对待纠错地名进行差错纠错。4.根据权利要...

【专利技术属性】
技术研发人员:黄亦睿刘功申苏波刘春梅李建华
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1