一种识别自然语言的智能应答方法技术

技术编号:13680166 阅读:47 留言:0更新日期:2016-09-08 08:06
本发明专利技术提供了一种识别自然语言的智能应答方法,首先对用户提出的模糊问题进行语音转换,对得到识别结果的数据进行问题理解;所述问题理解对模糊问题进行预处理、分词、解析预处理、句式分析、语义分析,使用语义分析的结果去数据库获取匹配的答案;对关键字进行信息检索,用提取出来的关键字到文档库中查找相关的文档,文档数量决定于知识库中相关问题的数量;根据检索到的文档选取权重最高的语句进行答案抽取,作为最终答案;读出答案,实现智能应答。用准确、简洁的自然语言回答用户用自然语言提出的问题。

【技术实现步骤摘要】

本专利技术涉及人机交互
,尤其是涉及一种识别自然语言的智能应答方法
技术介绍
人类因为具有语言的能力而区别于其他物种,而智能应答系统是自然语言处理领域一个非常热的方向。互联网上已有超过万亿数量的信息网页,几乎所有这些页面都是用自然语言描述的。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。智能应答技术正是为了弥补搜索引擎的缺点而发展起来的,它综合运用了各种自然语言处理技术使用户以自然语言输入问题,而不是关键词的组合。目前,国内外有很多的科研机构参与了英文自动问答技术的研究,甚至已经有相对成熟的英文自动问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文自动问答系统。随着计算机以及互联网不断发展,传统以人工操作为主的应答方式已开始转向机器智能交互,然而,常见的自动应答系统一般都依赖于预先建立的数据库来实现,数据库知识的维护是需要很大人力成本来维护,并且同一个问题,由于人们的表达方式的差异,甚至语气的差异,所代表的意义也不相同。而传统的数据维护,问题对应答案的模式已经不能满足自动应答的需求。因此目前传统的搜索引擎存在很多不足。第一,检索的需求往往用关键词的组合来表达。由于用户的检索需求往往很复杂,很多时候无法用几个关键词的简单组合来表示。用户都没有将自己的检索意图表达清楚,搜索引擎
自然就没有办法找出令用户满意的答案了;第二,以关键词匹配为基础的检索,匹配算法是停留在语言的表面,而没有触及语义,因此检索效果很难进一步提高;第三,检索的结果往往是很多相关的网页或文档。例如,用户在Google中输入几个关键字,它有可能返回上百个网页,用户需要花费很多时间在这些网页中查找自己需要的信息。因此,对于智能应答的关键在于对提问者的问题做出正确的相应分析,把自然语言问题转换成一种准确语言来检索结果,类似的问题也会有很多结果,所以,我们既要做好语义分析,同样也需要检索最贴近的答案,以实现真正意义的智能应答。
技术实现思路
本专利技术提供了一种识别自然语言的智能应答方法,通过准确分析问题语义,检索准确答案,真正实现智能应答。其技术方案如下所述:一种识别自然语言的智能应答方法,包括以下步骤:1)首先对用户提出的模糊问题进行语音转换,所述语音转换通过建立识别基本单元的声学模型以及语言模型,再将输入的目标语音的特征参数和模型进行比较,从而得到识别结果;2)对得到识别结果的数据进行问题理解,所述问题理解对模糊问题的语句进行预处理、分词、解析预处理、句式分析、语义分析,使用语义分析的结果去数据库获取匹配的答案;所述预处理用于判断语句是特殊疑问句或陈述句,然后将特殊疑问句转换成在句式分析中容易处理的一般疑问句;所述分词用于判断语句的短语;所述解析预处理用于处理数字合并、处理词的多意情况;所述句式分析用于分析语句是陈述句还是疑问句,并提取语句中的关键词;所述语义分析用于分析语句中作为谓语和宾语的关键词;3)对关键字进行信息检索,用提取出来的关键字到文档库中查找相关的文档,文档数量决定于知识库中相关问题的数量;4)根据检索到的文档选取权重最高的语句进行答案抽取,作为最终答
案;5)读出答案,实现智能应答。在步骤1)中,所述语音转换的识别包括以下步骤:(1)硬件系统通过语音采集设备将接收到的语音转换成模拟信号;(2)将模拟信号通过滤波、采样A/D转换变成计算机能处理的数字信号;(3)计算机提取语音特征参数与模型库中的参数进行匹配产生识别结果。在步骤2)中,所述预处理区分特殊疑问句与陈述句,将所有\any不any\类型转换成“any....吗”类型。进一步的,步骤2)中,所述分词技术采用正向最大化匹配法。步骤2)中,在解析预处理中,所述数字合并是将中文数字相邻的合并在一起;所述处理词的多意是查询词库中关键字段是否存在多意,如果存在多意,查找多意条件是否满足再进行替换。步骤2)中,所述句式分析是通过遍历语句的分词数组,依次去数据库进行比对判断分词类型是否疑问词,如果有疑问词可初步判定该句为疑问句,然后提取关键词,所述关键词包括名词、动词、形容词、限定性副词。步骤2)中,所述语义解析按照汉语的语法来进行计算机建模,识别作为谓语、宾语的关键词。步骤3)中,所述信息检索能够直接调用已有知识库或者调用Internet上的搜索引擎,搜索出来相关文档,以便进行答案抽取来提炼答案。步骤4)中,所述答案抽取通过计算候选答案集中文档与问题的相关度,按权重排序,再从中抽取能作为答案的段落或句子,根据问题理解阶段得到的回答模式规则进行答案的书写。步骤4)中,在没有合适的规则可用时,则截取句子中重要的部分作为问题的答案,关键词最集中的位置为句子中重要的部分,将该部分向前后两个方向进行适当的扩展,得到包含在其中的答案。本专利技术由于采用上述方案,极大的提高了自动应答的准确率,真正实现智能应答,促进智能客服行业的发展。附图说明图1是所述识别自然语言的智能应答方法的示意图;图2是所述语音转换的示意图;图3是所述问题理解的示意图。具体实施方式本专利技术提供了一种识别自然语言的智能应答方法,如图1所示,主要包括四个部分:语音转换、问题理解、信息检索、答案抽取。具体的可以参见图中,语音转换包括语音采集设备对语音进行数字化处理,再经过语音的预处理(包括去噪等)后到模型库进行比对,进行语音识别;问题理解阶段包括语句预处理、分词、解析预处理、句式分析、语义分析,句式分析会将语句中涉及的问题分类,然后进行问句扩展,使用语义分析后的结果去数据库获取匹配的答案,实现检索模式,最后选取答案,完成答案抽取。一、语音转换:语音识别一般总体分为两步:学习阶段和识别阶段。学习阶段的任务是建立识别基本单元的声学模型以及语言模型,也就是说学习阶段是前期完善数据库语言模型。而识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。系统应用了模板匹配法来进行处理。如图2所示,识别阶段的主要步骤如下:1、系统通过语音采集设备(如话筒,电话)接收到的语音转换成模拟信号;2、将模拟信号通过滤波、采样A/D转换变成计算机能处理的数字信号;3、计算机提取语音特征参数与模型库中的参数进行匹配产生识别结果。以上既为语音转换成文字的步骤,语音转换的结果在后面的处理阶段中都将用到。二、问题理解:问题理解部分需要完成以下工作:对问题进行预处理、分词、解析预处理、句式分析、语义分析,使用语义分析的结果去数据库获取匹配的答案,从而得到问题答案的可能形式。如图3所示,其中,分词处理是使用正向最大化匹配原则去数据库查找;把查找的词放入wordElement list,wordElementlist是把句子分词后存入的列表,比如“今天去哪里吃饭”会存入【今天】【去】【哪里】【吃饭】四个列表;在splitedwords(分词结果集)加入数字、字母、未知汉字,Splitedwords是分词结果集,里面包含了wordElementlist和未知字词比如“奤,搙”这种词库里面没有的字和数字、字母。解析预处理包括数字合并、数字汉字转原型、处理词的多意情况,句式分析包括对语句的分析,分析是否本文档来自技高网
...

【技术保护点】
一种识别自然语言的智能应答方法,包括以下步骤:1)首先对用户提出的模糊问题进行语音转换,所述语音转换通过建立识别基本单元的声学模型以及语言模型,再将输入的目标语音的特征参数和模型进行比较,从而得到识别结果;2)对得到识别结果的数据进行问题理解,所述问题理解对模糊问题的语句进行预处理、分词、解析预处理、句式分析、语义分析,使用语义分析的结果去数据库获取匹配的答案;所述预处理用于判断语句是特殊疑问句或陈述句,然后将特殊疑问句转换成在句式分析中容易处理的一般疑问句;所述分词用于判断语句的短语;所述解析预处理用于处理数字合并、处理词的多意情况;所述句式分析用于分析语句是陈述句还是疑问句,并提取语句中的关键词;所述语义分析用于分析语句中作为谓语和宾语的关键词;3)对关键字进行信息检索,用提取出来的关键字到文档库中查找相关的文档,文档数量决定于知识库中相关问题的数量;4)根据检索到的文档选取权重最高的语句进行答案抽取,作为最终答案;5)读出答案,实现智能应答。

【技术特征摘要】
1.一种识别自然语言的智能应答方法,包括以下步骤:1)首先对用户提出的模糊问题进行语音转换,所述语音转换通过建立识别基本单元的声学模型以及语言模型,再将输入的目标语音的特征参数和模型进行比较,从而得到识别结果;2)对得到识别结果的数据进行问题理解,所述问题理解对模糊问题的语句进行预处理、分词、解析预处理、句式分析、语义分析,使用语义分析的结果去数据库获取匹配的答案;所述预处理用于判断语句是特殊疑问句或陈述句,然后将特殊疑问句转换成在句式分析中容易处理的一般疑问句;所述分词用于判断语句的短语;所述解析预处理用于处理数字合并、处理词的多意情况;所述句式分析用于分析语句是陈述句还是疑问句,并提取语句中的关键词;所述语义分析用于分析语句中作为谓语和宾语的关键词;3)对关键字进行信息检索,用提取出来的关键字到文档库中查找相关的文档,文档数量决定于知识库中相关问题的数量;4)根据检索到的文档选取权重最高的语句进行答案抽取,作为最终答案;5)读出答案,实现智能应答。2.根据权利要求1所述的识别自然语言的智能应答方法,其特征在于:步骤1)中,所述语音转换的识别包括以下步骤:(1)硬件系统通过语音采集设备将接收到的语音转换成模拟信号;(2)将模拟信号通过滤波、采样A/D转换变成计算机能处理的数字信号;(3)计算机提取语音特征参数与模型库中的参数进行匹配产生识别结果。3.根据权利要求1所述的识别自然语言的智能应答方法,其特征在于:步骤2)中,所述预处理区分特殊疑问句与陈述句,将所有\any不any\类型
\t转换成“any....吗”类型。4.根据权利要求1所述的...

【专利技术属性】
技术研发人员:金旭东李明明张海超冯启忠
申请(专利权)人:北京紫平方信息技术股份有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1