自动问答方法及系统技术方案

技术编号:2838893 阅读:161 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自动问答方法,包括:将输入的文字信息进行切分;根据切分的结果进行查找;用相匹配的查找结果刷新结果集合;判断输入的文字信息匹配是否完成;当输入的文字信息匹配完成,依据结果集合选择应答。本发明专利技术还公开了一种自动问答系统。本发明专利技术能够应用于不同的语言,特别是针对中文用词灵活、句法复杂多变的特点,在自动问答系统中利用中文词性通配符可以提高中文知识库的内容覆盖面,减少建库的工作量,同时显著的提高基于模式匹配的中文自动问答系统的准确率和招回率。

【技术实现步骤摘要】

本专利技术涉及一种计算机应用系统及方法,具体说,利用语言匹配技术的自动问答方法及语言的自动问答系统。
技术介绍
现有的语言自动问答系统中,大多是采用简单的模式匹配技术实现的,其方法是从句子的第一个词开始,对用户输入的句子和知识库中的句子进行匹配,如果两个词相同就继续下一个词的匹配,中间可能利用任意词通配符来忽略掉用户输入的句子中存在的一些不太关键的词,重复这一过程直到整个用户输入的句子匹配完毕,如果匹配成功就将知识库中的句子所对应的应答返回给用户。但是相对于外文而言,中文具有用词灵活、句法复杂多变的特点,并不适合简单的模式匹配技术。现有的中文自动问答系统是参考了国外一些英文的自动问答系统,采用简单的模式匹配技术实现的,这导致中文自动问答系统普遍存在中文知识库的覆盖面窄、系统的准确率和招回率都很低的问题,对用户体验造成了伤害。自动问答系统又称QA(automatic Question Answering)系统,它采用自然语言处理技术,一方面完成对用户问题的分析处理,另一方面完成正确答案的生成。自动问答系统以自然语言理解技术为核心,涉及到计算语言学、信息科学和人工智能等多门学科,是计算机应用研究的热点之一。自然语言理解是人工智能领域中的一个重要研究方向,它使计算机能够理解和运用人类的自然语言,可以实现人与计算机之间基于自然语言的有效通信。知识库是自动问答系统的关键组成部分,通常以问答语句对的形式存储了大量的信息。当用户输入的自然语言句子与知识库中的某一个句子匹配成功的时候,其对应的应答就会被返回给用户。中文分词和词性标注词是最小的能够独立活动的有意义的语言成分。在中文中,词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理的特有问题就是如何将中文的字串分割为合理的词语序列,即中文分词。中文分词是句法分析等深层处理的基础,也是机器翻译、信息检索和信息抽取等应用的重要环节。而词性标注就是根据句子上下文中的信息给句中的每个词一个正确的词性标记。自动问答系统的准确率为自动问答系统做出正确应答的次数除以总共的应答次数。例如用户向机器人输入了100个句子,机器人做出了100次应答,其中有20次是正确的,那么这个机器人系统的准确率就是20%。自动问答系统的召回率为自动问答系统做出正确应答的次数除以知识库中存在正确应答的次数。例如用户向机器人输入了100个句子,机器人做出了100次应答,其中有20次是正确的,但是用户输入的100个句子中,知识库中只有其中25个句子的正确应答存在,那么这个机器人系统的招回率就是80%。下面举例说明采用简单的模式匹配技术实现的中文自动问答系统的缺点。假设自动问答系统的知识库中存在以下两组问答语句对,每组都包括一个用户输入的自然语言句子(以下简称用户句子)和系统应答。第一组 用户句子你出生在深圳吗?系统应答是啊,你怎么知道的?第二组用户句子你出生在北京吗?系统应答不对,我出生在深圳。当用户输入“你出生在深圳吗?”或是“你出生在北京吗?”的时候,应答都是正确的。但是当用户输入“你出生在上海吗?”,自动问答系统就无法找到匹配的用户句子,从而返回了错误的应答(可能是系统缺省的应答)。但是实际上,第二组中的系统应答才是用户输入的正确应答。因为可以替换“上海”的词非常多,所以上述问题也无法通过增加更多的问答语句对来解决。另外,将“北京”替换为任意词通配符也不可行,因为用户可能会输入“你出生在76年吗?”,同样会匹配成功,导致应答出错。综上所述,简单的模式匹配技术并不适合中文自动问答系统,导致中文知识库的覆盖面窄,系统的准确率和招回率都很低,会对用户体验造成伤害。
技术实现思路
本专利技术所解决的技术问题是提供一种自动问答系统,能够提高中文知识库的内容覆盖面,同时显著的提高模式匹配的准确率和招回率。本专利技术的技术方案如下一种自动问答方法,包括(1)将输入的文字信息进行切分;(2)根据切分的结果进行查找; (3)用相匹配的查找结果刷新结果集合;(4)判断输入的文字信息匹配是否完成;(5)当输入的文字信息匹配完成,依据结果集合选择应答。优选的,推理知识库中存储有所述库存文字信息。优选的,所述步骤(2)中,库存文字信息经过分词和词性标注处理。优选的,所述步骤(1)具体为,中文分词和词性标注模块对输入的文字信息进行切分处理,输出文字信息的分词和词性标注信息。优选的,步骤(2)具体为,根据输入文字信息的分词和词性标注信息,在结果集合内查找具有相同分词的库存文字信息;步骤(4)具体为,当输入文字信息匹配没有完成,提取输入文字信息的下一个分词作为查找依据,并将结果集合作为查找目标,执行步骤(2)。优选的,步骤(2)具体为根据输入文字信息的分词和词性标注信息,在结果集合内查找具有指定词性通配符的库存文字信息;步骤(4)具体为,当输入文字信息匹配没有完成,提取输入文字信息的下一个分词作为查找依据,并将结果集合作为查找目标,执行步骤(2)。优选的,步骤(2)具体为根据输入文字信息的分词和词性标注信息,在结果集合内查找指定任意词通配符的库存文字信息;步骤(4)具体为,当输入文字信息匹配没有完成,提取输入文字信息的下一个分词作为查找依据,并将结果集合作为查找目标,执行步骤(2)。优选的,步骤(2)具体为根据输入文字信息的分词和词性标注信息,查找具有相同分词的库存文字信息,并按照设定的分值积分;同时,根据输入文字信息的分词和词性标注信息,在结果集合内中查找指定词性通配符的库存文字信息,并按照设定的分值积分;步骤(4)具体为,当输入文字信息匹配没有完成,提取文字信息的下一个分词作为查找依据,并将结果集合作为查找目标,执行步骤(2)。优选的,步骤(2)还包括根据输入文字信息的分词和词性标注信息,在结果集合内查找指定任意词通配符的库存文字信息,并按照设定的分值积分;步骤(4)具体为,当输入文字信息匹配没有完成,提取文字信息的下一个分词作为查找依据,并将结果集合作为查找目标,执行步骤(2)。优选的,步骤(2)进一步包括当没有查找到相匹配的库存文字信息时,在推理知识库中的缺省应答中随机选择一个作为应答,发送并结束。本专利技术的另一个技术方案如下一种自动问答系统,包括网络接口模块,接收输入的文字信息,将应答发送;分词和词性标注模块,对输入的文字信息进行分词和词性标注,将切分出来的分词及其词性标注信息发送;推理模块,根据分词及其词性标注信息查找对应的应答,将应答发送到所述的网络接口模块。优选的,所述分词和词性标注模块调用计算语言知识库中的分词和词性标注方法。优选的,所述计算语言知识库中还存储有词语使用频率的统计数据和词库。优选的,所述推理模块调用推理知识库中与文字信息相对应的应答。优选的,所述推理知识库存储有库存文字信息,所述库存文字信息经过分词或者词性标注处理。优选的,所述库存文字信息包含分词、任意词通配符或者词性通配符。本专利技术能够应用于不同的语言,特别是针对中文用词灵活、句法复杂多变的特点,在自动问答系统中利用中文词性通配符可以提高中文知识库的内容覆盖面,减少建库的工作量,同时显著的提高基于模式匹配的中文自动问答系统的准确率和招回率,从而提升用户的体验。附图说明图1是自动问答方法的操作流程图;图2是自动问答系统的结构示本文档来自技高网
...

【技术保护点】
一种自动问答方法,包括:(1)将输入的文字信息进行切分;(2)根据切分的结果进行查找;(3)用相匹配的查找结果刷新结果集合;(4)判断输入的文字信息匹配是否完成;(5)当输入的文字 信息匹配完成,依据结果集合选择应答。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨海松邓大付余祥鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利