一种自动问答方法及装置制造方法及图纸

技术编号:9295806 阅读:72 留言:0更新日期:2013-10-31 00:23
本发明专利技术实施例公开了一种自动问答方法,该方法包括:根据用户终端输入的问题串获取相关的现有用户问答数据;统计所述现有用户问答数据的摘要部分的中心词的词频;根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;根据所述答案词确定所述问题串对应的自动问答的答案。本发明专利技术还公开了一种自动问答装置,该方法和装置不需要建立知识库,也不需要限制知识领域,只需根据现有问答社区的用户问答数据,即可实现自动问答。

【技术实现步骤摘要】
一种自动问答方法及装置
本专利技术涉及网络搜索
,特别涉及一种自动问答方法及装置。
技术介绍
在当前的网络搜索中,问答社区逐渐发展起来,问答社区即用户参与提问和回答,并按照这种问答关系将用户和数据组织起来,可供用户搜索的互联网产品。而问答社区中,完全由用户来回答问题是无法满足用户提问需求的,因此目前大多数问答社区还提供自动问答功能,即由后台服务器自动对用户的问题给出答案。自动问答目前主要有两种实现方法:1)在特定知识领域内,根据设定的分析方法,自动分析用户问题并从现有回答中抽取答案。2)在大量的预定义的知识库中匹配答案。对于第一种在特定知识领域内分析问题并抽取答案,这种方法由于限定在特定的知识领域,所以具有一定的局限性。而对于第二种在大量的预定义的知识库中匹配答案,这种方法解决问题的能力取决于预先存储的知识库数据量的大小,超出知识库范围的问题无法实现自动问答。总之,现有技术中,自动问答必须依托特定知识领域或知识库;只要是超出知识领域或知识库的问题,都无法实现自动问答。
技术实现思路
有鉴于此,本专利技术提供了一种自动问答方法及装置,可以根据现有问答社区的用户问答数据,实现自动问答。为达上述目的,本专利技术的技术方案具体是这样实现的:一种自动问答方法,该方法包括:根据用户终端输入的问题串获取相关的现有用户问答数据;统计所述现有用户问答数据的摘要部分的中心词的词频;根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;根据所述答案词确定所述问题串对应的自动问答的答案。较佳地,所述根据用户终端输入的问题串获取相关的现有用户问答数据,包括:将所述问题串作为检索串,输入到问答社区的搜索引擎,获得与所述检索串对应的查询结果,每条查询结果包括标题部分和带有区别标识的摘要部分。较佳地,统计所述现有用户问答数据的摘要部分的中心词的词频,包括:逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成;其中,针对每一条查询结果,将其摘要部分以句号切分为句子,针对每个句子统计其中各中心词的词频,将所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频。较佳地,所述将所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频,包括:如果句子中有带有区别标识的词,则该句子中各个中心词的词频按3倍标准权重累加;如果该句子前或后相邻的句子中有带有区别标识的词,则该句子中各个中心词的词频按2倍标准权重累加;否则,该句子中各个中心词的词频按标准权重累加,从而得到该句子中所有中心词的加权词频。较佳地,所述逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成,包括:比较每一条查询结果的标题部分与所述问题串之间的相似度,如果当前查询结果的标题和所述问题串的相似度大于预设的阈值,则执行所述统计中心词词频的步骤,否则跳过当前查询结果的统计中心词词频的步骤。较佳地,所述计算各个中心词的词权重,包括:中心词的词权重=该中心词的词频×该中心词的逆文档频率。较佳地,所述根据答案词确定所述问题串对应的自动问答的答案,包括:在所述查询结果的摘要中找到出现答案词最多的前s个摘要;s为大于等于1的整数;将所述s个摘要各按句号分成多个句子;在这些句子中找到出现答案词和用户问题串的中心词个数最多的句子,作为所述问题串对应的自动问答的答案。一种自动问答装置,该装置包括:问答数据获取模块,用于根据用户终端输入的问题串获取相关的现有用户问答数据;词频统计模块,用于统计所述现有用户问答数据的摘要部分的中心词的词频;答案词确定模块,用于根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;自动问答答案确定模块,用于根据所述答案词确定所述问题串对应的自动问答的答案。较佳地,所述问答数据获取模块,包括:检索单元,用于将所述问题串作为检索串,输入到问答社区的搜索引擎;获取单元,用于获取与所述检索串对应的查询结果,每条查询结果包括标题部分和带有区别标识的摘要部分。较佳地,所述词频统计模块包括:切分单元,用于针对每一条查询结果,将其摘要部分以句号切分为句子;统计单元,用于针对所述切分单元切分的每个句子,统计其中各中心词的词频;累加单元,用于将所述统计单元统计的所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频;控制单元,用于控制所述切分单元、统计单元和累加单元,逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成。较佳地,所述累加单元包括:标识判断子单元,用于判断所述切分单元切分的句子中的区别标识;权重累加子单元,用于根据所述标识判断子单元的判断进行词频累加;如果句子中有带有区别标识的词,则该句子中各个中心词的词频按3倍标准权重累加;如果该句子前或后相邻的句子中有带有区别标识的词,则该句子中各个中心词的词频按2倍标准权重累加;否则,该句子中各个中心词的词频按标准权重累加,从而得到该句子中所有中心词的加权词频。较佳地,所述词频统计模块进一步包括:相似度比较单元,用于比较每一条查询结果的标题部分与所述问题串之间的相似度;所述控制单元进一步用于,如果当前查询结果的标题和所述问题串的相似度大于预设的阈值,则控制所述切分单元、统计单元和累加单元,执行所述统计中心词词频的步骤,否则跳过当前查询结果的统计中心词词频的步骤。较佳地,所述答案词确定模块包括:词权重计算单元,用于根据公式:中心词的词权重=该中心词的词频×该中心词的逆文档频率,计算所述各个中心词的词权重;答案词确定单元,用于将词权重最大的中心词确定为答案词。较佳地,所述自动问答答案确定模块包括:摘要获取单元,用于在所述查询结果的摘要中找到出现答案词最多的前s个摘要;s为大于等于1的整数;摘要切分单元,用于将所述s个摘要各按句号分成多个句子;答案确定单元,用于在所述摘要切分单元切分的句子中找到出现答案词和用户问题串的中心词个数最多的句子,作为所述问题串对应的自动问答的答案。由上述技术方案可见,本专利技术的这种自动问答方法及装置,充分利用了问答社区已有的用户问答数据,不需要建立问答知识库,也不需要限制用户问题的知识领域,并根据词频、逆文档频率、文本相似度等参数从已有的问答数据中找出和用户提出的问题最相关的答案,实现全自动回答。除此以外,本专利技术还可以用于对普通问题或者文本串进行语义扩展,可以用于分类或者搜索等。附图说明图1为本专利技术实施例的自动问答方法流程图;图2为本专利技术实施例的自动问答装置结构示意图;图3为本专利技术实施例的问答数据获取模块结构示意图;图4为本专利技术实施例的词频统计模块结构示意图;图5为本专利技术实施例的累加单元结构示意图;图6为本专利技术实施例的答案词确定模块结构示意图;图7为本专利技术实施例的自动问答答案确定模块结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本专利技术进一步详细说明。本专利技术主要是利用问答社区已有的问答数据,通过搜索引擎得到与用户提出的问题串相关的问答数据检索结果,并根据词频,逆文档频率,以及文本段之间相似度等参数,从这些检索结果中选择候选单词,以及计算对这些候选单词本文档来自技高网...

【技术保护点】
一种自动问答方法,其特征在于,该方法包括:根据用户终端输入的问题串获取相关的现有用户问答数据;统计所述现有用户问答数据的摘要部分的中心词的词频;根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;根据所述答案词确定所述问题串对应的自动问答的答案。

【技术特征摘要】
1.一种自动问答方法,其特征在于,该方法包括:根据用户终端输入的问题串获取相关的现有用户问答数据;统计所述现有用户问答数据的摘要部分的中心词的词频;其中,如果所述摘要部分有带有区别标识的词,则在统计所述词频时采用加权计算;根据所述各个中心词的词频和预先统计出的所述各个中心词的逆文档频率,计算所述各个中心词的词权重,将词权重最大的中心词确定为答案词;根据所述答案词确定所述问题串对应的自动问答的答案。2.如权利要求1所述的自动问答方法,其特征在于,所述根据用户终端输入的问题串获取相关的现有用户问答数据,包括:将所述问题串作为检索串,输入到问答社区的搜索引擎,获得与所述检索串对应的查询结果,每条查询结果包括标题部分和带有区别标识的摘要部分。3.如权利要求2所述的自动问答方法,其特征在于,统计所述现有用户问答数据的摘要部分的中心词的词频,包括:逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成;其中,针对每一条查询结果,将其摘要部分以句号切分为句子,针对每个句子统计其中各中心词的词频,将所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频。4.如权利要求3所述的自动问答方法,其特征在于,所述将所有句子中的中心词的词频进行累加,得到摘要中所有中心词的词频,包括:如果句子中有带有区别标识的词,则该句子中各个中心词的词频按3倍标准权重累加;如果该句子前或后相邻的句子中有带有区别标识的词,则该句子中各个中心词的词频按2倍标准权重累加;否则,该句子中各个中心词的词频按标准权重累加,从而得到该句子中所有中心词的加权词频。5.如权利要求3所述的自动问答方法,其特征在于,所述逐条统计每一条查询结果的摘要部分的中心词词频,直至所有查询结果都统计完成,包括:比较每一条查询结果的标题部分与所述问题串之间的相似度,如果当前查询结果的标题和所述问题串的相似度大于预设的阈值,则执行所述统计中心词词频的步骤,否则跳过当前查询结果的统计中心词词频的步骤。6.如权利要求1所述的自动问答方法,其特征在于,所述计算各个中心词的词权重,包括:中心词的词权重=该中心词的词频×该中心词的逆文档频率。7.如权利要求2所述的自动问答方法,其特征在于,所述根据答案词确定所述问题串对应的自动问答的答案,包括:在所述查询结果的摘要中找到出现答案词最多的前s个摘要;s为大于等于1的整数;将所述s个摘要各按句号分成多个句子;在这些句子中找到出现答案词和用户问题串的中心词个数最多的句子,作为所述问题串对应的自动问答的答案。8.一种自动问答装置,其特征在于,该装置包括:问答数据获取模块,用于根据用户终端输入的问题串获取相关的现有用户问答数据;词频统计模块,用于统计所述现有用户问答数据的摘要部分的中心词的词频;其中,如果所述摘要部分有...

【专利技术属性】
技术研发人员:路彦雄贺翔焦峰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1