一种答案推荐方法和装置制造方法及图纸

技术编号:9406222 阅读:127 留言:0更新日期:2013-12-05 06:07
本发明专利技术提供了一种答案推荐方法和装置,其中,该方法包括:获取问题和该问题对应答案的文本内容,分词得到所述问题的语义单元和所述答案的语义单元;利用预先建立的问题领域词典,查找出所述问题的语义单元在各个类别中的权重,计算所述问题在各个类别中的主题权重;以及,利用预先建立的答案领域词典,查找出所述各答案的语义单元在各个类别中的权重,分别计算所述各答案在各个类别中的主题权重;利用得到的所述问题的主题权重和各答案的主题权重,分别计算各答案与所述问题的主题相似度,根据所述主题相似度的计算结果推荐答案。相比现有技术,本发明专利技术分别生成问题领域词典和答案领域词典,有效提升了问答对语义相似度的准确率,提高召回率。

【技术实现步骤摘要】
一种答案推荐方法和装置
本专利技术涉及互联网信息处理
,特别涉及一种答案推荐方法和装置。
技术介绍
随着信息和网络技术的不断发展,诸如百度知道、新浪爱问、谷歌问答、搜搜问问、雅虎知识堂等网络互动问答社区,日益受到人们的关注。这些网络互动问答社区为网民提供了一个可以进行互动交流的平台,用户可以自由地提出问题、浏览问题、回答问题,进行互助交流,分享知识。随着问答社区参与用户的日益增多,候选答案数目随之增长,问答社区通常会对答案进行自动排序,以便为用户推荐优选答案。在对答案自动排序中,目前,大多采用文本主题分析技术来分析问答对的语义相关度等来判定问答对满意度,进而对答案进行自动排序。文本主题分析技术主要基于主题模型,即把文本映射成话题向量,话题向量又是由词的分布来表示,因此文本之间的主题相似度计算可以转化成话题向量之间的相似度计算,该相似度可以用余弦相似度来度量。现有的文本主题分析方法大多基于一个假设:即文本都属于同一个话题空间,且每个话题属于同一个词分布。然而,问答对中问题与答案可能采用不同的描述方式,即出现用词不一致的情形,例如在计算机领域中,问题的领域词分布以常用的或口语化的计算机词汇为主,如电脑、操作系统等;而回答的领域词分布以一些专业的计算机词汇为主,例如PC、win7等;又如,提问用户就某个游戏的技能进行提出问题,但用户回答的答案中是对具体技能的描述,并不包含问题中的用词。此时,按照现有的方法计算得到答案与问题的语义相关度较低,会使得与问题实际相匹配的答案无法召回或者答案的排序靠后,导致问答对质量判定准确率的下降,使用户无法找到优选答案
技术实现思路
有鉴于此,本专利技术提供了一种答案推荐方法和装置,分别生成问题领域词典和回答领域词典,以扩充问答对中问题和答案的领域映射表述,有效提升了问题和答案之间语义相似度判定的准确率,提高召回率。具体技术方案如下:一种答案推荐方法,该方法包括以下步骤:S1、获取问题和该问题对应答案的文本内容,分词得到所述问题的语义单元和所述答案的语义单元;S2、利用预先建立的问题领域词典,查找出所述问题的语义单元在各个类别中的权重,计算所述问题在各个类别中的主题权重;以及利用预先建立的答案领域词典,查找出所述各答案的语义单元在各个类别中的权重,分别计算所述各答案在各个类别中的主题权重;S3、利用得到的所述问题的主题权重和各答案的主题权重,分别计算各答案与所述问题的主题相似度,根据所述主题相似度的计算结果推荐答案。根据本专利技术一优选实施例,所述问题领域词典的建立方法,具体包括:获取问答对语料中问题的内容,分词得到所述问题的语义单元;分别计算所述问题的各语义单元在各个类别中的权重;将所述各语义单元及其在各个类别中的权重形成问题领域词典。根据本专利技术一优选实施例,所述答案领域词典的建立方法,具体包括:获取问答对语料中答案的内容,分词得到所述答案的语义单元;分别计算所述答案的各语义单元在各个类别中的权重;将所述各语义单元及其在各个类别中的权重形成答案领域词典。根据本专利技术一优选实施例,在所述得到所述问题的语义单元或答案的语义单元之后,还包括:将词频低于预设词频阈值的语义单元过滤掉;仅对过滤后剩余的语义单元,分别计算在各个类别中的权重。根据本专利技术一优选实施例,所述语义单元在各个类别中的权重根据以下所列的一种或任意组合进行计算:所述语义单元的词频在各类别之间的差异性、所述语义单元在各类别中出现的词频或者所述语义单元的逆词频率。根据本专利技术一优选实施例,所述语义单元在各个类别中的权重计算方法为:其中,w(tokeni,Cj)表示语义单元tokeni在类别Cj中的权重;pij=Tij/Lj,Lj表示类别Cj中含有的所有语义单元的次数总和,Tij表示语义单元tokeni在类别Cj中出现的次数;其中,m为类别数;表示在语义单元tokeni在类别Cj中出现的词频,n为词频影响因子;N表示语料中所有语义单元出现的次数总和,N(tokeni)表示语义单元tokeni出现的次数。根据本专利技术一优选实施例,在所述将各语义单元及其在各个类别中的权重形成问题领域词典或答案领域词典之前,还包括:对各语义单元在各个类别之间的权重进行相似权重过滤,针对同一语义单元,将在同一权重区间中出现次数大于预设阈值的权重过滤掉;仅将语义单元在剩余类别中的权重用以形成问题领域词典或答案领域词典。根据本专利技术一优选实施例,所述权重区间根据所述语义单元在各个类别中的权重大小来进行设置。根据本专利技术一优选实施例,在所述将各语义单元及其在各个类别中的权重形成问题领域词典之前,还包括:将单字、重复数字串或数字串长度超过预设长度阈值的语义单元过滤掉;仅将过滤后剩余的语义单元用以形成问题领域词典或答案领域词典。根据本专利技术一优选实施例,所述答案与问题的主题相似度的计算方法包括:分别计算所述答案与问题在各个类别下的主题相似度;选取计算得到的主题相似度最大值作为所述答案与问题的主题相似度。根据本专利技术一优选实施例,所述答案与问题的主题相似度的计算方法为:sim(query,ans)=Maxj{weight(query,Cj)×weight(ans,Cj)}其中,sim(query,ans)表示答案与问题的主题相似度,weight(query,Cj)表示问题在类别Cj中的主题权重,weight(ans,Cj)表示答案在类别Cj中的主题权重。一种答案推荐装置,该装置包括:文本获取模块,用于获取问题和该问题对应答案的文本内容,分词得到所述问题的语义单元和所述答案的语义单元;主题权重计算模块,用于利用预先建立的问题领域词典,查找出所述问题的语义单元在各个类别中的权重,计算所述问题在各个类别中的主题权重;以及用于利用预先建立的答案领域词典,查找出所述各答案的语义单元在各个类别中的权重,分别计算所述各答案在各个类别中的主题权重;相似度计算模块,用于利用所述主题权重计算模块得到的所述问题的主题权重和各答案的主题权重,分别计算各答案与所述问题的主题相似度,根据所述主题相似度的计算结果推荐答案。根据本专利技术一优选实施例,所述问题领域词典预先通过问题词典建立模块建立,所述问题词典建立模块具体包括:问题获取子模块,用于获取问答对语料中问题的内容,分词得到所述问题的语义单元;第一权重计算子模块,用于分别计算所述问题的各语义单元在各个类别中的权重;第一整合子模块,用于将所述各语义单元及其在各个类别中的权重形成问题领域词典。根据本专利技术一优选实施例,所述答案领域词典预先通过答案词典建立模块建立,所述答案词典建立模块具体包括:答案获取子模块,用于获取问答对语料中答案的内容,分词得到所述答案的语义单元;第二权重计算子模块,用于分别计算所述答案的各语义单元在各个类别中的权重;第二整合子模块,用于将所述各语义单元及其在各个类别中的权重形成答案领域词典。根据本专利技术一优选实施例,所述问题词典建立模块或所述答案词典建立模块,还包括:词频过滤子模块,用于将词频低于预设词频阈值的语义单元过滤掉;将过滤后剩余的语义单元提供给所述第一权重计算子模块或所述第二权重计算子模块。根据本专利技术一优选实施例,所述第一权重计算子模块或第二权重计算子模块根据以下所列的一种或任意组合计算所述语义单元在各个类别中本文档来自技高网
...
一种答案推荐方法和装置

【技术保护点】
一种答案推荐方法,其特征在于,包括:S1、获取问题和该问题对应答案的文本内容,分词得到所述问题的语义单元和所述答案的语义单元;S2、利用预先建立的问题领域词典,查找出所述问题的语义单元在各个类别中的权重,计算所述问题在各个类别中的主题权重;以及利用预先建立的答案领域词典,查找出所述各答案的语义单元在各个类别中的权重,分别计算所述各答案在各个类别中的主题权重;S3、利用得到的所述问题的主题权重和各答案的主题权重,分别计算各答案与所述问题的主题相似度,根据所述主题相似度的计算结果推荐答案。

【技术特征摘要】
1.一种答案推荐方法,其特征在于,包括:S1、获取问题和该问题对应答案的文本内容,分词得到所述问题的语义单元和所述答案的语义单元;S2、利用预先建立的问题领域词典,查找出所述问题的语义单元在各个类别中的权重,计算所述问题在各个类别中的主题权重;以及利用预先建立的答案领域词典,查找出所述各答案的语义单元在各个类别中的权重,分别计算所述各答案在各个类别中的主题权重;S3、利用得到的所述问题的主题权重和各答案的主题权重,分别计算各答案与所述问题的主题相似度,根据所述主题相似度的计算结果推荐答案。2.根据权利要求1所述的方法,其特征在于,所述问题领域词典的建立方法,具体包括:获取问答对语料中问题的内容,分词得到所述问题的语义单元;分别计算所述问题的各语义单元在各个类别中的权重;将所述各语义单元及其在各个类别中的权重形成问题领域词典。3.根据权利要求1所述的方法,其特征在于,所述答案领域词典的建立方法,具体包括:获取问答对语料中答案的内容,分词得到所述答案的语义单元;分别计算所述答案的各语义单元在各个类别中的权重;将所述各语义单元及其在各个类别中的权重形成答案领域词典。4.根据权利要求2或3所述的方法,其特征在于,在所述得到所述问题的语义单元或答案的语义单元之后,还包括:将词频低于预设词频阈值的语义单元过滤掉;仅对过滤后剩余的语义单元,分别计算在各个类别中的权重。5.根据权利要求2或3所述的方法,其特征在于,所述语义单元在各个类别中的权重根据以下所列的一种或任意组合进行计算:所述语义单元的词频在各类别之间的差异性、所述语义单元在各类别中出现的词频或者所述语义单元的逆词频率。6.根据权利要求5所述的方法,其特征在于,所述语义单元在各个类别中的权重计算方法为:其中,w(tokeni,Cj)表示语义单元tokeni在类别Cj中的权重;pij=Tij/Lj,Lj表示类别Cj中含有的所有语义单元的次数总和,Tij表示语义单元tokeni在类别Cj中出现的次数;其中,m为类别数;表示在语义单元tokeni在类别Cj中出现的词频,n为词频影响因子;N表示语料中所有语义单元出现的次数总和,N(tokeni)表示语义单元tokeni出现的次数。7.根据权利要求2所述的方法,其特征在于,在所述将各语义单元及其在各个类别中的权重形成问题领域词典之前,还包括:对各语义单元在各个类别之间的权重进行相似权重过滤,针对同一语义单元,将在同一权重区间中出现次数大于预设阈值的权重过滤掉;仅将语义单元在剩余类别中的权重用以形成问题领域词典。8.根据权利要求3所述的方法,其特征在于,在所述将各语义单元及其在各个类别中的权重形成答案领域词典之前,还包括:对各语义单元在各个类别之间的权重进行相似权重过滤,针对同一语义单元,将在同一权重区间中出现次数大于预设阈值的权重过滤掉;仅将语义单元在剩余类别中的权重用以形成答案领域词典。9.根据权利要求7或8所述的方法,其特征在于,所述权重区间根据所述语义单元在各个类别中的权重大小来进行设置。10.根据权利要求2所述的方法,其特征在于,在所述将各语义单元及其在各个类别中的权重形成问题领域词典之前,还包括:将单字、重复数字串或数字串长度超过预设长度阈值的语义单元过滤掉;仅将过滤后剩余的语义单元用以形成问题领域词典。11.根据权利要求3所述的方法,其特征在于,在所述将各语义单元及其在各个类别中的权重形成答案领域词典之前,还包括:将单字、重复数字串或数字串长度超过预设长度阈值的语义单元过滤掉;仅将过滤后剩余的语义单元用以形成答案领域词典。12.根据权利要求1所述的方法,其特征在于,所述答案与问题的主题相似度的计算方法包括:分别计算所述答案与问题在各个类别下的主题相似度;选取计算得到的主题相似度最大值作为所述答案与问题的主题相似度。13.根据权利要求12所述的方法,其特征在于,所述答案与问题的主题相似度的计算方法为:sim(query,ans)=Maxj{weight(query,Cj)×weight(ans,Cj)}其中,sim(query,ans)表示答案与问题的主题相似度,weight(query,Cj)表示问题在类别Cj中的主题权重,weight(ans,Cj)表示答案在类别Cj中的主题权重。14.一种答案推荐装置,其特征在于,包括:文本获取模块,用于获取问题和该问题对应答案的文本内容,分词得到所述问题的语义单元和所述答案的语义单元;主题权重计算模块,用于利用预先建立的问题领域词典,查找出所述问题的语义单元在各个类别中的权重,计算所述问题在各个类别中的主题权重;以及用于利用预先建立的答案领域词典,查找出所述各答案的语义单元在各个类别中的权重,分别计算所述各答案在各个类别中...

【专利技术属性】
技术研发人员:陈庆轩梁丰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1