一种问答社区的答案推荐方法和装置制造方法及图纸

技术编号:24756664 阅读:20 留言:0更新日期:2020-07-04 09:17
本发明专利技术涉及一种问答社区的答案推荐方法和装置,属于软件技术领域,解决了现有技术中无法及时获得准确答案和用户体验差等的问题。该方法包括:获取采样周期内的多个待定问题;对多个待定问题的重复性进行批量检测;当待定问题与样本问题重复时,将与待定问题重复的样本问题的答案推荐给用户;当没有检测到待定问题与样本问题重复而检测到多个待定问题重复时,对多个待定问题根据重复性进行分类;以及将分类的重复待定问题中时间最早的待定问题作为标准样本问题存储在问答社区数据库中并将标准样本问题的答案推荐给提出重复待定问题的所有用户。因此,及时将答案推荐给用户,提升了问题推荐效率和准确性并提高了用户体验。

An answer recommendation method and device for Q & a community

【技术实现步骤摘要】
一种问答社区的答案推荐方法和装置
本专利技术涉及软件工程
,尤其涉及一种问答社区的答案推荐方法和装置。
技术介绍
随着问答社区的快速发展,越来越多的互联网用户通过问答社区获取进行提问并获得所需信息,从而问答社区中存在大量问题。然而,在问答社区中存在大量的重复问题,并通过社区中级别高的用户手动将重复问题关闭,导致用户非常费时费力。因此,利用自动检测问答社区中是否存在重复问题,并且可以快速准确的找出重复问题,受到了越来越多的重视。问答社区中重复问题检测的问题,致力于解决问答社区中存在大量重复问题没有被发现以及影响用户访问社区获取有效信息的效果,帮助问答社区中提出的新问题检测是否有重复问题存在,避免提出重复问题并且可以提高找到重复问题的准确性,同时解决了问答社区中手动标注重复问题的用户费时费力的问题。目前针对问答社区进行重复问题检测的研究,一是通过利用问题之间的相似性进行检测重复问题,包括主题相似性、标题相似性、内容相似性、标签相似性等特征。二是通过利用抽取问题对的实体、词项之间的覆盖率等特征。此外,随着问答社区的流量不断提高,同时访问一个问答社区的用户也不断增加。因此,存在多个用户同时或在同一问答社区采样周期内提出相同问题的概率也不断增加,然而目前的重复问题检测仅能够将新提出的问题与问答社区的数据库中的历史问题进行比较,来确定该新提出的问题是否是重复问题。因为问答社区对问题进行采样周期为半天、一天或更长时间,所以无法及时检测到多个用户在该采样周期内所提出的问题的重复性而存在漏检问题。相应地,也就无法使提出问题的用户在第一时间获得答案,用户体验差。现有技术存在的以下缺点:1、无法使提出问题的用户在第一时间获得准确的答案,用户体验差。2、现有技术中选取的问题的标题、内容和标签,进行问题对之间相似度计算,没有充分考虑文本之间的语义信息,导致检测重复问题的准确率较低;3、目前的检测方法,是手动地或者通过现有检测方法,逐个问题地进行检测,然后逐个问题关闭重复问题,因此,现有技术的检测方法效率低以及准确率较低;以及4、现有的检测方法都是新问题与数据库中的历史问题之间是否重复问题的检测,而无法检测到多个用户同时或在同一问答社区采样周期内提出的重复问题而导致漏检。
技术实现思路
鉴于上述的分析,本专利技术实施例旨在提供一种问答社区的答案推荐方法和装置,用以解决现有的问答社区无法使提出问题的用户在第一时间获得准确的答案以及用户体验差等的问题。一方面,本专利技术实施例提供了一种问答社区的答案推荐方法,包括:获取采样周期内的多个待定问题;对所述多个待定问题的重复性进行批量检测,其中,所述多个待定问题的重复性包括所述多个待定问题与所述问答社区数据库中的多个样本问题之间的重复性和所述多个待定问题之间的重复性;当所述待定问题与所述样本问题重复时,将与所述待定问题重复的所述样本问题的答案推荐给用户;以及当没有检测到所述待定问题与所述样本问题重复而检测到所述多个待定问题重复时,对所述多个待定问题根据重复性进行分类;以及将分类的重复待定问题中时间最早的待定问题作为标准样本问题存储在所述问答社区数据库中并将所述标准样本问题的答案推荐给提出所述重复待定问题的所有用户。上述技术方案的有益效果如下:本专利技术实施例提供的问答社区的答案推荐方法能够对多个待定问题与问答社区数据库中的多个样本问题之间的重复性进行检测并将重复的样本问题的答案推荐给用户;能够对同一采样周期内对多个待定问题之间的重复性进行检测,及时更新问答社区数据库并将答案及时推荐给用户,提升了问题推荐效率和准确性。基于上述方法的进一步改进,在获取采样周期内的多个待定问题之前,还包括基于问答社区数据库中的多个样本问题构建深度学习分类模型,其中,构建所述深度学习分类模型包括:从问答社区中获取样本问题数据并从每个问题中提取问题的标题属性、内容属性和标签属性;根据所述样本问题数据构建多个问题对,其中,所述多个问题对包括重复问题对和非重复问题对;利用词嵌入方法将每个问题对转换为特征向量形式以获得特征向量矩阵;以及通过训练构建所述深度学习分类模型,其中,将所述特征向量矩阵为深度学习分类模型的输入。上述进一步改进方案的有益效果是:本专利技术实施例通过词嵌入方法将重复问题检测转换为深度学习领域的分类问题,大幅提升了检测检测准确性。从而提高了重复问题的检测速度,进而提高了检测效率。基于上述方法的进一步改进,利用词嵌入方法将每个问题对转换为词向量形式以获得特征向量矩阵包括:利用所述词嵌入方法将所述每个问题对中的m个单词分别转换为词向量x1、x2、…xm,其中,所述词向量的维度为n;以及通过整合所述词向量x1、x2、…xm获得特征向量矩阵,所述特征向量矩阵为m×n特征向量矩阵,其中,m、n均为大于1的整数。基于上述方法的进一步改进,所述深度学习分类模型为长短期记忆网络模型LSTM,其中,所述长短期记忆网络模型LSTM考虑语义信息对所述多个待定问题的重复性进行批量检测包括:将所述多个待定问题中的任一问题与所述多个样本问题进行配对以构建多个第一待定问题对;将所述多个待定问题中的任一问题与所述多个待定问题中的剩余问题进行配对以构建多个第二待定问题对;从所述多个样本问题中选取的任一个重复问题对作为标准重复问题对;利用所述词嵌入方法获得多个第一待定问题对的第一特征向量矩阵、多个第二待定问题对的第二特征向量矩阵、和所述多个标准重复问题对的第三特征向量矩阵;分别计算所述第一特征向量矩阵、所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布,以获得所述概率分布的第一集合,其中,所述第一特征向量矩阵的概率分布为第一子集合以及所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布为第二子集合;对所述第一子集合和所述第二子集合中的概率分布从大到小分别进行排序以构成所述概率分布的第二集合和第三集合;以及根据所述概率分布的第二集合判断所述第一待定问题对的重复性以及根据所述概率分布的第三集合判断所述第二待定问题对的重复性。上述进一步改进方案的有益效果是:长短期记忆网络模型LSTM根据语义信息对多个待定问题之间是否重复进行批量检测,不仅提高了检测准确性而且提高了检测效率。基于上述方法的进一步改进,根据所述概率分布的第二集合判断所述第一待定问题对的重复性以及根据所述概率分布的所述第三集合判断所述第二待定问题对的重复性包括:从所述概率分布的第二集合中选取预测为重复的问题对并作为第四集合;从所述概率分布的第三集合中选取预测为重复的问题对并作为第五集合;将所述标准重复问题对与所述第五集合中的问题对进行比较,以确定所述第五集合中是否包括所述标准重复问题对;以及当确定所述第五集合中包括所述标准重复问题对时,所述第五集合中的问题对为重复问题对。上述进一步改进方案的有益效果是:在对多个问题对进行批量检测时,通过标准重复问题对来验证检测的正确性,从而提高了检测准确性。基于上述方法的进一步改进,分别计算所述第一特征向量矩阵、所述第二特征向量矩阵和所述第三特征向本文档来自技高网
...

【技术保护点】
1.一种问答社区的答案推荐方法,其特征在于,包括:/n获取采样周期内的多个待定问题;/n对所述多个待定问题的重复性进行批量检测,其中,所述多个待定问题的重复性包括所述多个待定问题与所述问答社区数据库中的多个样本问题之间的重复性和所述多个待定问题之间的重复性;/n当所述待定问题与所述样本问题重复时,将与所述待定问题重复的所述样本问题的答案推荐给用户;以及/n当没有检测到所述待定问题与所述样本问题重复而检测到所述多个待定问题重复时,对所述多个待定问题根据重复性进行分类;以及/n将分类的重复待定问题中时间最早的待定问题作为标准样本问题存储在所述问答社区数据库中并将所述标准样本问题的答案推荐给提出所述重复待定问题的所有用户。/n

【技术特征摘要】
1.一种问答社区的答案推荐方法,其特征在于,包括:
获取采样周期内的多个待定问题;
对所述多个待定问题的重复性进行批量检测,其中,所述多个待定问题的重复性包括所述多个待定问题与所述问答社区数据库中的多个样本问题之间的重复性和所述多个待定问题之间的重复性;
当所述待定问题与所述样本问题重复时,将与所述待定问题重复的所述样本问题的答案推荐给用户;以及
当没有检测到所述待定问题与所述样本问题重复而检测到所述多个待定问题重复时,对所述多个待定问题根据重复性进行分类;以及
将分类的重复待定问题中时间最早的待定问题作为标准样本问题存储在所述问答社区数据库中并将所述标准样本问题的答案推荐给提出所述重复待定问题的所有用户。


2.根据权利要求1所述的问答社区的答案推荐方法,其特征在于,在获取采样周期内的多个待定问题之前,还包括基于问答社区数据库中的多个样本问题构建深度学习分类模型,其中,构建所述深度学习分类模型包括:
从问答社区中获取样本问题数据并从每个问题中提取问题的标题属性、内容属性和标签属性;
根据所述样本问题数据构建多个问题对,其中,所述多个问题对包括重复问题对和非重复问题对;
利用词嵌入方法将每个问题对转换为特征向量形式以获得特征向量矩阵;以及
通过训练构建所述深度学习分类模型,其中,将所述特征向量矩阵为深度学习分类模型的输入。


3.根据权利要求2所述的问答社区的答案推荐方法,其特征在于,利用词嵌入方法将每个问题对转换为词向量形式以获得特征向量矩阵包括:
利用所述词嵌入方法将所述每个问题对中的m个单词分别转换为词向量x1、x2、…xm,其中,所述词向量的维度为n;以及
通过整合所述词向量x1、x2、…xm获得特征向量矩阵,所述特征向量矩阵为m×n特征向量矩阵,其中,m、n均为大于1的整数。


4.根据权利要求2所述的问答社区的答案推荐方法,其特征在于,所述深度学习分类模型为长短期记忆网络模型LSTM,其中,所述长短期记忆网络模型LSTM考虑语义信息对所述多个待定问题的重复性进行批量检测包括:
将所述多个待定问题中的任一问题与所述多个样本问题进行配对以构建多个第一待定问题对;
将所述多个待定问题中的任一问题与所述多个待定问题中的剩余问题进行配对以构建多个第二待定问题对;
从所述多个样本问题中选取的任一个重复问题对作为标准重复问题对;
利用所述词嵌入方法获得多个第一待定问题对的第一特征向量矩阵、多个第二待定问题对的第二特征向量矩阵、和所述多个标准重复问题对的第三特征向量矩阵;
分别计算所述第一特征向量矩阵、所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布,以获得所述概率分布的第一集合,其中,所述第一特征向量矩阵的概率分布为第一子集合以及所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布为第二子集合;
对所述第一子集合和所述第二子集合中的概率分布从大到小分别进行排序以构成所述概率分布的第二集合和第三集合;以及
根据所述概率分布的第二集合判断所述第一待定问题对的重复性以及根据所述概率分布的第三集合判断所述第二待定问题对的重复性。


5.根据权利要求4所述的问答社区的答案推荐方法,其特征在于,根据所述概率分布的第二集合判断所述第一待定问题对的重复性以及根据所述概率分布的所述第三集合判断所述第二待定问题对的重复性包括:
从所述概率分布的第二集合中选取预测为重复的问题对并作为第四集合;
从所述概率分布的第三集合中选取预测为重复的问题对并作为第五集合;
将所述标准重复问题对与所述第五集合中的问题对进行比较,以确定所述第五集合中是否包括所述标准重复问题对;以及
当确定所述第五集合中包括所述标准重复问题对时,所述第五集合中的问题对为重复问题对。


6.根据权利要求4所述的问答社区的答案推荐方法,其特征在于,分别计算所述第一特征向量矩阵、所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布包括:
设置每个时间步骤在先前隐藏状态的忘记门、输入门和输出门;
根据所述第一特...

【专利技术属性】
技术研发人员:张莉王丽婷蒋竞
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1