【技术实现步骤摘要】
一种问答社区的答案推荐方法和装置
本专利技术涉及软件工程
,尤其涉及一种问答社区的答案推荐方法和装置。
技术介绍
随着问答社区的快速发展,越来越多的互联网用户通过问答社区获取进行提问并获得所需信息,从而问答社区中存在大量问题。然而,在问答社区中存在大量的重复问题,并通过社区中级别高的用户手动将重复问题关闭,导致用户非常费时费力。因此,利用自动检测问答社区中是否存在重复问题,并且可以快速准确的找出重复问题,受到了越来越多的重视。问答社区中重复问题检测的问题,致力于解决问答社区中存在大量重复问题没有被发现以及影响用户访问社区获取有效信息的效果,帮助问答社区中提出的新问题检测是否有重复问题存在,避免提出重复问题并且可以提高找到重复问题的准确性,同时解决了问答社区中手动标注重复问题的用户费时费力的问题。目前针对问答社区进行重复问题检测的研究,一是通过利用问题之间的相似性进行检测重复问题,包括主题相似性、标题相似性、内容相似性、标签相似性等特征。二是通过利用抽取问题对的实体、词项之间的覆盖率等特征。此外,随着问答社区的流量不断提高,同时访问一个问答社区的用户也不断增加。因此,存在多个用户同时或在同一问答社区采样周期内提出相同问题的概率也不断增加,然而目前的重复问题检测仅能够将新提出的问题与问答社区的数据库中的历史问题进行比较,来确定该新提出的问题是否是重复问题。因为问答社区对问题进行采样周期为半天、一天或更长时间,所以无法及时检测到多个用户在该采样周期内所提出的问题的重复性而存在漏检问题。相应地,也就无法 ...
【技术保护点】
1.一种问答社区的答案推荐方法,其特征在于,包括:/n获取采样周期内的多个待定问题;/n对所述多个待定问题的重复性进行批量检测,其中,所述多个待定问题的重复性包括所述多个待定问题与所述问答社区数据库中的多个样本问题之间的重复性和所述多个待定问题之间的重复性;/n当所述待定问题与所述样本问题重复时,将与所述待定问题重复的所述样本问题的答案推荐给用户;以及/n当没有检测到所述待定问题与所述样本问题重复而检测到所述多个待定问题重复时,对所述多个待定问题根据重复性进行分类;以及/n将分类的重复待定问题中时间最早的待定问题作为标准样本问题存储在所述问答社区数据库中并将所述标准样本问题的答案推荐给提出所述重复待定问题的所有用户。/n
【技术特征摘要】
1.一种问答社区的答案推荐方法,其特征在于,包括:
获取采样周期内的多个待定问题;
对所述多个待定问题的重复性进行批量检测,其中,所述多个待定问题的重复性包括所述多个待定问题与所述问答社区数据库中的多个样本问题之间的重复性和所述多个待定问题之间的重复性;
当所述待定问题与所述样本问题重复时,将与所述待定问题重复的所述样本问题的答案推荐给用户;以及
当没有检测到所述待定问题与所述样本问题重复而检测到所述多个待定问题重复时,对所述多个待定问题根据重复性进行分类;以及
将分类的重复待定问题中时间最早的待定问题作为标准样本问题存储在所述问答社区数据库中并将所述标准样本问题的答案推荐给提出所述重复待定问题的所有用户。
2.根据权利要求1所述的问答社区的答案推荐方法,其特征在于,在获取采样周期内的多个待定问题之前,还包括基于问答社区数据库中的多个样本问题构建深度学习分类模型,其中,构建所述深度学习分类模型包括:
从问答社区中获取样本问题数据并从每个问题中提取问题的标题属性、内容属性和标签属性;
根据所述样本问题数据构建多个问题对,其中,所述多个问题对包括重复问题对和非重复问题对;
利用词嵌入方法将每个问题对转换为特征向量形式以获得特征向量矩阵;以及
通过训练构建所述深度学习分类模型,其中,将所述特征向量矩阵为深度学习分类模型的输入。
3.根据权利要求2所述的问答社区的答案推荐方法,其特征在于,利用词嵌入方法将每个问题对转换为词向量形式以获得特征向量矩阵包括:
利用所述词嵌入方法将所述每个问题对中的m个单词分别转换为词向量x1、x2、…xm,其中,所述词向量的维度为n;以及
通过整合所述词向量x1、x2、…xm获得特征向量矩阵,所述特征向量矩阵为m×n特征向量矩阵,其中,m、n均为大于1的整数。
4.根据权利要求2所述的问答社区的答案推荐方法,其特征在于,所述深度学习分类模型为长短期记忆网络模型LSTM,其中,所述长短期记忆网络模型LSTM考虑语义信息对所述多个待定问题的重复性进行批量检测包括:
将所述多个待定问题中的任一问题与所述多个样本问题进行配对以构建多个第一待定问题对;
将所述多个待定问题中的任一问题与所述多个待定问题中的剩余问题进行配对以构建多个第二待定问题对;
从所述多个样本问题中选取的任一个重复问题对作为标准重复问题对;
利用所述词嵌入方法获得多个第一待定问题对的第一特征向量矩阵、多个第二待定问题对的第二特征向量矩阵、和所述多个标准重复问题对的第三特征向量矩阵;
分别计算所述第一特征向量矩阵、所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布,以获得所述概率分布的第一集合,其中,所述第一特征向量矩阵的概率分布为第一子集合以及所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布为第二子集合;
对所述第一子集合和所述第二子集合中的概率分布从大到小分别进行排序以构成所述概率分布的第二集合和第三集合;以及
根据所述概率分布的第二集合判断所述第一待定问题对的重复性以及根据所述概率分布的第三集合判断所述第二待定问题对的重复性。
5.根据权利要求4所述的问答社区的答案推荐方法,其特征在于,根据所述概率分布的第二集合判断所述第一待定问题对的重复性以及根据所述概率分布的所述第三集合判断所述第二待定问题对的重复性包括:
从所述概率分布的第二集合中选取预测为重复的问题对并作为第四集合;
从所述概率分布的第三集合中选取预测为重复的问题对并作为第五集合;
将所述标准重复问题对与所述第五集合中的问题对进行比较,以确定所述第五集合中是否包括所述标准重复问题对;以及
当确定所述第五集合中包括所述标准重复问题对时,所述第五集合中的问题对为重复问题对。
6.根据权利要求4所述的问答社区的答案推荐方法,其特征在于,分别计算所述第一特征向量矩阵、所述第二特征向量矩阵和所述第三特征向量矩阵的概率分布包括:
设置每个时间步骤在先前隐藏状态的忘记门、输入门和输出门;
根据所述第一特...
【专利技术属性】
技术研发人员:张莉,王丽婷,蒋竞,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。