一种问答社区专家推荐方法、系统及应用技术方案

技术编号:28373939 阅读:19 留言:0更新日期:2021-05-08 00:01
本发明专利技术属于知识社区技术领域,公开了一种问答社区专家推荐方法、系统及应用,所述问答社区专家推荐方法包括:构建社区用户问答交互关系;利用LDA提炼用户文档主题分布;计算用户之间主题相关性;利用用户历史问答的反馈评估用户长期累积的质量因子;计算社区用户的专家得分;给定新问题q和测试用户U,根据用户兴趣和专业知识水平对用户排名,以回答问题q。本发明专利技术基于用户反馈信息提出累积质量因子来评估社区用户专业知识水平,提高识别专家用户的准确率;利用社区用户之间的主题相关性对LeaderRank算法进行改进,保证算法识别专家用户的有效性,提高推荐的专家用户与新问题之间的契合度。

【技术实现步骤摘要】
一种问答社区专家推荐方法、系统及应用
本专利技术属于知识社区
,尤其涉及一种问答社区专家推荐方法、系统及应用。
技术介绍
目前,在线知识社区是一个公共的互联网知识平台,它为网络用户提供有价值的知识共享和寻求服务。网络用户可以浏览并搜索知识社区中的信息,通过注册社区的会员资格,用户可以在知识社区中发布问题和答案,并对社区中的问题和答案进行投票和评论。在线知识社区的用户群体是由拥有共同兴趣的用户个体组成,用户可以跨越时间和空间寻找和共享知识。通过在社区中学习和分享知识,用户在帮助扩充社区知识存储库的同时,还可以加深他们对专业知识领域的理解。目前交互式的知识社区网站已经成为人们在日常生活中解决问题最常用的平台。随着在线知识社区用户数的增长一方面扩充知识库的资源,另一方面也带来了一系列影响用户体验的问题,比如:随着提问者的增多,很多问题不能够及时的推荐给合适的回答者来回答而造成提问者等待的时间过长,严重影响了提问者获取信息的效率。面向社区问答的专家推荐技术硏究的主要目标是应对问答社区中用户数增加带来的挑战,为新问题推荐合适的专家用户能够从根本上提升问答社区的服务质量。在社会网络中,专家发现(ExpertFinding)主要用于识别不同知识领域的专家用户。在知识社区中,通常把持续提供高质量回答且表现活跃的用户定义为专家用户。通常,专家用户擅长的是一个或少数几个专业知识领域,其专业领域并不是覆盖了社区中大部分的知识面,因此,专家用户在社区中有相对固定的活跃领域。同时在专家用户活跃的知识领域中,专家用户往往被其他用户高度认可和信赖,因此专家用户拥有较高的社会权威性。如果能从在线知识社区的用户群体中准确的识别不同问题领域的专家用户,可以为社区的运营和扩展服务提供帮助,也可以提高用户体验。目前基于在线知识社区的专家发现方法主要分为三种:第一种是基于链接分析的专家排序方法。这种方法主要以用户之间的问答交互关系为研究基础,利用链接分析算法评估用户的权威度。第二种是基于信息抽取的方法。这种方法主要通过抽取知识社区中的问答数据,利用主题模型对问答数据进行语义分析或话题分类。通常这类方法根据抽取信息的不同,研究方法也不尽相同。第三种是将链接分析算法和信息抽取两种技术手段进行结合,用来构建专家发现的混合模型。但目前在线知识社区的专家发现方法都是通过链接分析社区用户问答关系和对用户文本进行信息抽取来实现的,这些方法并没有充分挖掘出社区用户的相关信息进行分析。大多数现有的专家发现技术主要基于主题模型和链接分析等方法。基于主题模型的方法主要是从用户生成内容中提取用户的话题或兴趣分布。基于链接分析的方法主要利用链接分析算法对在线知识社区中的用户问答关系进行分析,计算出用户的社会影响力。这两种方法都只是从一个方面来衡量用户在社区内权威性,并且没有考虑社区内用户的专业知识水平的情况。Zhou等人提出了一个主题敏感的概率模型,它是PageRank算法的一个扩展,用于寻找问答社区中的专家用户。与传统的链接分析技术相比,该模型既考虑了用户之间的链接结构,又考虑了用户之间的主题相似性,因此比基于传统链接分析技术的专家发现方法具有更高的准确性。但是,该方法仅仅利用了问答社区用户交互问答关系,忽略了对用户专业知识水平的衡量,最终推荐用户的权威性是缺少说服力的。南京邮电大学在其申请的专利文献“用于网站知识社区系统的专家推荐方法及计算机存储介质”(专利号:2019105985568,公布号:CN110321421A)公开了一种用于网站社区系统的专家推荐技术。该专利技术利用链接分析的方法对根据文本相似度值的大小生成的候选专家构建的问答关系图进行分析,同时利用社区用户提问难度和回答响应时间来对用户的表现进行分析,将二者结合来计算社区用户的权威值,进一步对社区用户进行排名以找到专家用户。该专利技术挖掘出了社区用户提出的问题难度和回答者平均响应时间来评估用户的权威值,虽然排名结果效果有所提高,但是,问题难度仅考虑响应时间显得太过于单一,如果社区中一个冷门话题问题和一个热门话题问题同时被提出,热门话题活跃用户较多,所以有极大可能热门问题先被回答,冷门问题响应会比较慢,而这并不意味着热门问题的难度小,冷门问题的难度大,因此该专利技术在实际应用中获得的用户排名结果的准确率是不高的。同时,现有基于链接分析的算法大多使用PageRank算法来分析社区用户交互链接关系,PageRank算法在进行排序时只考虑链接因素,而没有考虑页面与查询词的语义相关性,因此引入主题的概念,在计算网页i跳转向其页面所包含链接指向的页面的概率时考虑了两个页面之间的主题近似程度,使得排序效果有所提升。尽管如此,由于可能有孤立节点的存在,PageRank算法的排序结果是不唯一的,并且PageRank算法在计算过程中引入了阻尼因子,导致在不同的应用场景需要对参数和评价指标频繁调试。因此,亟需一种新的问答社区专家推荐方法及系统。通过上述分析,现有技术存在的问题及缺陷为:(1)目前在线知识社区的专家发现方法都是通过链接分析社区用户问答关系和对用户文本进行信息抽取来实现的,这些方法并没有充分挖掘出社区用户的相关信息进行分析。(2)现有的专家发现技术都只是从一个方面来衡量用户在社区内权威性,并且没有考虑社区内用户的专业知识水平的情况。(3)现有基于主题模型的方法仅仅利用问答社区用户交互问答关系,忽略了对用户专业知识水平的衡量,最终推荐用户的权威性缺少说服力。(4)现有利用链接分析的方法中,问题难度仅考虑响应时间显得太过于单一,热门问题先被回答,冷门问题响应会比较慢,且在实际应用中获得的用户排名结果的准确率不高。(5)现有基于链接分析的算法没有考虑页面与查询词的语义相关性,由于可能有孤立节点的存在,PageRank算法的排序结果是不唯一的,并且PageRank算法在计算过程中引入了阻尼因子,导致在不同的应用场景需要对参数和评价指标频繁调试。解决以上问题及缺陷的难度为:1、如何充分挖掘知识社区用户的文本信息。现有基于链接分析的方法利用社区用户问答关系可能会找到社区中相对权威的用户,但这些权威用户往往是全局的专家用户,有关某些特定主题的新问题可能不会引起这些全局专家的兴趣或无法匹配其专业知识,因为一个用户不可能是所有领域的专家。因此,社区用户问答贴收到的投票、评论,帖子的最佳答案,帖子的标签等信息的挖掘和利用尤其重要。2、如何对用户的主题兴趣建模。找到某一特定主题的专家,而非全局的专家用户,需要同时考虑社区用户所感兴趣的主题,以及在该主题下用户的专业知识水平。3、如何更全面地评估社区用户的专业技能水平。解决以上问题及缺陷的意义为:没有人是所有主题领域的专家,这意味着应该针对相应主题评估其专业水平;另一方面,每一个新问题都属于某些特定主题,应将其发送给对这些特定主题感兴趣并具有适当专业知识水平的权威用户来回答。因此,在目前利用链接分析方法分析社区用户问答交互关系基础上,结合挖掘的用户信息对用户主题、专业知识进行建模,可以更加本文档来自技高网...

【技术保护点】
1.一种问答社区专家推荐方法,其特征在于,所述问答社区专家推荐方法包括:利用统计方法得到在线社区用户问答交互数量关系,利用隐含狄利克雷分布LDA的概率主题模型提取用户问答交互文档的潜在主题,即自动提取出用户感兴趣的主题;基于提炼的用户主题,利用概率的方法构建问答用户之间的主题相关的问答关系,结合主题相关的问答关系、链接分析方法及衡量用户回答质量的方法计算社区内用户在每个主题下的权威得分,通过计算社区用户和新问题之间主题分布相似度推荐专家用户回答新问题。/n

【技术特征摘要】
1.一种问答社区专家推荐方法,其特征在于,所述问答社区专家推荐方法包括:利用统计方法得到在线社区用户问答交互数量关系,利用隐含狄利克雷分布LDA的概率主题模型提取用户问答交互文档的潜在主题,即自动提取出用户感兴趣的主题;基于提炼的用户主题,利用概率的方法构建问答用户之间的主题相关的问答关系,结合主题相关的问答关系、链接分析方法及衡量用户回答质量的方法计算社区内用户在每个主题下的权威得分,通过计算社区用户和新问题之间主题分布相似度推荐专家用户回答新问题。


2.如权利要求1所述的问答社区专家推荐方法,其特征在于,所述问答社区专家推荐方法包括以下步骤:
步骤一,构建社区用户问答交互关系;
步骤二,利用LDA提炼用户文档主题分布;
步骤三,计算用户之间主题相关性;
步骤四,利用用户历史问答中收到的反馈评估用户长期累积的质量因子;
步骤五,计算社区用户的专家得分;
步骤六,给定新问题q和一组测试用户U,根据用户兴趣和专业知识水平对所有用户进行排名,以回答问题q。


3.如权利要求2所述的问答社区专家推荐方法,其特征在于,步骤一中,所述构建社区用户问答交互关系,包括:
下载开源编程问答社区中所有用户的问答交互信息,导出每个用户的问答文档、每个问答文档得到的投票数,利用编程工具结合统计方法得到用户之间的问答数量关系。


4.如权利要求2所述的问答社区专家推荐方法,其特征在于,步骤二中,所述利用LDA提炼用户文档主题分布,包括:
LDA模型在对文档提取主题过程中,会生成文档-主题分布θ和主题-词项分布接着利用吉布斯采样法对LDA模型参数进行求解。


5.如权利要求2所述的问答社区专家推荐方法,其特征在于,步骤三中,利用下式计算用户之间主题相关性:
simz(j→i)=1-|θj,k-θi,k|;
其中,θ是由LDA提取文档主题求解得到的参数。


6.如权利要求2所述的问答社区专家推荐方法,其特征在于,步骤四中,利用用户历史问答中收到的反馈来评估用户长期以来累积的质量因子:



其中,ASi表示用户i的累积质量因子,Qi为用户i的所有历史问答集合,N为问答集合中问答贴数量;如果q为用户i的提问贴,那么收到投票数Vq=Sumq,所得投票权重为1;如果q为用户i的回答贴,那么该贴质量由收到的投票数Vq占该贴对应提问贴的所有回答帖收到的投票总数Sumq的投票权重表示。


7.如权利要求2所述的问答社区专家推荐方法,其特征在于,步骤五中,所述计算社区用户的专家得分,包括:
(1)利用下述图链接分析公式,结合用户主题相似性计算社区用户t时刻在主题z下的权威值得分:



其中,N表示社区内问答用户总数,除地面节点外的所有用户节点的初始权威值为一个单位值,设置AUi(0)=1,地节点的初始权威值设置为AUg(0)=0,pz(j→i)表示给定主题z,迭代计算过程中用户j将自己的权威值分配给用户i的概率,...

【专利技术属性】
技术研发人员:赵楠马玉伟陈南易运晖张盛祥
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1