一种问题推送方法及系统技术方案

技术编号:7682501 阅读:237 留言:0更新日期:2012-08-16 05:51
本发明专利技术提供了一种问题推送方法及系统,基于预先建立的用户模型,其中所述用户模型包括以下所列中的至少两个:通过对用户提问的问题和回答进行挖掘建立的兴趣模型、基于用户属性建立的属性模型、通过对用户行为进行统计建立的行为模型以及基于不同用户之间关系建立的关系模型;其中方法包括:A、对待回答问题进行文本分析提取问题特征;B、利用提取的问题特征匹配用户模型,根据问题特征在各用户模型中与用户的匹配程度以及预设的各用户模型的排序权重,对用户进行排序;C、将所述待回答问题推送给排序在前M个的用户,其中M为预设的正整数。通过本发明专利技术能够提高知识问答系统提供答案的效率和质量。

【技术实现步骤摘要】
一种问题推送方法及系统
本专利技术涉及互联网
,特别涉及一种问题推送方法及系统。
技术介绍
随着互联网技术的迅速发展,通过互联网获取信息以及进行相互通讯已经成为人们每天生活的一部分。知识问答系统就是一种利用通讯功能实现信息获取的系统,用户可以通过网页在知识问答系统提交各种问题,查询所提交问题的状态,根据问题回答的状况决定采用哪个答案。其他用户可以通过访问该网页查看问题,并根据自己的喜好和知识进行回答。在目前的知识问答系统中,问题一旦在知识问答系统中提交,并以提问页面的形式展现,就依靠在该知识问答系统上看到该提问页面的其他用户进行回答。然而,这种方式会造成以下问题其一、需要其他用户登陆知识问答系统后,浏览到该提问页面才可能会对提问页面上的问题进行回答。其二、浏览到该提问页面的用户可能并没有回答该问题的兴趣或能力,就不会对提问页面上的问题进行回答,或者,提供的回答可能不是优质答案。可以看出,现有知识问答系统中为提问用户提供答案的效率和质量较低。
技术实现思路
有鉴于此,本专利技术提供了一种问题推送的方法及系统,以便于提高知识问答系统提供答案的效率和质量。具体技术方案如下一种问题推送方法,基于预先建立的用户模型,其中所述用户模型包括以下所列中的至少两个通过对用户提问的问题和回答进行挖掘建立的兴趣模型、基于用户属性建立的属性模型、通过对用户行为进行统计建立的行为模型以及基于不同用户之间关系建立的关系模型;该方法包括A、对待回答问题进行文本分析提取问题特征;B、利用提取的问题特征匹配用户模型,根据问题特征在各用户模型中与用户的匹配程度以及预设的各用户模型的排序权重,对用户进行排序;C、将所述待回答问题推送给排序在前M个的用户,其中M为预设的正整数。其中,所述兴趣模型的建立包括SI、抓取各用户的问答历史数据;S2、对所述各用户的问答历史数据进行文本分析,抽取各用户的兴趣词;S3、利用抽取的兴趣词建立或更新各用户的兴趣模型,其中兴趣模型中包含用户的兴趣词以及兴趣词在对应用户的兴趣模型中的权重FeatW。具体地,步骤S2可以包括分别针对每一用户分别执行步骤S21至步骤S23 ;S21、对该用户回答的问题、提出的问题、浏览的问题或查询的问题进行基于语义的分词处理;S22、基于对分词处理后得到的各词语的倒文档率以及表意能力,确定所述各词语的表意权重值TermW ;S23、将表意权重值TermW大于预设的兴趣选取权重值的词语确定为该用户的兴趣词。另外,所述步骤A具体包括Al、对所述待回答问题进行基于语义的分词处理;A2、基于对分词处理后得到的各词语的倒文档率以及表意能力,确定所述各词语的表意权重值TermW ; A3、将表意权重值TermW大于预设的特征提取权重值的词语确定为所述待回答问题的特征词。其中,所述各词语的表意权重值TermW为Termff = Termff = a*idf+b*ind,其中,倒文档率idf=log(~^--he),c 为预设的大df + 1于或等于I的参数,df为词语在所有待回答问题中出现的次数,N为待回答问题的数量,ind标识词语的表意能力,a和b为预设的权重系数。更进一步地,在所述步骤S22之前,还包括将分词处理后得到的各词语中,df不在预设范围内的词语进行过滤,其中df为词语在所有待回答问题中出现的次数;所述步骤S22中,仅针对df在预设范围内的词语计算表意权重值。所述兴趣词在对应用户的兴趣模型中的权重FeatW为FeatW = al*TermW+bl* Δ Tr,其中,Δ Tr为当前时间段抓取的用户问答历史数据中该兴趣词出现的频次相对于上一时间段抓取的用户问答历史数据中该兴趣词出现的频次的变化值或变化率,al和bl为预设的权重系数。具体地,按照0'=吣+ ΣΑ)-Κ^- ΣΑ)更新用户的兴趣模型,其中,Q'iVr Di^Drn Dj^Dn表示更新后的兴趣模型,Q表示更新前的兴趣模型,W表示正例样本集合,包括在该用户的问答历史数据中出现频次呈上升趋势的兴趣词及其在兴趣模型中的权重值,Nr表示正例样本数量,Dn表示反例样本集合,包括在该用户的问答历史数据中出现频次呈下降趋势的兴趣词及其在兴趣模型中的权重值,Nn表示反例样本数量,α、β和Y是预先设定的调整系数。较优地,该方法还包括对用户的兴趣模型中的兴趣词进行扩展;其中,针对用户U的兴趣模型中兴趣词Ti进行的扩展包括Dl、确定所述兴趣词Ti的扩展词Tj ;D2、计算用户u对所述扩展词L的感兴趣程度W」,Wj = a\ *\og(jnum) + Pujj + β\ * Wavg,所述权利要求1.一种问题推送方法,其特征在于,基于预先建立的用户模型,其中所述用户模型包括以下所列中的至少两个通过对用户提问的问题和回答进行挖掘建立的兴趣模型、基于用户属性建立的属性模型、通过对用户行为进行统计建立的行为模型以及基于不同用户之间关系建立的关系模型;该方法包括 A、对待回答问题进行文本分析提取问题特征; B、利用提取的问题特征匹配用户模型,根据问题特征在各用户模型中与用户的匹配程度以及预设的各用户模型的排序权重,对用户进行排序; C、将所述待回答问题推送给排序在前M个的用户,其中M为预设的正整数。2.根据权利要求I所述的方法,其特征在于,所述兴趣模型的建立包括 51、抓取各用户的问答历史数据; 52、对所述各用户的问答历史数据进行文本分析,抽取各用户的兴趣词; 53、利用抽取的兴趣词建立或更新各用户的兴趣模型,其中兴趣模型中包含用户的兴趣词以及兴趣词在对应用户的兴趣模型中的权重FeatW。3.根据权利要求2所述的方法,其特征在于,步骤S2具体包括分别针对每一用户分别执行步骤S21至步骤S23 ; 521、对该用户回答的问题、提出的问题、浏览的问题或查询的问题进行基于语义的分词处理; 522、基于对分词处理后得到的各词语的倒文档率以及表意能力,确定所述各词语的表意权重值TermW ; 523、将表意权重值TermW大于预设的兴趣选取权重值的词语确定为该用户的兴趣词。4.根据权利要求I所述的方法,其特征在于,所述步骤A具体包括 Al、对所述待回答问题进行基于语义的分词处理; A2、基于对分词处理后得到的各词语的倒文档率以及表意能力,确定所述各词语的表意权重值TermW ; A3、将表意权重值TermW大于预设的特征提取权重值的词语确定为所述待回答问题的特征词。5.根据权利要求3或4所述的方法,其特征在于,所述各词语的表意权重值TermW为 Termff = Termff = a*idf+b*ind,其中,倒文档率idf=log(~^—+C), c 为预设的大于或 df + 1等于I的参数,df为词语在所有待回答问题中出现的次数,N为待回答问题的数量,ind标识词语的表意能力,a和b为预设的权重系数。6.根据权利要求3所述的方法,其特征在于,在所述步骤S22之前,还包括 将分词处理后得到的各词语中,df不在预设范围内的词语进行过滤,其中df为词语在所有待回答问题中出现的次数; 所述步骤S22中,仅针对df在预设范围内的词语计算表意权重值。7.根据权利要求3所述的方法,其特征在于,所述兴趣词在对应用户的兴趣模型中的权重F本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:姜庭欣谢双宾李连华罗建岚
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1