【技术实现步骤摘要】
用于处理信息的方法、装置、设备和介质
本公开的实施例主要涉及信息处理领域,并且更具体地,涉及用于确定针对对象的描述文档和评论文档之间的相关性的方法、装置、设备和计算机可读存储介质。
技术介绍
当前,来自网络用户的评论日益重要。例如,有效的用户评论可以帮助潜在用户在购物网站中购买期望的商品。此外,有效的用户评论还构成新闻应用不可或缺的一部分。可见,高质量的评论能够增加网络用户的参与感,从而提高应用的活跃度。然而,由于来自网络用户的评论的不可控性或竞争对手的恶意行为,不相关评论大量出现,极大降低了应用的用户体验。
技术实现思路
根据本公开的示例实施例,提供了一种用于处理信息的方案。在本公开的第一方面中,提供了一种用于处理信息的方法,包括:获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;确定描述文档中的第一核心词和评论文档中的第二核心词;以及基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。在本公开的第二方面中,提供了一种用于处理信息的方法,包括:获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及基于主题出现可能性和待预测评论文档,确定待预测描述文 ...
【技术保护点】
1.一种用于处理信息的方法,包括:获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;以及基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性。
【技术特征摘要】
1.一种用于处理信息的方法,包括:获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;以及基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性。2.根据权利要求1所述的方法,其中获取所述描述文档和所述评论文档包括:确定与描述所述对象的候选描述文档相关联的候选评论文档的数目;响应于确定所述候选评论文档的数目超过第一预定数目,将所述候选描述文档确定为所述描述文档;以及从所述候选评论文档中的点赞数目和字符数目中的至少一项超过第二预定数目的候选评论文档中确定所述评论文档。3.根据权利要求1所述的方法,其中确定所述描述文档中的第一核心词包括:从所述描述文档中确定一组候选词语;以及将所述一组候选词语中重要性高的候选词语确定为所述第一核心词,所述重要性基于所述候选词语在所述描述文档和参考文档中的出现频率而被确定。4.根据权利要求1所述的方法,其中确定所述第一出现可能性和所述第二出现可能性包括:将所述第一核心词和所述第二核心词应用于可能性确定模型,以得到所述第一出现可能性和所述第二出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。5.一种用于处理信息的方法,包括:获取针对历史对象的历史描述文档中的第一核心词在与所述历史描述文档和历史评论文档相关联的主题下的第一出现可能性,所述历史描述文档用于描述所述历史对象,所述历史评论文档与所述历史描述文档相关联;获取针对待预测对象的待预测描述文档和与所述待预测描述文档相关联的待预测评论文档,所述待预测描述文档用于描述所述待预测对象;基于所述第一出现可能性和所述待预测描述文档,确定所述主题在所述待预测描述文档中的主题出现可能性;以及基于所述主题出现可能性和所述待预测评论文档,确定所述待预测描述文档和所述待预测评论文档的相关性。6.根据权利要求5所述的方法,其中确定所述主题出现可能性包括:确定所述待预测描述文档中的核心词;以及将所述第一出现可能性和所述待预测描述文档中的核心词应用于可能性确定模型,以得到所述主题出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。7.根据权利要求5所述的方法,其中确定所述相关性包括:确定所述待预测评论文档中的核心词的重要性,所述重要性基于所述待预测评论文档中的核心词在所述待预测评论文档和参考文档中的出现频率而被确定;获取所述历史评论文档中的第二核心词在所述主题下的第二出现可能性;以及基于所述主题出现可能性、所述重要性和所述第二出现可能性,确定所述相关性。8.一种用于处理信息的装置,包括:文档获取模块,被配置为获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;核心词确定模块,被配置为确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;以及可能性确定模块,被配置为基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性。9.根据权利要求8所述的装置,其中所述文档获取模块包括:数目确定模块,被配置为确定与描述所述对象的候选描述文档相...
【专利技术属性】
技术研发人员:赵娜,施茜,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。