用于处理信息的方法、装置、设备和介质制造方法及图纸

技术编号:20866705 阅读:21 留言:0更新日期:2019-04-17 09:23
根据本公开的示例实施例,提供了一种用于处理信息的方法、装置、设备和计算机可读存储介质。一种用于处理信息的方法,包括:获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;确定描述文档中的第一核心词和评论文档中的第二核心词;以及基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。

【技术实现步骤摘要】
用于处理信息的方法、装置、设备和介质
本公开的实施例主要涉及信息处理领域,并且更具体地,涉及用于确定针对对象的描述文档和评论文档之间的相关性的方法、装置、设备和计算机可读存储介质。
技术介绍
当前,来自网络用户的评论日益重要。例如,有效的用户评论可以帮助潜在用户在购物网站中购买期望的商品。此外,有效的用户评论还构成新闻应用不可或缺的一部分。可见,高质量的评论能够增加网络用户的参与感,从而提高应用的活跃度。然而,由于来自网络用户的评论的不可控性或竞争对手的恶意行为,不相关评论大量出现,极大降低了应用的用户体验。
技术实现思路
根据本公开的示例实施例,提供了一种用于处理信息的方案。在本公开的第一方面中,提供了一种用于处理信息的方法,包括:获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;确定描述文档中的第一核心词和评论文档中的第二核心词;以及基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。在本公开的第二方面中,提供了一种用于处理信息的方法,包括:获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及基于主题出现可能性和待预测评论文档,确定待预测描述文档和待预测评论文档的相关性。在本公开的第三方面中,提供了一种用于处理信息的装置,包括:文档获取模块,被配置为获取针对对象的描述文档和与描述文档相关联的评论文档,描述文档用于描述对象;核心词确定模块,被配置为确定描述文档中的第一核心词和评论文档中的第二核心词;以及可能性确定模块,被配置为基于第一核心词和第二核心词,确定第一核心词在与描述文档和评论文档相关联的主题下的第一出现可能性、以及第二核心词在主题下的第二出现可能性。在本公开的第四方面中,提供了一种用于处理信息的装置,包括:第一出现可能性获取模块,被配置为获取针对历史对象的历史描述文档中的第一核心词在与历史描述文档和历史评论文档相关联的主题下的第一出现可能性,历史描述文档用于描述历史对象,历史评论文档与历史描述文档相关联;待预测文档获取模块,被配置为获取针对待预测对象的待预测描述文档和与待预测描述文档相关联的待预测评论文档,待预测描述文档用于描述待预测对象;主题出现可能性确定模块,被配置为基于第一出现可能性和待预测描述文档,确定主题在待预测描述文档中的主题出现可能性;以及相关性确定模块,被配置为基于主题出现可能性和待预测评论文档,确定待预测描述文档和待预测评论文档的相关性。在本公开的第五方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。在本公开的第六方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第二方面的方法。在本公开的第七方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。在本公开的第八方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第二方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了本公开的实施例能够在其中实现的示例环境的示意图;图2示出了根据本公开的一些实施例的用于确定核心词在主题下的出现可能性的过程的流程图;图3示出了根据本公开的一些实施例的用于确定描述文档与评论文档之间的相关性的过程的流程图;图4示出了根据本公开的一些实施例的用于确定核心词在主题下的出现可能性的装置的示意框图;图5示出了根据本公开的一些实施例的用于确定描述文档与评论文档之间的相关性的装置的示意框图;以及图6示出了能够实施本公开的一些实施例的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。术语“对象”是指文档所涉及的主体。例如在描述手机的文档中,手机为文档所针对的对象。在本文中,文档可以是一篇完整的文章,也可以是文章的一部分,例如文章中的段落或句子。术语“描述文档”是指用于描述对象的文档。例如,针对该对象的新闻稿,产品介绍等。术语“评论文档”是指针对对象或描述文档进行评论的文档。例如,在描述文档为产品介绍的情况下,评论文档为关于产品的用户评论或评价。术语“主题”是指文档的抽象中心思想,其表征与该文档所针对的对象的某一方面。例如,在对象为手机的情况下,主题可以是手机的外观、性能等。术语“核心词”应当理解为文档中重要性高的词语。核心词可以是在文档中出现频率高而在整个语料库中出现频率低的词语。例如,核心词可以是“颜色”、“CPU”等。术语“出现可能性”是指出文档中的主题在该文档中的出现概率或概率分布,或者核心词在该主题下的出现概率或概率分布。如以上提及的,与评论对象不相关的评论内容大量出现,极大降低了应用的用户体验。为了提高评论对象和评论内容的相关性,存在三种传统方案。第一种方案是基于核心词相似性的计算方法。其可以确定在评论内容中是否出现在评论对象的描述中出现的核心词,从而通过计算评论对象和评论内容的词袋模型的余弦相似度来确定评论对象和评论内容的相关性。然而,该方案要求评论内容中出现与评论对象的描述完全相同的核心词,因此无法适当地处理同义词、相关词等。第二种方案针对特定模式的不相关评论内容构建机器学习分类模型。其收集针对评论对象的常见不相关评论内容和相关评论内容,以及将不相关评论内容作为负样本并且将相关评论内容作为正样本,来构建机器学习分类模型,以确定评论对象和评论内容的相关性。然而,该方案仅针对常见不相关评论内容(例如来自竞争者的集中恶意评论内容),但是无法解决来自个体网络用户的分散的不相关评论内容。第三种方案构建通用主题模型来确定评论对象和评论内容的本文档来自技高网
...

【技术保护点】
1.一种用于处理信息的方法,包括:获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;以及基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性。

【技术特征摘要】
1.一种用于处理信息的方法,包括:获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;以及基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性。2.根据权利要求1所述的方法,其中获取所述描述文档和所述评论文档包括:确定与描述所述对象的候选描述文档相关联的候选评论文档的数目;响应于确定所述候选评论文档的数目超过第一预定数目,将所述候选描述文档确定为所述描述文档;以及从所述候选评论文档中的点赞数目和字符数目中的至少一项超过第二预定数目的候选评论文档中确定所述评论文档。3.根据权利要求1所述的方法,其中确定所述描述文档中的第一核心词包括:从所述描述文档中确定一组候选词语;以及将所述一组候选词语中重要性高的候选词语确定为所述第一核心词,所述重要性基于所述候选词语在所述描述文档和参考文档中的出现频率而被确定。4.根据权利要求1所述的方法,其中确定所述第一出现可能性和所述第二出现可能性包括:将所述第一核心词和所述第二核心词应用于可能性确定模型,以得到所述第一出现可能性和所述第二出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。5.一种用于处理信息的方法,包括:获取针对历史对象的历史描述文档中的第一核心词在与所述历史描述文档和历史评论文档相关联的主题下的第一出现可能性,所述历史描述文档用于描述所述历史对象,所述历史评论文档与所述历史描述文档相关联;获取针对待预测对象的待预测描述文档和与所述待预测描述文档相关联的待预测评论文档,所述待预测描述文档用于描述所述待预测对象;基于所述第一出现可能性和所述待预测描述文档,确定所述主题在所述待预测描述文档中的主题出现可能性;以及基于所述主题出现可能性和所述待预测评论文档,确定所述待预测描述文档和所述待预测评论文档的相关性。6.根据权利要求5所述的方法,其中确定所述主题出现可能性包括:确定所述待预测描述文档中的核心词;以及将所述第一出现可能性和所述待预测描述文档中的核心词应用于可能性确定模型,以得到所述主题出现可能性,其中所述可能性确定模型是基于期望最大化算法建立的。7.根据权利要求5所述的方法,其中确定所述相关性包括:确定所述待预测评论文档中的核心词的重要性,所述重要性基于所述待预测评论文档中的核心词在所述待预测评论文档和参考文档中的出现频率而被确定;获取所述历史评论文档中的第二核心词在所述主题下的第二出现可能性;以及基于所述主题出现可能性、所述重要性和所述第二出现可能性,确定所述相关性。8.一种用于处理信息的装置,包括:文档获取模块,被配置为获取针对对象的描述文档和与所述描述文档相关联的评论文档,所述描述文档用于描述所述对象;核心词确定模块,被配置为确定所述描述文档中的第一核心词和所述评论文档中的第二核心词;以及可能性确定模块,被配置为基于所述第一核心词和所述第二核心词,确定所述第一核心词在与所述描述文档和所述评论文档相关联的主题下的第一出现可能性、以及所述第二核心词在所述主题下的第二出现可能性。9.根据权利要求8所述的装置,其中所述文档获取模块包括:数目确定模块,被配置为确定与描述所述对象的候选描述文档相...

【专利技术属性】
技术研发人员:赵娜施茜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1