文章关注点挖掘方法和装置制造方法及图纸

技术编号:18576090 阅读:36 留言:0更新日期:2018-08-01 11:07
本申请公开了文章关注点挖掘方法和装置。该方法的一具体实施方式包括:生成文章的初始候选关注点集合;对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点;基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点。实现了较为全面的挖掘出文章的各个层级的关注点,进而可以根据挖掘出文章的各个层级的关注点,进行较为精确地文章推送。

Focus point mining methods and devices

This application discloses the method and device for mining the article's concerns. A specific implementation of the method includes: a set of initial candidate concerns for the generation of the article; for each initial candidate concern in the set of the initial candidate attention point set, the upper candidate concerns of the initial candidate concerns are found out from the attention point map of the domain belonging to the article, and the candidate concerns are based on the candidate concerns. Confidence, from the set of candidate concerns of the article, find out a candidate concern as the focus of the article, which includes the set of initial candidate concerns, the upper candidate concerns of each of the initial candidate concerns in the set of initial candidate concerns. To achieve a more comprehensive excavation of the various levels of attention of the article, and then can be based on the various levels of attention to the excavation of the article, to carry out a more accurate article push.

【技术实现步骤摘要】
文章关注点挖掘方法和装置
本申请涉及计算机领域,具体涉及互联网领域,尤其涉及文章关注点挖掘方法和装置。
技术介绍
文章的关注点挖掘是文章推送的基础。文章的内容可归属到的内容类别可以称之为关注点,查找文章的内容可归属到的内容类别的过程可以称之为关注点挖掘。目前,在进行关注点挖掘时,通常是将文章的内容所属的最大类别和文章中的具体对象作为文章的关注点。
技术实现思路
本申请实施例提供了文章关注点挖掘方法和装置。第一方面,本申请实施例提供了文章关注点挖掘方法,该方法包括:生成文章的初始候选关注点集合,其中,文章的关注点为文章的内容的内容类别;对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点,其中,位于所述关注点图谱中的相邻层的初始候选关注点的上位候选关注点之间具有从属关系,初始候选关注点的上位候选关注点基于所述文章中的关键词与关注点图谱中的关注点预先绑定的关键词之间的相似度而确定;基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点。第二方面,本申请实施例提供了文章关注点挖掘装置,该装置包括:生成单元,配置用于生成文章的初始候选关注点集合,其中,文章的关注点为文章的内容的内容类别;候选关注点查找单元,配置用于对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点,其中,位于所述关注点图谱中的相邻层的初始候选关注点的上位候选关注点之间具有从属关系,初始候选关注点的上位候选关注点基于所述文章中的关键词与关注点图谱中的关注点预先绑定的关键词之间的相似度而确定;关注点查找单元,配置用于基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点。本申请实施例提供的文章关注点挖掘方法和装置,通过生成文章的初始候选关注点集合,其中,文章的关注点为文章的内容的内容类别;对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点,其中,位于所述关注点图谱中的相邻层的初始候选关注点的上位候选关注点之间具有从属关系,初始候选关注点的上位候选关注点基于所述文章中的关键词与关注点图谱中的关注点预先绑定的关键词之间的相似度而确定;基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点。实现了较为全面的挖掘出文章的各个层级的关注点,进而可以根据挖掘出文章的各个层级的关注点,进行较为精确地文章推送。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出了可以应用于本申请的文章关注点挖掘方法或装置的实施例的示例性系统架构;图2示出了根据本申请的文章关注点挖掘方法的一个实施例的流程图;图3示出了根据本申请的文章关注点挖掘装置的一个实施例的结构示意图;图4示出了适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用于本申请的文章关注点挖掘方法或装置的实施例的示例性系统架构。如图1所示,系统架构可以包括终端101、网络102、服务器103。网络102可以为有线通信网络或无线通信网络。终端101可以是具有显示屏并且支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。服务器103可以向终端101的用户推送文章,服务器103可以预先对文章的关注点进行挖掘,将挖掘出的关注点与终端101的用户浏览的历史文章的关注点相同或相似的文章推送给终端101的用户。请参考图2,其示出了根据本申请的文章关注点挖掘方法的一个实施例的流程。本申请实施例所提供的文章关注点挖掘方法可以由服务器(例如图1中的服务器103)执行。该方法包括以下步骤:步骤201,生成文章的初始候选关注点集合。在本实施例中,可以将内容类别称之为关注点,可以将文章的内容的内容类别称之为文章的关注点。例如,一个文章为多种豪华汽车品牌的SUV的评测文章,该文章按照内容可以归属到豪华汽车品牌这一内容类别和SUV这一内容类别。属于豪华汽车品牌这一内容类别的文章的内容均与豪华汽车品牌相关,属于SUV这一内容类别的文章的内容均与SUV相关。该文章的关注点包括:豪华汽车品牌、SUV。在本实施例中,对于一个文章,可以将可能为该文章的内容的内容类别的一个内容类别称之为该文章的一个候选关注点。在对一个文章的关注点进行挖掘时,可以首先查找出该文章的候选关注点,再从查找出的所有的该文章的候选关注点中查找出作为该文章的关注点的候选关注点。初步查找出的候选关注点可以称之为初始候选关注点,在初始候选关注点的基础上查找出的候选关注点为初始候选关注点的上位候选关注点。在本实施例中,可以按照领域例如财经、汽车等领域,预先分别建立每一个领域各自的关注点图谱。在本实施例中,一个关注点图谱中包含多个层,一个层中的一个关注点与该层的下一层的至少一个关注点之间具有从属关系。相邻的两个层之间具有从属关系的两个关注点相连接。从而,可以在关注点图谱中形成路径,位于同一路径上的任意两个关注点之间均具有从属关系。关注点图谱中的各个关注点可以预先分别绑定与关注点相关联的关键词向量,关键词向量中的每一个分量可以为一个表示与关注点相关联的关键词的词向量。例如,在汽车领域的关注点图谱中,一层中包含关注点宝马X1,该层的上一层包含与关注点宝马X1具有从属关系的关注点宝马,关注点宝马所在的层的上一层具有与宝马具有从属关系的关注点豪华汽车品牌、关注点德系汽车。关注点宝马X1与关注点宝马相连接,关注点豪华汽车品牌、关注点德系汽车均与关注点宝马相连接。关注点豪华汽车品牌、关注点德系汽车也均与关注点宝马X1均有从属关系。关注点宝马X1预先绑定有由与关注点宝马X1相关联的关键词的词向量组成的关键词向量。关注点宝马绑定有由与关注点宝马相关联的关键词的词向量组成的关键词向量。关注点豪华汽车品牌预先绑定有由与豪华汽车品牌相关联的关键词的词向量组成的关键词向量。关注点德系汽车预先绑定有由与德系汽车相关联的关键词的词向量组成的关键词向量。在本实施例中,可以预先统计出文章中出现频次较高的词语,将相邻的例如在同一语句中出现频次较高的词语组成高频词语组合。高频词语组合的数量可以本文档来自技高网...

【技术保护点】
1.一种文章关注点挖掘方法,包括:生成文章的初始候选关注点集合,其中,文章的关注点为文章的内容的内容类别,初始候选关注点集合中的每一个初始候选关注点均位于所述文章所属的领域的关注点图谱中的同一层;对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点,其中,位于所述关注点图谱中的相邻层的初始候选关注点的上位候选关注点之间具有从属关系,初始候选关注点的上位候选关注点基于所述文章中的关键词与关注点图谱中的关注点预先绑定的关键词之间的相似度而确定;基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点。

【技术特征摘要】
1.一种文章关注点挖掘方法,包括:生成文章的初始候选关注点集合,其中,文章的关注点为文章的内容的内容类别,初始候选关注点集合中的每一个初始候选关注点均位于所述文章所属的领域的关注点图谱中的同一层;对于所述初始候选关注点集合中的每一个初始候选关注点,从所述文章所属的领域的关注点图谱中查找出初始候选关注点的上位候选关注点,其中,位于所述关注点图谱中的相邻层的初始候选关注点的上位候选关注点之间具有从属关系,初始候选关注点的上位候选关注点基于所述文章中的关键词与关注点图谱中的关注点预先绑定的关键词之间的相似度而确定;基于候选关注点的置信度,从所述文章的候选关注点集合中查找出作为所述文章的关注点的候选关注点,所述候选关注点集合包括:所述初始候选关注点集合、所述初始候选关注点集合中的每一个初始候选关注点各自的上位候选关注点。2.根据权利要求1所述的方法,所述方法还包括:基于初始候选关注点的上位候选关注点的初始置信度和与所述上位候选关注点具有从属关系的位于所述上位候选关注点所在的层之下的层的其他候选关注点的数量,确定所述上位候选关注点的置信度。3.根据权利要求2所述的方法,所述方法还包括:当未被作为文章的关注点的初始候选关注点所在的层之上的一层中与所述未被作为文章的关注点的初始候选关注点具有从属关系的上位候选关注点被作为文章的关注点时,将所述未被作为文章的关注点的初始候选关注点确定为文章的关注点。4.根据权利要求3所述的方法,所述方法还包括:基于查找出的作为文章的关注点的候选关注点的置信度,对查找出的作为文章的关注点的候选关注点进行排序。5.一种文章关注点挖掘装置,其特征在于,包括:生成单元,配置用于生成文章的初始候选关注点集合,其中,文章的关注点为文章的内容的内容类别,初始候选关注点集合中的每一个初始候选关注点均位于所述文章所属的领域的关注点图谱中的同一层;...

【专利技术属性】
技术研发人员:刘呈祥何伯磊陈一乐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1