用于确定新闻主题的方法与设备技术

技术编号:18114994 阅读:33 留言:0更新日期:2018-06-03 08:14
本申请的目的是提供一种用于确定新闻主题的方法与设备。与现有技术相比,本申请通过对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。这种确定目标新闻主题的方式,能够使确定的新闻主题更精细,从而更好的满足不同用户的需求,提升用户的体验。

【技术实现步骤摘要】
用于确定新闻主题的方法与设备
本申请涉及通信
,尤其涉及一种用于确定新闻主题的技术。
技术介绍
随着信息技术的飞速发展,人们的生活面临着越来越多的信息,例如,新闻等,在如此海量的新闻中,用户感兴趣的新闻可能只是包含一个或几个类别,现有技术中,虽然对新闻进行了不同的分类,但是存在分类粗略、不够精细的问题,因此,如何解决这个问题、更好的满足用户的需求,成为一个亟待解决的问题。
技术实现思路
本申请的目的是提供一种用于确定新闻主题的方法与设备。根据本申请的一个方面,提供了一种用于确定新闻主题的方法,其中,该方法包括:对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。根据本申请的另一方面,还提供了一种用于确定新闻主题的设备,其中,该设备包括:第一装置,用于对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;第二装置,用于对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;第三装置,用于基于所述聚类簇确定所述目标新闻对应的目标新闻主题。与现有技术相比,本申请通过对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。这种确定目标新闻主题的方式,能够使确定的新闻主题更精细,从而更好的满足不同用户的需求,提升用户的体验。此外,本申请还可以根据所述目标新闻的热度信息、发布时间、发布地点、图片信息、长度信息、传播信息等附加特征,确定所述目标新闻的附加属性信息,这种方式,能够更好、更全面的增加新闻的属性信息,以使用户能够更好地根据自己的需求选择不同的新闻。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个优选实施例的一种用于确定新闻主题的拓扑图;图2示出根据本申请一个方面的一种用于确定新闻主题的方法流程图;图3示出根据本申请一个优选实施例的一种用于确定新闻主题的方法流程图;图4示出根据本申请另一个方面的一种用于确定新闻主题方法的设备示意图;图5示出根据本申请另一个优选实施例的一种用于确定新闻主题方法的设备示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。图1示出根据本申请一个优选实施例的一种用于确定新闻主题的拓扑图,在该拓扑图中,在此,所述网络设备11对应为一个设备或是多个设备集群,所述网络设备11优选为各种计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。所述终端设备12及所述网络设备13为提供所述多条新闻的设备,包括但不限于各种移动智能设备、计算机、网络主机、单个网络服务器等。在此,所述网络设备11对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量,然后基于预设的知识图谱和所述词向量确定所述目标新闻对应的目标新闻主题。图2示出本申请一个方面提供的一种用于确定新闻主题的方法,其中,该方法包括:S1对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;S2对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;S3基于所述聚类簇确定所述目标新闻对应的目标新闻主题。在该实施例中,在所述步骤S1中,设备1对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量。在此,所述设备1包括但不限于各种移动智能设备、个人计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;其中,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机;所述设备1还包括各种智能终端,如移动智能设备、个人计算机等。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。在此,所述目标新闻包括新闻主题未确定的新闻;所述词向量是对所述目标新闻进行切词处理后获取到的、具有实体意义的、与确定所述目标新闻主题有关的词。优选地,其中,所述步骤S1包括:对所述目标新闻进行切词处理,获取切词结果;在所述切词结果中确定所述目标新闻的词向量。在此,所述切词结果包括所述目标新闻中的所有词,具体地,在所述切词结果中确定所述目标新闻的词向量的方式,可以通过将所述切词结果中没有实体意义的词向量删除,例如,将所述切词结果中的“的”、“了”、“中”、“和”等等与确定所述目标新闻主题的词向量删除。继续在该实施例中,在所述步骤S2中,设备1对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量。具体地,设备1在确定了词向量之后,统计每个词向量在所述目标新闻中的出现次数,并把每一个不重复的词向量作为一个聚类簇的基础,对每个不重复的词向量进行扩充聚类,从而确定与所述词向量对应的聚类簇。优选地,其中所述步骤S2包括:基于预设的知识图谱对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于预设的知识图谱确定的所述词向量的扩充词向量。在此,所述预设的知识图谱包括基于所述词向量进行的扩展,例如,可以基于一个词向量的不同属性扩展出其他不同的词向量,比如,所述目标新闻中包本文档来自技高网...
用于确定新闻主题的方法与设备

【技术保护点】
一种用于确定新闻主题的方法,其中,该方法包括:对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。

【技术特征摘要】
1.一种用于确定新闻主题的方法,其中,该方法包括:对待处理的目标新闻进行切词处理,获得与所述目标新闻对应的词向量;对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及所述词向量的扩充向量;基于所述聚类簇确定所述目标新闻对应的目标新闻主题。2.根据权利要求1所述的方法,其中,所述对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇包括:基于预设的知识图谱对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于预设的知识图谱确定的所述词向量的扩充词向量。3.根据权利要求1所述的方法,其中,所述对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇包括:基于语义分析对所述目标新闻对应的词向量进行扩充聚类,确定与所述词向量对应的聚类簇,其中,所述聚类簇中包括所述词向量及基于语义分析确定的所述词向量的扩充词向量。4.根据权利要求1至3中任一项所述的方法,其中,所述基于所述聚类簇确定所述目标新闻对应的目标新闻主题包括:基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题;基于所述聚类簇的聚类主题确定所述目标新闻对应的目标新闻主题。5.根据权利要求4所述的方法,其中,所述基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题包括:基于所述聚类簇中的所述词向量及所述词向量的扩充词向量的出现频率,确定所述聚类簇的聚类主题。6.根据权利要求5所述的方法,其中,所述基于所述聚类簇中的所述词向量及所述词向量的扩充词向量,确定所述聚类簇的聚类主题包括:基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题;基于所述第一聚类主题及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题。7.根据权利要求6所述的方法,其中,所述基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题包括:将所述词向量在所述目标新闻中的出现频率、与所述词向量在新闻库中对应新闻主题的出现频率的频率阈值作比较;当所述词向量在所述目标新闻中的出现频率大于在所述对应新闻主题的出现频率的频率阈值,确定所述对应新闻主题为所述聚类簇的第一聚类主题。8.根据权利要求7所述的方法,其中,所述基于所述聚类簇中的所述词向量的出现频率,确定所述聚类簇的第一聚类主题还包括:基于所述词向量在所述目标新闻中的出现频率确定所述词向量对应的聚类簇的第一聚类主题的分值;其中,所述基于所述第一聚类主题及所述词向量的扩充词向量在所述目标新闻中的出现频率,确定所述聚类簇的聚类主题包括:基于所述分值超过分值阈值的所述词向量对应的聚类簇的第一聚类主题,及所述词向量...

【专利技术属性】
技术研发人员:李龙顾正相
申请(专利权)人:上海掌门科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1