一种资讯处理方法及装置制造方法及图纸

技术编号:15792083 阅读:511 留言:0更新日期:2017-07-09 23:15
本发明专利技术实施例公开了一种资讯处理方法及装置,该方法在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本发明专利技术实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清洗以及关键词提取,能够快速准确地提取到资讯热点。

【技术实现步骤摘要】
一种资讯处理方法及装置
本专利技术涉及计算机软件应用领域,特别涉及一种资讯处理方法及装置。
技术介绍
随着通信技术的发展,尤其移动网络和智能移动终端的发展,用户的网络生活越来越丰富,网络端中资讯的发布数量也呈爆发式增长,人们通过网络获取资讯也越来越方便,如浏览新闻、看电影、玩游戏、搜索、购物、发布信息等。但是,资讯的篇幅通常较长,理解其内容本身需要花费较多时间与精力,例如,对金融领域来说,由于金融资讯篇幅较长并且资讯中有较多的专业术语,若不是该领域的从业者,通常很难充分理解资讯中提及的关键内容,即资讯热点。这些资讯热点对经济决策起到指引的作用,第一时间对行业的资讯热点进行了解和把控,能很好的保证在该行业的发展中占绝对优势。而目前从资讯中获取资讯热点的方式一般还是依靠用户自身的行业经验,在阅读完该资讯后总结出来的,不同的用户行业经验可能存在较大的差异,那么获得的资讯热点存在较强的主观性,造成获得资讯热点的准确度低下,因此,如何能够快速准确地对资讯热点进行提取是现在亟待解决的问题。
技术实现思路
本专利技术实施例的目的在于提供一种资讯处理方法及装置,能够快速准确地提取到资讯热点。为达到上述目的,本专利技术实施例公开了一种资讯处理方法,所述方法包括:获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。可选地,所述分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯,包括:分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。可选地,所述对所述第一处理资讯进行关键词提取,包括:利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列。可选地,所述方法还包括:针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。可选地,计算所述目标资讯的热度所采用的公式为:其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。可选地,所述方法还包括:针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。可选地,所述方法还包括:将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。为达到上述目的,本专利技术实施例还公开了一种资讯处理装置,所述装置包括:第一获得模块,用于获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;数据清洗模块,用于分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;第二获得模块,用于对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。可选地,所述数据清洗模块,具体用于:分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。可选地,所述第二获得模块,具体用于:利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列;将提取到的关键词作为所述预设时间段的资讯热点。可选地,所述装置还包括:热度计算模块,用于针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。可选地,所述热度计算模块,具体用于:针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,采用如下公式计算该目标资讯的热度:其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)表示所述关键词k在所述目标资讯x的正文中出现的频次;该式中,T(x)为该目标资讯x对应的时间因子,tc(x)表示计算所述目标资讯x的热度时对应的时间,tp(x)表示所述目标资讯x对应的发布时间。可选地,所述装置还包括:生成模块,用于针对所述目标资讯组中所有目标资讯对应的关键词进行向量化,生成针对所述目标资讯组的文本向量空间,所述文本向量空间中每一维度的向量均对应一个关键词;聚类模块,用于基于所述文本向量空间中每一目标资讯所包含关键词的向量,对所述目标资讯组中每一目标资讯进行聚类,得到第一数量的类簇;第三获得模块,用于将每一类簇的第二词语序列的前第二预设数量个关键词作为该类簇的代表词,所述第二词语序列为按照关键词对应的权重值从大到小排列的词语序列。可选地,所述装置还包括:推送模块,用于将所述资讯热点推送至显示界面,所述显示界面为展示资讯内容的界面。综上可见,本专利技术实施例提供的方案中,在获得针对预设时间段的目标资讯组之后,分别对目标资讯组中的每一目标资讯进行数据清洗,得到针对每一目标资讯的纯文本形式的第一处理资讯,然后对得到的第一处理资讯进行关键词提取,将提取到的关键词作为预设时间段的资讯热点。应用本专利技术实施例提供的方案对资讯进行处理,无需人工主观地处理资讯,而是通过对资讯进行数据清本文档来自技高网...
一种资讯处理方法及装置

【技术保护点】
一种资讯处理方法,其特征在于,所述方法包括:获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。

【技术特征摘要】
1.一种资讯处理方法,其特征在于,所述方法包括:获得针对预设时间段的目标资讯组,所述目标资讯组中包括属于同一领域的至少两条目标资讯;分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯;对所述第一处理资讯进行关键词提取,将提取到的关键词作为所述预设时间段的资讯热点。2.根据权利要求1所述的方法,其特征在于,所述分别对所述目标资讯组中每一目标资讯进行数据清洗,得到每一目标资讯对应的纯文本形式的第一处理资讯,包括:分别对所述目标资讯组中每一目标资讯所包含的超文本标记语言HTML标签和/或图像进行过滤,得到每一目标资讯对应的纯文本形式的第一处理资讯。3.根据权利要求1所述的方法,其特征在于,所述对所述第一处理资讯进行关键词提取,包括:利用词频-逆向文件频率TF-IDF算法对第二处理资讯中包含的词语进行权重计算,得到每一词语的权重值,所述第二处理资讯为:采用预设的分词库对所述第一处理资讯中包含的无关词进行过滤后得到的资讯,所述无关词为与所述目标资讯所属领域无关的词语;将第一词语序列的前第一预设数量个词语确定为关键词,所述第一词语序列为按照词语对应权重值从大到小排列的词语序列。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:针对所述目标资讯组中每一目标资讯,基于该目标资讯对应关键词的权重值以及该目标资讯的发布时间,计算该目标资讯的热度。5.根据权利要求4所述的方法,其特征在于,计算所述目标资讯的热度所采用的公式为:其中,H(x)表示所述目标资讯组中包含的目标资讯x对应的热度,q(x)为该目标资讯x对应的热点相关因子,T(x)为该目标资讯x对应的时间因子;具体的,所述q(x)和所述T(x)表达式如下:该式中,q(x)为该目标资讯x对应的热点相关因子,f(kx)表示所述目标资讯x中关键词k对应的权重值,Ntitle(kx)表示所述关键词k在所述目标资讯x的标题中出现的频次,Ncontent(kx)...

【专利技术属性】
技术研发人员:闫丹凤韩昫柯楠林荣恒赵耀邹华
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1