【技术实现步骤摘要】
互联网新闻热点事件自动生成系统及方法
[0001]本专利技术涉及的是一种信息处理领域的技术,具体是一种互联网新闻热点事件自动生成系统及方法。
技术介绍
[0002]互联网的时代下催生了很多新媒体的发展,人们获取信息的来源不再像之前那么单一,除了新媒体,每个人都能够在网络上发表自己的看法。如果说新媒体是信息源,那么群众的评论则是影响事件走向的重要因素。而且,在大数据时代下,新闻话题的传播速度快到无法想象,当爆发出一条新闻之后,在短短数分钟内可能会有数万计转发,数百万的阅读。如此海量的信息可以得到爆炸式的传播,如何能够实时的把握民情并做出对应的处理对很多企业甚至政府机构来说都是至关重要的。
[0003]事件迸发是非常正常的事情,由于当下互联网的发展,事件频发的状态会引起媒体新闻的泛滥,相关的新闻层出不穷并且应接不暇,有效的进行互联网新闻热点事件自动生成既能够让大众快速明了事件的起因经过,更重要的是能够帮助有关部门第一时间了解社会问题,并提出相应的解决措施。
[0004]现有技术存在以下缺点:
[0005] ...
【技术保护点】
【技术特征摘要】
1.一种互联网新闻热点事件自动生成系统,其特征在于,包括:数据读取单元、文本分词单元、去除停用词单元、关键词提取、计算相似性单元、形成事件及事件摘要及标题生成、事件分类、事件预警单元,其中:数据读取单元分别与文本分词单元、去除停用词单元、关键词提取、计算相似性单元、形成事件相连并传输事件数据信息,形成事件单元与标题生成、事件分类、事件预警单元相连并传输事件信息。2.根据权利要求1所述系统面向互联网新闻热点事件自动生成方法,其特征在于,包括以下步骤:步骤一:对数据库的文本进行读取:对数据进行格式转换、清洗预处理,并将其存储在数据库中;步骤二:对文本进行jieba分词,并去除停用词;步骤三:关键词提取:采用基于图模型的TextRank方法进行关键词提取,具体为:步骤三:关键词提取:采用基于图模型的TextRank方法进行关键词提取,具体为:其中:W表示带权的边;S(V_i):网页V_i的重要度(权重),初始值可设为1;d:阻尼系数,一般为0.85;In(V_i):能跳转到网页V_i的页面,在图中对应入度对应的点;Out(V_j):网页V_j能够跳转到的页面,在图中对应出度的点;步骤四:计算相似度:在一个事件中,选择当干文档代表该事件;在拿到一个批次数据之后,首先对文档进行向量计算,然后对该批次的文档进行聚类并选取种子事件的集合,保存种子事件的向量以便进行文本相似度计算,当获得下一批次数据后直接进行相似度计算;新文档和一个类别中某一种子的相似度新文档特征向量和某类中第j个种子事件的平均相似度其中:d
i
为新文档的特征向量;d
j
为某事件的第j个种子事件的特征向量;M为特征向量的维度;w
ik
为新文档i的特征向量的第k个权重;w
jk
为第j个种子话题特征向量的第k个权重;步骤六:通过single
‑
pass算法对文本相似度匹配聚类,使得共同话题的文本聚为一类,具体包括:6.1)输入新文档d;6.2)计算d与已有话题分类中每篇文档的相似度,获取与d相似度最大的时间并得到相似度值T;6.3)当T大于阈值,则文档d被分类到已知的话题类别,否则形成新的事件;6.4)聚类过程结束;步骤七:形成事件并输出通用唯一识别码(UUID),具体操作为:引用uuid模块;步骤八:利用TextRank算法生成摘要,即将单词看成图中的节点进行关键词提取,再将每个句子看成节点进行摘要生成;当两个句子之间有相似性,则认为对应的两个节点之间有一个无项有权边且该边的权值是其相似度,具体操作为:8.1)将输入的文本或文本集的内容分割成句子的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。