基于要素的跨通道热点事件发现方法、装置及存储介质制造方法及图纸

技术编号:20160640 阅读:26 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于要素的跨通道热点事件发现方法、装置及存储介质,本发明专利技术融合某一领域的新闻报道数据与微博数据,通过联合两个通道提取的要素与文本语义相似度分析,有利于发现该领域热点事件,并且更全面细致的了解热点事件。

【技术实现步骤摘要】
基于要素的跨通道热点事件发现方法、装置及存储介质
本专利技术涉及计算机
,特别是涉及一种基于要素的跨通道热点事件发现方法、装置及计算机可读存储介质。
技术介绍
网络热点事件指的是在一定时间、一定范围内,公众最为关心和频繁讨论的事件。热点事件的发现就是从传播的数据流中自动的发现热点内容并将与之关联的其他信息联系在一起。在不同的领域中,比如:体育、财经、政治、娱乐等,及时的发现该领域的热点事件可以更快的捕捉到人们的关注点,更好的把握领域发展态势,并对话题的引导具有重大意义。在传统的热点话题研究中,对于主题内事件集合的研究往往缺少更细致的分析,并且新闻报道这样的长文本比起社交网络中的文本往往在公众关注度和时效性上显得不足,所以导致长文本中热点事件发现的研究缺少更高的时效性和敏感度,从而使得传统的研究已经不足以适应热点事件发现任务。
技术实现思路
本专利技术提供了一种基于要素的跨通道热点事件发现方法、装置及计算机可读存储介质,以解决现有技术中新闻热点事件的时效性差的问题。一方面,本专利技术提供了一种基于要素的跨通道热点事件发现方法,该方法包括:对采集的新闻数据进行预处理,得到过滤掉无关信息的新闻数据,以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据;对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析;所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取,对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算,基于预设的跨通道事件相似性的计算函数,对两个通道得到的要素进行相似性计算和语音相似性进行加权求和,并计算两个通道的中文本之间的相似度,将所述相似度值大于预设的相似度阈值的文本放入同一集合来描述该类事件。优选地,所述要素包括以下中的一种或多种:时间、地点、人物、事件描述关键词。优选地,将过滤掉无关信息的新闻数据进一步处理,包括:对抽取的关键词进行标注,保留能代表预设领域知识的关键词集合;通过word2vec模型对维基百科数据进行训练,得到词向量,对将过滤掉无关信息的新闻数据得到的关键词集合进行相似词扩展,添加维基百科词典中与关键词集合中的词相似度大于预设相似度阈值的词语,形成该领域的初始关键词库;持续采集新浪微博数据,对采集的数据过滤掉无关的字符,去掉重复的文本数据,并根据去掉重复的文本数据得到的数据进行分词,根据所述初始关键词库对分词后的新浪微博数据进行搜索,抽取出该领域下的预设微博数据。优选地,所述方法还包括:对所述初始关键词库进行更新。优选地,所述预设相似度阈值为0.7。另一方面,本专利技术提供了一种基于要素的跨通道热点事件发现装置,该装置包括:预处理单元,用于对采集的新闻数据进行预处理,得到过滤掉无关信息的新闻数据,以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据;分析单元,用于对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析;所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取,对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算,基于预设的跨通道事件相似性的计算函数,对两个通道得到的要素进行相似性计算和语音相似性进行加权求和,并计算两个通道的中文本之间的相似度,将所述相似度值大于预设的相似度阈值的文本放入同一集合来描述该类事件。优选地,所述要素包括以下中的一种或多种:时间、地点、人物、事件描述关键词。优选地,所述预处理单元还用于,对抽取的关键词进行标注,保留能代表预设领域知识的关键词集合;通过word2vec模型对维基百科数据进行训练,得到词向量,对将过滤掉无关信息的新闻数据得到的关键词集合进行相似词扩展,添加维基百科词典中与关键词集合中的词相似度大于预设相似度阈值的词语,形成该领域的初始关键词库;持续采集新浪微博数据,对采集的数据过滤掉无关的字符,去掉重复的文本数据,并根据去掉重复的文本数据得到的数据进行分词,根据所述初始关键词库对分词后的新浪微博数据进行搜索,抽取出该领域下的预设微博数据。优选地,该装置还包括:更新单元,用于对所述初始关键词库进行更新。再一方面,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述中任意一种所述的基于要素的跨通道热点事件发现方法。本专利技术有益效果如下:本专利技术融合某一领域的新闻报道数据与微博数据,通过联合两个通道提取的要素与文本语义相似度分析,有利于发现该领域热点事件,并且更全面细致的了解热点事件。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术实施例的一种基于要素的跨通道热点事件发现方法的流程示意图;图2是本专利技术实施例的数据预处理的流程示意图;图3是本专利技术实施例的联合分析方法的流程示意图;图4是本专利技术实施例的更新关键词库库的流程示意图;图5是本专利技术实施例的基于要素的跨通道热点事件发现装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术第一实施例提供了一种基于要素的跨通道热点事件发现方法,参见图1,包括:对采集的新闻数据进行预处理,得到过滤掉无关信息的新闻数据,以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据;对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析;所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取,对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算,基于预设的跨通道事件相似性的计算函数,对两个通道得到的要素进行相似性计算和语音相似性进行加权求和,并计算两个通道的中文本之间的相似度,将所述相似度值大于预设的相似度阈值的文本放入同一集合来描述该类事件。本专利技术融合某一领域的新闻报道数据与微博数据,通过联合两个通道提取的要素与文本语义相似度分析,有利于发现该领域热点事件,并且更全面细致的了解热点事件。需要说明的是,本专利技术实施例所述要素包括以下中的一种或多种:时间、地点、人物、事件描述关键词。本专利技术实施例中,将过滤掉无关信息的新闻数据进一步处理,包括:对抽取的关键词进行标注,保留能代表预设领域知识的关键词集合;通过word2vec模型对维基百科数据进行训练,得到词向量,对将过滤掉无关信息的新闻数据得到的关键词集合进行相似词扩展,添加维基百科词典中与关键词集合中的词相似度大于预设相似度本文档来自技高网...

【技术保护点】
1.一种基于要素的跨通道热点事件发现方法,其特征在于,包括:对采集的新闻数据进行预处理,得到过滤掉无关信息的新闻数据,以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据;对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析;所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取,对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算,基于预设的跨通道事件相似性的计算函数,对两个通道得到的要素进行相似性计算和语音相似性进行加权求和,并计算两个通道的中文本之间的相似度,将所述相似度值大于预设的相似度阈值的文本放入同一集合来描述该类事件。

【技术特征摘要】
1.一种基于要素的跨通道热点事件发现方法,其特征在于,包括:对采集的新闻数据进行预处理,得到过滤掉无关信息的新闻数据,以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据;对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析;所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取,对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算,基于预设的跨通道事件相似性的计算函数,对两个通道得到的要素进行相似性计算和语音相似性进行加权求和,并计算两个通道的中文本之间的相似度,将所述相似度值大于预设的相似度阈值的文本放入同一集合来描述该类事件。2.根据权利要求1所述的方法,其特征在于,所述要素包括以下中的一种或多种:时间、地点、人物、事件描述关键词。3.根据权利要求1所述的方法,其特征在于,将过滤掉无关信息的新闻数据进一步处理,包括:对抽取的关键词进行标注,保留能代表预设领域知识的关键词集合;通过word2vec模型对维基百科数据进行训练,得到词向量,对将过滤掉无关信息的新闻数据得到的关键词集合进行相似词扩展,添加维基百科词典中与关键词集合中的词相似度大于预设相似度阈值的词语,形成该领域的初始关键词库;持续采集新浪微博数据,对采集的数据过滤掉无关的字符,去掉重复的文本数据,并根据去掉重复的文本数据得到的数据进行分词,根据所述初始关键词库对分词后的新浪微博数据进行搜索,抽取出该领域下的预设微博数据。4.根据权利要求3所述的方法,其特征在于,还包括:对所述初始关键词库进行更新。5.根据权利要求3所述的方法,其特征在于,所述预设相似度阈值为0.7。6.一种基于要素的跨通道热点事件发现装置,其特征在于,包括:预处理单元,用于...

【专利技术属性】
技术研发人员:段东圣杜翠兰李鹏霄刘晓辉李扬曦佟玲玲程光张琳井雅琪
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1