基于要素的跨通道热点事件发现方法、装置及存储介质制造方法及图纸

技术编号：20160640 阅读：31 留言：0更新日期：2019-01-19 00:13

本发明专利技术公开了一种基于要素的跨通道热点事件发现方法、装置及存储介质，本发明专利技术融合某一领域的新闻报道数据与微博数据，通过联合两个通道提取的要素与文本语义相似度分析，有利于发现该领域热点事件，并且更全面细致的了解热点事件。

全部详细技术资料下载

【技术实现步骤摘要】
基于要素的跨通道热点事件发现方法、装置及存储介质
本专利技术涉及计算机
，特别是涉及一种基于要素的跨通道热点事件发现方法、装置及计算机可读存储介质。
技术介绍
网络热点事件指的是在一定时间、一定范围内，公众最为关心和频繁讨论的事件。热点事件的发现就是从传播的数据流中自动的发现热点内容并将与之关联的其他信息联系在一起。在不同的领域中，比如：体育、财经、政治、娱乐等，及时的发现该领域的热点事件可以更快的捕捉到人们的关注点，更好的把握领域发展态势，并对话题的引导具有重大意义。在传统的热点话题研究中，对于主题内事件集合的研究往往缺少更细致的分析，并且新闻报道这样的长文本比起社交网络中的文本往往在公众关注度和时效性上显得不足，所以导致长文本中热点事件发现的研究缺少更高的时效性和敏感度，从而使得传统的研究已经不足以适应热点事件发现任务。
技术实现思路
本专利技术提供了一种基于要素的跨通道热点事件发现方法、装置及计算机可读存储介质，以解决现有技术中新闻热点事件的时效性差的问题。一方面，本专利技术提供了一种基于要素的跨通道热点事件发现方法，该方法包括：对采集的新闻数据进行预处理...

【技术保护点】
1.一种基于要素的跨通道热点事件发现方法，其特征在于，包括：对采集的新闻数据进行预处理，得到过滤掉无关信息的新闻数据，以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据；对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析；所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取，对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算，基于预设的跨通道事件相似性的计算函数，对两个通道得到的要素进行相似性计算和语音相似性进行加权求和，并计算两个通道的中文本之间的相似度，将所述相似度值大于预设的相似度阈值的文本放...

【技术特征摘要】
1.一种基于要素的跨通道热点事件发现方法，其特征在于，包括：对采集的新闻数据进行预处理，得到过滤掉无关信息的新闻数据，以及将过滤掉无关信息的新闻数据进一步处理后的新闻数据；对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据进行联合分析；所述联合分析包括分别对过滤掉无关信息的新闻数据以及进一步处理后的新闻数据利用CRF模型和规则相结合的方法进行要素提取，对两个通道得到的要素按照预设权重系数进行相似性计算和语音相似性计算，基于预设的跨通道事件相似性的计算函数，对两个通道得到的要素进行相似性计算和语音相似性进行加权求和，并计算两个通道的中文本之间的相似度，将所述相似度值大于预设的相似度阈值的文本放入同一集合来描述该类事件。2.根据权利要求1所述的方法，其特征在于，所述要素包括以下中的一种或多种：时间、地点、人物、事件描述关键词。3.根据权利要求1所述的方法，其特征在于，将过滤掉无关信息的新闻数据进一步处理，包括：对抽取的关键词进行标注，保留能代表预设领域知识的关键词集合；通过word2vec模型对维基百科数据进行训练，得到词向量，对将过滤掉无关信息的新闻数据得到的关键词集合进行相似词扩展，添加维基百科词典中与关键词集合中的词相似度大于预设相似度阈值的词语，形成该领域的初始关键词库；持续采集新浪微博数据，对采集的数据过滤掉无关的字符，去掉重复的文本数据，并根据去掉重复的文本数据得到的数据进行分词，根据所述初始关键词库对分词后的新浪微博数据进行搜索，抽取出该领域下的预设微博数据。4.根据权利要求3所述的方法，其特征在于，还包括：对所述初始关键词库进行更新。5.根据权利要求3所述的方法，其特征在于，所述预设相似度阈值为0.7。6.一种基于要素的跨通道热点事件发现装置，其特征在于，包括：预处理单元，用于...

【专利技术属性】
技术研发人员：段东圣，杜翠兰，李鹏霄，刘晓辉，李扬曦，佟玲玲，程光，张琳，井雅琪，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人