一种基于单一舆情事件的互联网数据清除方法技术

技术编号:30830799 阅读:35 留言:0更新日期:2021-11-18 12:44
本发明专利技术公开了一种基于单一舆情事件的互联网数据清除方法,涉及数据处理技术领域,通过设置包括舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句和舆情主体语句的舆情规则词,按权重排布舆情规则词,按照排布顺序对单一目标舆情数据中的多余字段或无用字段进行清除,再对舆情数据进行切分,实现分级别对切分结果的自动化匹配清除,实现无效数据的清除;本发明专利技术提供了一种基于单一舆情事件的互联网数据清除方法,通过对舆情数据进行切分,并按照权重实现对切分舆情数据的自动化匹配清除。清除。清除。

【技术实现步骤摘要】
一种基于单一舆情事件的互联网数据清除方法


[0001]本专利技术涉及数据处理
,特别涉及一种基于单一舆情事件的互联网 数据清除方法。

技术介绍

[0002]舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会 事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、 个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态 度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情 绪等等表现的总和。
[0003]网络舆情是社会舆情在互联网空间的映射,是社会舆情的直接反映。传统 的社会舆情存在于民间,存在于大众的思想观念和日常的街头巷尾的议论之 中,前者难以捕捉,后者稍纵即逝,舆情的获取只能通过社会明察暗访、民意 调查等方式进行,获取效率低下,样本少而且容易流于偏颇,耗费巨大。而随 着互联网的发展,大众往往以信息化的方式发表各自看法,网络舆情可以采用 网络自动抓取等技术手段方便获取,效率高而且信息保真,覆盖面全。
[0004]随着中国网民数量的增加,互联网给我们带来了大量的信息本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于单一舆情事件的互联网数据清除方法,其特征在于,包括以下步骤:获取单一目标舆情数据,所述单一目标舆情数据包括:舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句和舆情主体语句;基于统计词典,对舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句和舆情主体语句进行语句切分;将舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句、舆情主体语句的切分结果分别与统计词典中的语句进行匹配,切分结果中未与统计词典中的语句匹配成功的数据判定为无效数据,进行无效数据的清除。2.如权利要求1所述的一种基于单一舆情事件的互联网数据清除方法,其特征在于,所述对舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句和舆情主体语句进行语句切分的步骤,包括:基于统计词典构造舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句和舆情主体语句的前缀词典;根据前缀词典对舆情事件语句、舆情人物语句、舆情时间语句、舆情地域语句和舆情主体语句进行语句切分,生成汉字成词情况构成的有向无环图;采用动态规划查找有向无环图中的最大概率路径,得到基于词频的最大切分组合,输出切分成词的语句。3.如权利要求2所述的一种基于单一舆情事件的互联网数据清除方法,其特征在于,还包括:若所述单一目标舆情数据中存在前缀词典中未收录的词,则基于汉字成词能力的HMM模型,使用Viterbi算法进行语句切分。4.如权利要求1所述的一种基于单一舆情事件的互联网数据清除方法,其特征在于,还包括:设...

【专利技术属性】
技术研发人员:罗箫
申请(专利权)人:西安康奈网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1