一种特种设备舆情分类方法技术

技术编号:28213553 阅读:17 留言:0更新日期:2021-04-24 14:53
本发明专利技术涉及一种特种设备舆情分类方法,包括如下步骤:获取舆情文本,对舆情文本进行校验、拆分、向量化转化为词向量;对词向量进行分类预测获得舆情相关的特种设备类别;对舆情文本进行校验时,判断舆情文本是否存在缺失值和异常值,进行舆情文本数据补充或剔除。舆情文本拆分是通过对校验后的舆情文本进行分词、过滤词停用词获得多个舆情数据词表,本方案实现特种设备舆情数据的分析处理,满足对特种设备舆情信息分类的需求,有助于特种设备舆情的高效管理。效管理。效管理。

【技术实现步骤摘要】
一种特种设备舆情分类方法


[0001]本专利技术涉及特种设备领域,尤其是一种应用于设备管理方面的特种设备舆情分类方法,有助于特征设备舆情的应急处置。

技术介绍

[0002]特种设备是指对人身和财产安全有较大危险性的锅炉、压力容器(含气瓶)、压力管道、电梯、起重机械、客运索道、大型游乐设施、场(厂)内专用机动车辆[1]。特种设备应急处置能力是妥善处理特种设备突发安全事件、事故应急救援等工作的重要保障。截至2019年底,我国特种设备总量达1525.47万台左右,加快推进特种设备应急处置能力建设已十分迫切。
[0003]舆情是由个人以及各种社会群体构成的公众,在一定的历史阶段和社会空间内,对自己关心或与自身利益紧密相关的各种公共事务所持有的多种情绪、意愿、态度和意见交错的总和。特种设备事故舆情信息的收集和报告工作是做好特种设备应急处置工作的基础。近些年,相关学者围绕特种设备舆情处理与系统研发、应用开展了研究,在提高特种设备舆情采集分析能力方面发挥了积极作用。但是由于特种设备舆情信息中设备类别信息不规范,往往需要由人工进行分类,舆情数据处理效率受到了很大制约。

技术实现思路

[0004]本专利技术的目的在于提供一种特种设备舆情分类方法,实现特种设备舆情数据的分析处理,满足对特种设备舆情信息分类的需求,有助于特种设备舆情的高效管理。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种特种设备舆情分类方法,包括如下步骤:首先获取舆情文本,对舆情文本进行校验、拆分、向量化转化为词向量;然后对词向量进行分类预测获得舆情相关的特种设备类别。确定了特种设备类别,利于进行舆情管理。
[0006]优选的,对舆情文本进行校验时,判断舆情文本是否存在缺失值和异常值,进行舆情文本数据补充或剔除。保证了舆情文本原始数据的准确性。
[0007]优选的,舆情文本拆分是通过对校验后的舆情文本进行分词、过滤词停用词获得多个舆情数据词表;对获得的舆情数据表应用WordCloud库生成词云进行展示。
[0008]其中舆情文本分词时,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况,进而生成有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用基于汉字成词能力的隐马尔可夫模型;过滤词停用,用于实现文本数据中噪声过滤,通过停用词库来实现,结合特种设备应用领域选择合适的停用词库。
[0009]在进行向量化时,针对分词和过滤词停用后的舆情数据词表,不考虑每个词出现的顺序,只将每个词出现的频次v
i
进行统计,构成一个特征向量V={v1,v2,

,v
n
},作为舆情文本特征,其中n为舆情数据词表维数。
[0010]汇集每一条舆情文本的特征向量V为n维输入空间:
[0011]X={V1,V2,

,V
N
}
[0012]其中N为舆情样本数据数量;
[0013]设置8个特种设备分类和1个其他分类共计9个类别,分类空间表示为C={c1,c2,

,c9},则舆情数据集可表示为:
[0014][0015]k=1,2,

,9
[0016]分类预测时,首先根据
[0017][0018]k=1,2,

,9;j=1,2,

,N;l=1,2,

,n;λ=1;
[0019]获得每个类别的后验概率;再根据下述公式获得最大后验概率
[0020][0021]进而选择最大后验概率作为所属特种设备种类。
[0022]进行分词时,采用句子划分、可成词的词语划分、长词切分划分,即采用三种分词模式:(1)精确模式,此模式支持以最高精度来对句子进行划分,适用于文本分析;(2)全模式,此模式可以扫描出句中全部可成词的词语,并且速度很快,但它难以解决歧义问题;(3)搜索引擎模式,此模式基于精确模式对长词在进行切分,此模式适用于搜索引擎分词。
[0023]通过上述描述可以看出,本方案的方法围绕特种设备舆情文本原始数据处理、语句拆分和向量化。数据质量校验主要检查舆情文本是否存在缺失值和异常值,进行数据补充或剔除。语句拆分主要通过分词实现和过滤停用词实现,中文分词算法可分为基于规则的分词、基于统计的分词以及两类结合的分词,常用的模型库有jieba、Ansj、盘古分词等。过滤停用词类似滤波器功能,主要实现文本数据中噪声过滤,一般通过停用词库来实现,需要结合应用领域选择合适的停用词库,例如哈工大停用词表、四川大学机器智能实验室停用词库等。文本向量化实现字或词转换为词向量,常用的方法有One

Hot编码、词袋方法、Word2Vec等。在特种设备舆情预处理环节,可通过TF

IDF、TextRank等方法实现关键词提取,便于进一步提取文本特征;进行分类预测时,采用最大后验概率,使得应用人工神经网络算法开展特种设备舆情数据分析也成为可能。
附图说明
[0024]图1为本专利技术具体实施方式的流程图。
[0025]图2位特种设备舆情词云。
[0026]图3位特种设备舆情分类预测混淆矩阵。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于
本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]请参阅附图,本专利技术提供的特种设备舆情分类方法,
[0029]首先获取舆情文本进行校验,对舆情文本进行校验时,判断舆情文本是否存在缺失值和异常值,进行舆情文本数据补充或剔除。
[0030]舆情文本拆分是通过对校验后的舆情文本进行分词、过滤词停用词获得多个舆情数据词表,舆情文本分词时,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况,进而生成有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用基于汉字成词能力的隐马尔可夫模型;过滤词停用,用于实现文本数据中噪声过滤,通过停用词库来实现,结合特种设备应用领域选择合适的停用词库。例如哈工大停用词表、四川大学机器智能实验室停用词库等。
[0031]向量化时,针对分词和过滤词停用后的舆情数据词表,不考虑每个词出现的顺序,只将每个词出现的频次v
i
进行统计,构成一个特征向量V={v1,v2,

,v
n
},作为舆情文本特征,其中n为舆情数据词表维数。
[0032]汇集每一条舆情文本的特征向量V为n维输入空间:
[0033]X={V1,V2,

,V
N
}
[0034]其中N为舆情样本数据数量;...

【技术保护点】

【技术特征摘要】
1.一种特种设备舆情分类方法,其特征在于如下步骤:获取舆情文本,对舆情文本进行校验、拆分、向量化转化为词向量;对词向量进行分类预测获得舆情相关的特种设备类别。2.根据权利要求1所述的特种设备舆情分类方法,其特征是:对舆情文本进行校验时,判断舆情文本是否存在缺失值和异常值,进行舆情文本数据补充或剔除。3.根据权利要求1所述的特种设备舆情分类方法,其特征是:舆情文本拆分是通过对校验后的舆情文本进行分词、过滤词停用词获得多个舆情数据词表,舆情文本分词时,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况,进而生成有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用基于汉字成词能力的隐马尔可夫模型;过滤词停用,用于实现文本数据中噪声过滤,通过停用词库来实现,结合特种设备应用领域选择合适的停用词库。4.根据权利要求3所述的特种设备舆情分类方法,其特征是:向量化时,针对分词和过滤词停用后的舆情数据词表,不考虑每个词出现的顺序...

【专利技术属性】
技术研发人员:陈树芳李娟刘丽梅薛庆李磊
申请(专利权)人:山东特检鲁安工程技术服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1