一种用于智慧业务的评价数据处理方法技术

技术编号:39399279 阅读:13 留言:0更新日期:2023-11-19 15:52
本发明专利技术属于业务信息数据处理方法技术领域,尤其涉及一种用于智慧业务的评价数据处理方法,包括如下步骤:存储和建立基础数据库,进行预处理得到有效数据库,对评价信息进行标签处理,对评价文本进行分句;建立深度学习输出模型,通过注意力机制增强重要特征的权重值,归一化后进行评价分类输出,得到评价数据输出结果

【技术实现步骤摘要】
一种用于智慧业务的评价数据处理方法


[0001]本专利技术属于业务信息数据处理方法
,尤其涉及一种用于智慧业务的评价数据处理方法


技术介绍

[0002]随着互联网技术的发展和应用,新生代居民的信息表达更倾向于利用更加自由方便的网络途径,相对于传统评价采集和收集处理系统而言,很多时候,大量的业务评价数据信息等分布在零散的各类论坛

贴吧

聊天室等网络区间,由于网络信息传递的高速特点,突发性以及敏感性事件很可能快速产生强烈的网络评价,而很多时候,现有的评价应对和处理系统往往难以快速的跟进和处理相应事件评价信息


技术实现思路

[0003]本专利技术的目的在于,基于实际业务需求提供一种用于更高效的收集整理评价信息数据,并快速抓取和提炼重要信息和评价特征,以便于在突发应急事件处理过程中,迅速确定关键要素,掌握评价走向,提高突发事件应急处理效率和精准性的用于智慧业务的评价数据处理方法

[0004]为实现上述目的,本专利技术采用如下技术方案

[0005]一种用于智慧业务的评价数据处理方法,包括如下步骤:
[0006]S1、
建立基础数据库,具体是指:
[0007]基于业务需求从采集对象获取评价数据,基于评价数据存储和建立基础数据库;
[0008]所述采集对象是指在进行业务评价分析时需要采集的评价信息的直接来源,所述评价数据至少包括在设定的评价采集周期内获取的各采集对象对应的r/>ID、
评价信息

时间戳

传播指数;所述传播指数是指评价信息的转发数

评论数

点赞数或者收藏数之一;
[0009]S2、
基础数据库预处理,具体是指:
[0010]对基础数据库内评价信息数据进行必要的预处理得到有效数据库,所述预处理至少包括:
[0011]建立非标准文本信息的网络表意符号或文本数据映射表,定位网络表意符号或文本,基于表意符号数据转换表将网络表意符号或文本转换为标准文本信息;所述网络表意符号或文本是指在网络语言中用于表征感情

对象或关系的特定字符

符号或者其组合;
[0012]S3、
基于有效数据库内标准文本信息的含义对评价信息数据进行标签处理,具体是指:基于基础数据库内评价文本信息的自然含义进行标签定义,根据标签定义对评价文本信息进行标注分类;
[0013]S4、
基于基础数据库内评价文本的分句符号标点所处位置对有效数据库内的对应评价文本信息进行分句;利用
NIP
标记工具对评价文本分句进行标记归集,建立分词词典

情感词词典

程度词词典

否定词词典;基于人工标记或者专家打分建立各情感词权值字典和程度词权值字典;
[0014]S5、
依次检索评价信息文本分句,确定情感词所处位置

情感符号以及其情感值,确定否定词和程度词位置;在情感词前查找程度词,找到后停止搜索,将对应情感词的情感值乘以程度词权值;在情感词前超找否定词,确定否定词的数量,若否定词的数量为奇数,则将对应情感值的情感值转为其相反数;若否定词的数量为偶数,则不处理;确定所有评价信息文本分句的情感值,建立情感词典;
[0015]S6、
建立评价信息深度学习输出模型,所述评价信息深度学习输出模型至少包括以下几部分:
[0016]6a)
利用
XLNet
模型建立评价信息语言预测层,并以
XLNet
网络为向量化表达工具,将有效数据库内评价信息文本输入
XLNet
中进行转换得到信息序列
X

X1,X2,X3......X
n
‑1,X
n
,其中
n
是评价信息文本的长度,
i
是指评价信息文本中的第
i
个字符;基于权值字典对信息序列进行转换得到其对应的权值序列
E
,以权值序列
E
作为输入,利用自回归编码器进行训练,得到信息序列的向量化表达
g

[0017]6b)
利用
BiGRU
双向循环神经网络模型建立特征提取层,以向量化表达
g
作为输入,利用双向循环神经网络从不同方向提取特征,得到正向特征向量
F1和反向特征向量
F2;
[0018]S7
组合正向特征向量
F1和反向特征向量
F2得到评价信息文本的特征向量表达
F0,通过注意力机制
(Attention Mechanism)
对特征向量表达
F0进行权重赋值,增强重要特征的权重值,归一化后利用激活函数进行评价信息数据分类输出,得到评价数据输出结果

[0019]对前述用于智慧业务的评价数据处理方法的进一步完善或者优选实施方式,所述步骤
S2
还包括,去停用词处理的步骤,具体是指:基于各采集对象的评价信息文本特点,建立评价信息的停用词库,对评价信息文本进行去停用词处理

[0020]对前述用于智慧业务的评价数据处理方法的进一步完善或者优选实施方式,所述步骤
S2
还包括,特定字符符号处理步骤,具体是指:删除无意义符号,将特定符号或符号串转换为特定评价文本

[0021]对前述用于智慧业务的评价数据处理方法的进一步完善或者优选实施方式,所述步骤
S3
还包括数据丰富的步骤,具体是指:基于数据增强技术对有效数据库进行丰富处理,扩大有效数据库数据容量或者维度,使其满足训练使用需求

[0022]对前述用于智慧业务的评价数据处理方法的进一步完善或者优选实施方式,所述步骤4中的情感词是指评价文本信息中用于表达采集对象对于评价事件的情绪观点的词汇,情感符号是指情感词的正面属性或负面属性,所述情感值是指情感词所表达的情绪观点的强度

[0023]其有益效果在于:
[0024]本申请的用于智慧业务的评价数据处理方法充分考虑现有网络评价途径内评价信息数据的个性化和零散化特点,通过逐步抽取和提炼评价信息数据,实现从海量的零散的评价信息中提取关键要素,确定突发事件应急处理的重点关注方向以及跟踪评价变化过程的目的,为增强突发事件的评价应对效率和能力提供助力,为定位异常评价,预警敌对势力和不法分子的网络违法行为提供工具

附图说明
[0025]图1是用于智慧业务的评价数据处理方法的实施原理图

具体实施方式
[0026]以下结合具体实施例对本专利技术作详细说明

[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种用于智慧业务的评价数据处理方法,其特征在于,包括如下步骤:
S1、
建立基础数据库,具体是指:基于业务需求从采集对象获取评价数据,基于评价数据存储和建立基础数据库;所述采集对象是指在进行业务评价分析时需要采集的评价信息的直接来源,所述评价数据至少包括在设定的评价采集周期内获取的各采集对象对应的
ID、
评价信息

时间戳

传播指数;所述传播指数是指评价信息的转发数

评论数

点赞数或者收藏数之一;
S2、
基础数据库预处理,具体是指:对基础数据库内评价信息数据进行必要的预处理得到有效数据库,所述预处理至少包括:建立非标准文本信息的网络表意符号或文本数据映射表,定位网络表意符号或文本,基于表意符号数据转换表将网络表意符号或文本转换为标准文本信息;所述网络表意符号或文本是指在网络语言中用于表征感情

对象或关系的特定字符

符号或者其组合;
S3、
基于有效数据库内标准文本信息的含义对评价信息数据进行标签处理,具体是指:基于基础数据库内评价文本信息的自然含义进行标签定义,根据标签定义对评价文本信息进行标注分类;
S4、
基于基础数据库内评价文本的分句符号标点所处位置对有效数据库内的对应评价文本信息进行分句;利用
NIP
标记工具对评价文本分句进行标记归集,建立分词词典

情感词词典

程度词词典

否定词词典;基于人工标记或者专家打分建立各情感词权值字典和程度词权值字典;
S5、
依次检索评价信息文本分句,确定情感词所处位置

情感符号以及其情感值,确定否定词和程度词位置;在情感词前查找程度词,找到后停止搜索,将对应情感词的情感值乘以程度词权值;在情感词前超找否定词,确定否定词的数量,若否定词的数量为奇数,则将对应情感值的情感值转为其相反数;若否定词的数量为偶数,则不处理;确定所有评价信息文本分句的情感值,建立情感词典;
S6、
建立评价信息深度学习输出模型,所述评价信息深度学习输出模型至少包括以下几部分:
6a)
利用
XLNet
模型建立评价信息语言预测层,并以
XLNet
网络为向量化表达工具,将有效数据库...

【专利技术属性】
技术研发人员:罗峰
申请(专利权)人:武汉伟峰智居科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1