一种基于大数据的互联网金融产品评论观点提取方法技术

技术编号:38642511 阅读:19 留言:0更新日期:2023-08-31 18:35
本发明专利技术属于自然语言处理领域,具体涉及一种基于大数据的互联网金融产品评论观点提取方法,包括:获取互联网金融产品评论数据,建立观点提取模型并进行训练,将获取的互联网金融产品评论数据输入训练完成后的观点提取模型进行观点提取。本发明专利技术使用k

【技术实现步骤摘要】
一种基于大数据的互联网金融产品评论观点提取方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于大数据的互联网金融产品评论观点提取方法。

技术介绍

[0002]随着互联网金融行业的不断发展和普及,越来越多的人开始使用互联网金融产品进行投资理财。同时,用户对于互联网金融产品的评论也在与日俱增,在实际应用场景中可以看到消费者会与多个竞对产品进行比较,并在评论中表达出来。这些评论包含了大量有价值的信息,可以用来发现产品自身存在的问题,同时对竞对产品特点的分析也能更大程度上挖掘产品本身的优点。
[0003]评论观点提取既关注语句整体所包含的情感,也关注语句中提到的产品以及对产品的描述,如何准确地找到句子中提到的实体和挖掘出语句中蕴含的情感是互联网金融产品评论观点提取的关键。两个任务缺乏关联,信息无法交互,并且两个任务分开优化,对模型优化也是一个挑战。如何利用丰富的信息,并根据任务特点进行差异化的向量表示是需要考虑的问题。

技术实现思路

[0004]为解决上述技术问题,本专利技术提出一种基于大数据的互联网金融产品评论观点提取方法,包括:
[0005]获取互联网金融产品评论数据,建立观点提取模型并进行训练,将获取的互联网金融产品评论数据输入训练完成后的观点提取模型进行观点提取;
[0006]所述观点提取模型包括:命名实体识别模块、情感分析模块;
[0007]所述观点提取模型的训练过程包括:
[0008]S1:样本数据文本通过BERT词向量模型进行分词并进行词表映射,得到样本词向量表示;
[0009]S2:使用k

means聚类方法对所有词向量进行聚类,得到核心向量,将核心向量进行基于窗口的自适应模糊处理,将处理后的核心向量作为AutoTuning的初始向量,对AutoTuning进行训练,得到句子表征;
[0010]S3:将经过AutoTuning训练得到的句子表征送入命名实体识别模块解码,得到预测实体;
[0011]S4:根据预测实体的类别,保留形容词实体,对名词实体做脱敏处理,得到脱敏后的句子表征;
[0012]S5:将AutoTuning得到的句子表征和脱敏后的句子表征拼接在一起得到emotion_embedding;
[0013]S6:将emotion_embedding送入情感分析模块进行情感预测,通过线性层得到预测情感倾向emotion_label;
[0014]S7:根据命名实体识别模块得到的预测实体得到命名实体识别模块的损失值loss1,根据预测情感倾向emotion_label得到情感分析模块的损失值loss2,将命名实体识别模块的损失值loss1和情感分析模块的损失值loss2进行整合,得到观点提取模型的联合损失函数;
[0015]S8:根据观点提取模型的联合损失函数将损失值梯度回传,完成模型训练。
[0016]本专利技术的有益效果:
[0017]本专利技术使用k

means聚类搜索核心向量,对核心向量进行基于窗口的自适应模糊处理,解决随机初始化向量带来的冷启动问题,并让核心向量更具有普适性;建立多任务联系,根据命名实体识别任务的输出对样本进行关键字脱敏处理,让样本中情感倾向更容易被模型捕获;从多个维度挖掘样本中情感倾向,提高模型的鲁棒性和预测精度。
附图说明
[0018]图1为本专利技术的观点提取模型的训练流程图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]一种基于大数据的互联网金融产品评论观点提取方法,包括:
[0021]获取互联网金融产品评论数据,建立观点提取模型并进行训练,将获取的互联网金融产品评论数据输入训练完成后的观点提取模型进行观点提取;
[0022]所述观点提取模型包括:命名实体识别模块、情感分析模块;
[0023]如图1所示,所述观点提取模型的训练过程包括:
[0024]S1:样本数据文本通过BERT词向量模型进行分词并进行词表映射,得到样本词向量表示;
[0025]S2:使用k

means聚类方法对所有词向量进行聚类,得到核心向量,将核心向量进行基于窗口的自适应模糊处理,将处理后的核心向量作为AutoTuning的初始向量,对AutoTuning进行训练,得到句子表征;
[0026]S3:将经过AutoTuning训练得到的句子表征送入命名实体识别模块解码,得到预测实体;
[0027]S4:根据预测实体的类别,保留形容词实体,对名词实体做脱敏处理,得到脱敏后的句子表征;
[0028]S5:将AutoTuning得到的句子表征和脱敏后的句子表征拼接在一起得到emotion_embedding;
[0029]S6:将emotion_embedding送入情感分析模块进行情感预测,通过线性层得到预测情感倾向emotion_label;
[0030]S7:根据命名实体识别模块得到的预测实体得到命名实体识别模块的损失值loss1,根据预测情感倾向emotion_label得到情感分析模块的损失值loss2,将命名实体识
别模块的损失值loss1和情感分析模块的损失值loss2进行整合,得到观点提取模型的联合损失函数;
[0031]S8:根据观点提取模型的联合损失函数将损失值梯度回传,完成模型训练。将通过BERT词向量模型得到样本词向量表示设为V={v1,v2,

,v
n
},其中v
i
表示第i个词向量,在样本词向量V内选择多个词向量作为样本向量进行k

means聚类,使用欧式距离衡量多维向量间的距离,得到簇类中心c={y1,y2,

,y
m
};将完成聚类后的簇类中心作平均,得到样本核心向量v
core
={e1,e2,

,e
n
}。
[0032]所述欧式距离,包括:
[0033][0034]其中,d(c,v)表示样本向量v到簇类中心c的欧氏距离,x
j
表示样本向量v的第j个样本向量,y
j
表示第j个簇类中心,m表示样本数量。
[0035]将核心向量进行基于窗口的自适应模糊处理,包括:
[0036]e

i
=k
i
(w
i
‑1e
i
‑1+w
i
e
o
+w
i+1
e
i+1
)+b
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的互联网金融产品评论观点提取方法,其特征在于,包括:获取互联网金融产品评论数据,建立观点提取模型并进行训练,将获取的互联网金融产品评论数据输入训练完成后的观点提取模型进行观点提取;所述观点提取模型包括:命名实体识别模块、情感分析模块;所述观点提取模型的训练过程包括:S1:样本数据文本通过BERT词向量模型进行分词并进行词表映射,得到样本词向量表示;S2:使用k

means聚类方法对所有词向量进行聚类,得到核心向量,将核心向量进行基于窗口的自适应模糊处理,将处理后的核心向量作为AutoTuning的初始向量,对AutoTuning进行训练,得到句子表征;S3:将经过AutoTuning训练得到的句子表征送入命名实体识别模块解码,得到预测实体;S4:根据预测实体的类别,保留形容词实体,对名词实体做脱敏处理,得到脱敏后的句子表征;S5:将AutoTuning得到的句子表征和脱敏后的句子表征拼接在一起得到emotion_embedding;S6:将emotion_embedding送入情感分析模块进行情感预测,通过线性层得到预测情感倾向emotion_label;S7:根据命名实体识别模块得到的预测实体得到命名实体识别模块的损失值loss1,根据预测情感倾向emotion_label得到情感分析模块的损失值loss2,将命名实体识别模块的损失值loss1和情感分析模块的损失值loss2进行整合,得到观点提取模型的联合损失函数;S8:根据观点提取模型的联合损失函数将损失值梯度回传,完成模型训练。2.根据权利要求1所述的一种基于大数据的互联网金融产品评论观点提取方法,其特征在于,使用k

means聚类方法对所有词向量进行聚类,得到核心向量,包括:将通过BERT词向量模型得到样本词向量表示设为V={v1,v2,...,v
n
},其中v
j
表示第i个词向量,在样本词向量V内选择多个词向量作为样本向量进行k

means聚类,使用欧式距离衡量多维向量间的距离,得到簇类中心c={y1,y2,...,y
m
};将完成聚类后的簇类中心作平均,得到样本核心向量v
core
={e1,e2,...,e
n
}。3.根据权利要求2所述的一种基于大数据的互联网金融产品评论观点提取方法,其特征在于,所述欧式距离,包括:其中,d(c,v)表示样本向量v到簇类中心c的欧氏距离,x
j
表示样本向量v的第j个样本向量,y
j
表示第j个簇类中心,m表示样本数量。4.根据权利要求1所述的一种基于大数据的互联网金融产品评论观点提取方法,其特征在于,将核心向量进行基于窗口的自适应模糊处理,包括:
e

i
=k
i
(w
i
‑1e
i
‑1+w
i
e
i
+w
i+1
e
i+1
)+b
i
,i∈[1,n]v

core
={e
′1,e
′2,...,e

n
}其中,v

core
表示模糊处理后的核心向量,e

i
表示模糊处理后的核心向量v

core
中第i个数值,k
i
表示权重,w
i
表示第i个可学习权重,e
i
表示核心...

【专利技术属性】
技术研发人员:王进蒋诗琪杨添善唐鑫
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1