一种冷链食品短文本情报主题挖掘系统及方法技术方案

技术编号:37763693 阅读:15 留言:0更新日期:2023-06-06 13:21
本发明专利技术涉及文本挖掘技术领域,公开了一种冷链食品短文本情报主题挖掘系统,包括多知识背景向量构建模块、多知识背景下的相似度度量模块以及相似词增强的吉布斯采样模块,还公开了一种冷链食品短文本情报主题挖掘方法:包括以下步骤:S1、定义符号;S2、多知识背景向量构建S3、相似度度量;S4、吉布斯采样。本发明专利技术通过多知识背景向量构建模块将预先训练好的词向量和实体向量融合形成单词的多知识背景向量;通过相似度度量模块计算两个单词的多知识背景向量之间夹角的余弦距离,以确定单词与单词之间的相似性;通过吉布斯采样模块将具有相似知识背景的单词尽可能分配到同一主题下,从而显著提升了短文本情报主题挖掘能力。显著提升了短文本情报主题挖掘能力。显著提升了短文本情报主题挖掘能力。

【技术实现步骤摘要】
一种冷链食品短文本情报主题挖掘系统及方法


[0001]本专利技术涉及文本挖掘
,具体是一种冷链食品短文本情报主题挖掘系统及方法。

技术介绍

[0002]通过搜集和研判冷链食品海量情报信息,在大量文本信息中及时发现正在发生的热点主题,对于识别进口冷链食品风险具有重要意义。而网络舆情作为重要的情报信息集散地,舆情信息内容简短等特性增加了信息理解和监控的难度,因此从舆情短文本信息中自动分析并挖掘出隐含的语义模式,将显著提升对冷链食品情报信息挖掘的能力,增强对冷链食品网络信息的传播过程中情报识别与监控;因此,针对冷链食品段文本信息的主题挖掘有着十分重要的意义。
[0003]在文本挖掘领域,主题挖掘技术旨在从大量文本数据中无监督地挖掘出语料中隐含的语义模式;传统主题挖掘常常基于词袋假设,其仅仅根据文档内的词与词的共现关系进行主题建模;社交媒体和新闻报道等文本信息具有文本长度短,信息量大,传播速度快的特点,但是短文本文档内的词与词的共现关系减弱,导致文本主题发现能力降低的痛点。当情报通过短文本传播时,由于短文本中词共现信息的缺乏与不足,传统主题模型所抽主题质量不高的现象表现得尤为明显。如果在主题挖掘过程中利用公开的外部语义知识,能解决主题抽取质量不高的问题。
[0004]随着深度神经网络的快速发展,出现了许多新兴的表示学习技术;采用表示学习的方法提升了短文本主题挖掘能力;这类方法主要有融合广义波利亚球罐与词嵌入的短文本主题挖掘算法(GPU

DMM)、融合知识图谱嵌入的主题挖掘算法(KGE

LDA)、基于知识图谱的主题挖掘算法(TMKGE)以及加入潜在特征词表示改进的主题挖掘算法(LF

DMM)等。其中融合广义波利亚球罐与词嵌入的短文本主题挖掘算法(GPU

DMM)为这类方法的主要代表,该模型采用了基于广义波利亚球罐(Generalized Polya Urn,GPU)机制的采样策略,并将词嵌入中存储的词法、语法和句法知识融入主题建模的过程,使得模型在求解过程中能够考虑每个主题下词与词之间的语义相关程度,得以将语义相关的词更好地聚集在一个主题中,从而提升主题的抽取质量。但是现有基于外部知识的主题模型在主题建模过程中仅引入单一的外部知识去提升抽取主题的质量;这类方法在主题建模的过程中只从一个视角考虑了在一种外部知识背景下词之间特定的关系,很难从多视角全面综合的角度去考虑词与词之间在不同知识背景下的关系,限制了挖掘出主题的质量,导致挖掘出主题的质量不高。

技术实现思路

[0005]本专利技术的目的在于提供一种冷链食品短文本情报主题挖掘系统及方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种冷链食品短文本情报主题挖掘系统,包括多知识背景向量构建模块、多知识
背景下的相似度度量模块以及相似词增强的吉布斯采样模块,所述多知识背景向量构建模块用于将预先训练好的词向量和实体向量融合形成单词的多知识背景向量;
[0008]所述相似度度量模块用于计算单词的多知识背景向量之间夹角的余弦距离,并利用余弦距离构建提升矩阵;
[0009]所述吉布斯采样模块用于将具有相似知识背景的单词尽可能分配到同一主题下。
[0010]一种冷链食品短文本情报主题挖掘方法,包括以下步骤:
[0011]S1、定义符号:假定语料库中包含N个文档,文档由M个词组成,且被表示为d=w
d,1
,w
d,2
,

,w
d,M
,其中每个单词w
d,m
(m∈{1,2,

,M})为词表中的一项,词表大小为V;通过从语料库中挖掘出来K个隐主题Z
d
的生成式模型生成文档d中每一个词w
d,m
;其实现方法包括以下步骤:首先,根据语料库对应的主题分布Θ采样一个隐主题Z
d
;再根据隐主题Z
d
对应的词分布采样对应的词w
d,m

[0012]S2、多知识背景向量构建:通过多知识背景向量构建模块将预先训练好的词向量和实体向量融合形成单词的多知识背景向量,以存储单词与单词之间在语义背景和基于现实世界知识背景下的关系;
[0013]S3、相似度度量:通过相似度度量模块计算两个单词的多知识背景向量之间夹角的余弦距离,并利用余弦距离构建提升矩阵,以确定单词与单词之间的相似性;
[0014]S4、吉布斯采样:通过吉布斯采样模块将具有相似知识背景的单词尽可能分配到同一主题下,以提升短文本情报主题挖掘能力。
[0015]作为本专利技术进一步的方案:所述多知识背景向量构建模块的具体工作方法包括以下步骤:
[0016]S21、通过知识表达学习模型TransE训练知识图谱中实体的关系特征,并将知识图谱中的实体映射成高维空间向量,得到实体向量;通过知识表达学习模型Word2Vec训练大量的外部语料,得到词向量,其中,词向量保存了单词间的语义关系,实体向量则捕捉到实体之间面向事实的关系;
[0017]S22、将预先训练好的词向量和实体向量融合形成单词的多知识背景向量,通过多知识背景向量存储词与词之间在语义背景和基于现实世界知识背景下的关系。
[0018]作为本专利技术再进一步的方案:所述相似度度量模块的具体工作方法包括以下步骤:
[0019]S31、计算两个单词的多知识背景向量之间的余弦距离,通过余弦距离来度量单词与单词之间的相似性,其中,距离越近则表示单词间相似度越高;
[0020]S32、预先设定一个相似性阈值,比较两个单词之间的余弦距离与相似性阈值的大小,选出知识背景高度相似的单词,并构建提升矩阵,如果两个单词之间的余弦距离大于该阈值,则认为这两个单词的知识背景是高度相似的,如果两个单词之间的余弦距离小于该阈值,则认为这两个单词的知识背景不是高度相似的。
[0021]作为本专利技术再进一步的方案:所述吉布斯采样模块的工作方法包括以下步骤:
[0022]S41、输入冷链食品情报的短文本情报;初始化短文本情报的相关变量;
[0023]S42、采用吉布斯采样的方式对短文本情报中单词进行采样,并基于广义波利亚罐子模型的采样策略,利用相似度度量模块获得的相似词,增强、提升吉布斯采样过程;判断采样是否达到训练迭代次数,如果没有达到,则返回上一级,如果达到,则输出主题

词分布
以及文章

主题分布,从而将具有相似知识背景的单词尽可能分配到同一主题下,提高挖掘出主题的质量。
[0024]作为本专利技术再进一步的方案:所述22步骤中多知识背景向量的定义公式如下:
[0025]s
w
=r
×
v
w
+(1

r)
×
e
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种冷链食品短文本情报主题挖掘系统,包括多知识背景向量构建模块、多知识背景下的相似度度量模块以及相似词增强的吉布斯采样模块,其特征在于,所述多知识背景向量构建模块用于将预先训练好的词向量和实体向量融合形成单词的多知识背景向量;所述相似度度量模块用于计算单词的多知识背景向量之间夹角的余弦距离,并利用余弦距离构建提升矩阵;所述吉布斯采样模块用于将具有相似知识背景的单词尽可能分配到同一主题下。2.一种实现权利要求1所述的冷链食品短文本情报主题挖掘方法,其特征在于,包括以下步骤:S1、定义符号:假定语料库中包含N个文档,文档由M个词组成,且被表示为d=w
d,1
,w
d,2
,

,w
d,M
,其中每个单词w
d,m
(m∈{1,2,

,M})为词表中的一项,词表大小为V;通过从语料库中挖掘出来K个隐主题Z
d
的生成式模型生成文档d中每一个词w
d,m
;其实现方法包括以下步骤:首先,根据语料库对应的主题分布Θ采样一个隐主题Z
d
;再根据隐主题Z
d
对应的词分布采样对应的词w
d,m
;S2、多知识背景向量构建:通过多知识背景向量构建模块将预先训练好的词向量和实体向量融合形成单词的多知识背景向量,以存储单词与单词之间在语义背景和基于现实世界知识背景下的关系;S3、相似度度量:通过相似度度量模块计算两个单词的多知识背景向量之间夹角的余弦距离,并利用余弦距离构建提升矩阵,以确定单词与单词之间的相似性;S4、吉布斯采样:通过吉布斯采样模块将具有相似知识背景的单词尽可能分配到同一主题下,以提升短文本情报主题挖掘能力。3.根据权利要求2所述的一种冷链食品短文本情报主题挖掘方法,所述多知识背景向量构建模块的具体工作方法包括以下步骤:S21、通过知识表达学习模型TransE训练知识图谱中实体的关系特征,并将知识图谱中的实体映射成高维空间向量,得到实体向量;通过知识表达学习模型Word2Vec训练大量的外部语料,得到词向量,其中,词向量保存了单词间的语义关系,实体向量则捕捉到实体之间面向事实的关系;S22、将预先训练好的词向量和实体向量融合形成单词的多知识背景向量,通过多知识背景向量存储词与词之间在语义背景和基于现实世界知识背景下的关系。4.根据权利要求2所述的一种冷链食品短文本情报主题挖掘方法,所述相似度度量模块的具体工作方法包括以下步骤:S31、计算两个单词的多知识背景向量之间的余弦距离,通过余弦距离来度量单词与单词之间的相似性,其中,距离越近则表示单词间相似度越高;S32、预先设定一个相似性阈值,比较两个单词之间的余弦距离与相似性阈值的大小,选出知识背景高度相似的单词,并构建提升矩阵,如果两个单词...

【专利技术属性】
技术研发人员:包先雨蔡伊娜何珏莹李俊杰程烨蒋涛黄智强黄哲学郑文丽程立勋方凯彬
申请(专利权)人:深圳大学深圳前海量子云码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1