【技术实现步骤摘要】
一种冷链食品短文本情报主题挖掘系统及方法
[0001]本专利技术涉及文本挖掘
,具体是一种冷链食品短文本情报主题挖掘系统及方法。
技术介绍
[0002]通过搜集和研判冷链食品海量情报信息,在大量文本信息中及时发现正在发生的热点主题,对于识别进口冷链食品风险具有重要意义。而网络舆情作为重要的情报信息集散地,舆情信息内容简短等特性增加了信息理解和监控的难度,因此从舆情短文本信息中自动分析并挖掘出隐含的语义模式,将显著提升对冷链食品情报信息挖掘的能力,增强对冷链食品网络信息的传播过程中情报识别与监控;因此,针对冷链食品段文本信息的主题挖掘有着十分重要的意义。
[0003]在文本挖掘领域,主题挖掘技术旨在从大量文本数据中无监督地挖掘出语料中隐含的语义模式;传统主题挖掘常常基于词袋假设,其仅仅根据文档内的词与词的共现关系进行主题建模;社交媒体和新闻报道等文本信息具有文本长度短,信息量大,传播速度快的特点,但是短文本文档内的词与词的共现关系减弱,导致文本主题发现能力降低的痛点。当情报通过短文本传播时,由于短文本中词共现信息的缺乏与不足,传统主题模型所抽主题质量不高的现象表现得尤为明显。如果在主题挖掘过程中利用公开的外部语义知识,能解决主题抽取质量不高的问题。
[0004]随着深度神经网络的快速发展,出现了许多新兴的表示学习技术;采用表示学习的方法提升了短文本主题挖掘能力;这类方法主要有融合广义波利亚球罐与词嵌入的短文本主题挖掘算法(GPU
‑
DMM)、融合知识图谱嵌入的主题挖掘算法(KGE ...
【技术保护点】
【技术特征摘要】
1.一种冷链食品短文本情报主题挖掘系统,包括多知识背景向量构建模块、多知识背景下的相似度度量模块以及相似词增强的吉布斯采样模块,其特征在于,所述多知识背景向量构建模块用于将预先训练好的词向量和实体向量融合形成单词的多知识背景向量;所述相似度度量模块用于计算单词的多知识背景向量之间夹角的余弦距离,并利用余弦距离构建提升矩阵;所述吉布斯采样模块用于将具有相似知识背景的单词尽可能分配到同一主题下。2.一种实现权利要求1所述的冷链食品短文本情报主题挖掘方法,其特征在于,包括以下步骤:S1、定义符号:假定语料库中包含N个文档,文档由M个词组成,且被表示为d=w
d,1
,w
d,2
,
…
,w
d,M
,其中每个单词w
d,m
(m∈{1,2,
…
,M})为词表中的一项,词表大小为V;通过从语料库中挖掘出来K个隐主题Z
d
的生成式模型生成文档d中每一个词w
d,m
;其实现方法包括以下步骤:首先,根据语料库对应的主题分布Θ采样一个隐主题Z
d
;再根据隐主题Z
d
对应的词分布采样对应的词w
d,m
;S2、多知识背景向量构建:通过多知识背景向量构建模块将预先训练好的词向量和实体向量融合形成单词的多知识背景向量,以存储单词与单词之间在语义背景和基于现实世界知识背景下的关系;S3、相似度度量:通过相似度度量模块计算两个单词的多知识背景向量之间夹角的余弦距离,并利用余弦距离构建提升矩阵,以确定单词与单词之间的相似性;S4、吉布斯采样:通过吉布斯采样模块将具有相似知识背景的单词尽可能分配到同一主题下,以提升短文本情报主题挖掘能力。3.根据权利要求2所述的一种冷链食品短文本情报主题挖掘方法,所述多知识背景向量构建模块的具体工作方法包括以下步骤:S21、通过知识表达学习模型TransE训练知识图谱中实体的关系特征,并将知识图谱中的实体映射成高维空间向量,得到实体向量;通过知识表达学习模型Word2Vec训练大量的外部语料,得到词向量,其中,词向量保存了单词间的语义关系,实体向量则捕捉到实体之间面向事实的关系;S22、将预先训练好的词向量和实体向量融合形成单词的多知识背景向量,通过多知识背景向量存储词与词之间在语义背景和基于现实世界知识背景下的关系。4.根据权利要求2所述的一种冷链食品短文本情报主题挖掘方法,所述相似度度量模块的具体工作方法包括以下步骤:S31、计算两个单词的多知识背景向量之间的余弦距离,通过余弦距离来度量单词与单词之间的相似性,其中,距离越近则表示单词间相似度越高;S32、预先设定一个相似性阈值,比较两个单词之间的余弦距离与相似性阈值的大小,选出知识背景高度相似的单词,并构建提升矩阵,如果两个单词...
【专利技术属性】
技术研发人员:包先雨,蔡伊娜,何珏莹,李俊杰,程烨,蒋涛,黄智强,黄哲学,郑文丽,程立勋,方凯彬,
申请(专利权)人:深圳大学深圳前海量子云码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。