【技术实现步骤摘要】
一种基于深度学习的用户主题向量化表示方法和系统
本专利技术涉及一种用户主题向量化的表示技术,具体涉及基于深度学习的用户主题向量化表示方法和系统。
技术介绍
随着数据传播方式的多样化及高效化,金融相关舆情的产生及快速传播,对于金融产品的行情走势已经起到了不可忽视的影响。金融舆情数据主要分为:金融类新闻舆情,及金融类论坛、博客舆情。其中,由于金融市场的专业特性,大多数个人投资者更倾向于,在论坛及博客中听取专业投资者(意见领袖)的建议。这些专业投资者(意见领袖),在论坛或微博中往往以大V(VIP)的形象示人,但其真实身份及动机往往都不为人知。虽然论坛及微博都会对用户的基础信息进行收集,但该类静态信息的可靠性往往无法验证。因此,通过分析大V过往发布的舆情信息,以及发布内容的主题信息,能够较为客观的获取用户的语义信息,从而对分析用户行为起到积极的作用。目前市场缺少能够实现上述效果的解决方案。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于解决上述问题,提出了一种基于深度学习的用户主题向量化表示方法和系统,能通过用户发表的文本内容,表征出用户的发文习惯及发文主题的特征,并最终合并表示为特定长度的向量。而获得的用户主题向量可以依据特定业务需求应用 ...
【技术保护点】
1.一种基于深度学习的用户主题向量化表示方法,其特征在于,方法包括:/n步骤1:采集信息源的原始数据;/n步骤2:对采集到的原始数据进行包括分词在内的预处理,然后进行步骤3至步骤4、以及步骤5至步骤7的并列处理;/n步骤3:将分词后的数据文本按用户分组;/n步骤4:通过Skip-Gram算法计算用户特征向量;/n步骤5:使用文本聚类算法将文本主题进行分类;/n步骤6:将分词后的数据文本按照主题类型进行分组;/n步骤7:通过Skip-Gram算法计算主题特征向量;/n步骤8:基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。/n
【技术特征摘要】
1.一种基于深度学习的用户主题向量化表示方法,其特征在于,方法包括:
步骤1:采集信息源的原始数据;
步骤2:对采集到的原始数据进行包括分词在内的预处理,然后进行步骤3至步骤4、以及步骤5至步骤7的并列处理;
步骤3:将分词后的数据文本按用户分组;
步骤4:通过Skip-Gram算法计算用户特征向量;
步骤5:使用文本聚类算法将文本主题进行分类;
步骤6:将分词后的数据文本按照主题类型进行分组;
步骤7:通过Skip-Gram算法计算主题特征向量;
步骤8:基于计算出的用户特征向量和主题特征向量以及所选择的加权系数,生成用户主题特征向量。
2.根据权利要求1所述基于深度学习的用户主题向量化表示方法,其特征在于,步骤2中的预处理操作包括:首先将采集后的原始数据进行筛选,去除对分析来说无意义的数据;再将筛选后的原始数据进行基于分词词典的分词处理,其中分词处理不改变原文的语序;在分词完成后,将分词处理后的数据及其对应的用户信息存储为单个文件;
其中,分词处理后的词,如果没有在分词词典中出现,则会被记入分词词典中,分词词典的大小可以按需设定。
3.根据权利要求1所述的基于深度学习的用户主题向量化表示方法,其特征在于,步骤4中的用户特征向量的计算包括以下的迭代过程:
第一步:将数据文本正文的分词结果按照顺序输入到Skip-Gram算法中,其中每次迭代输入一个词,该词记为wi;
第二步:同时将上次迭代得到的用户特征向量uj,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成用户特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,uj)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的用户特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,uj)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,uj)概率模型,再更新对应的用户特征向量uj的值;
重复上述第一步至第四步的多次迭代过程,直到用户特征向量uj的值趋近稳定不变或文本训练完毕停止。
4.根据权利要求1所述的基于深度学习的用户主题向量化表示方法,其特征在于,步骤7的主题特征向量的计算包括以下的迭代过程:
第一步:将当前主题下的所有数据文本按照顺序输入到Skip-Gram算法中,其中每次输入一个词,该词记为wi;
第二步:同时将上次迭代得到的主题特征向量tk,输入到Skip-Gram算法中,其中迭代过程中的首次处理则随机生成主题特征向量;
第三步:Skip-Gram算法通过p(wi+1,wi-1|wi,tk)概率模型,计算离当前词wi相邻的至少两个词的概率,并在分词词典中选择概率最高的词作为输出,其中相邻词选择越多则学习到的主题特征向量中包含的语义关系也越多;
第四步:将通过p(wi+1,wi-1|wi,tk)概率模型计算获得的词,与真实的相邻词做差值得到损失项,将损失项通过反向传播算法传递给p(wi+1,wi-1|wi,tk)概率模型,再更新对应的主题特征向量tk的值;
重复上述第一步至第四步的多次迭代过程,直到主题特征向量tk的值趋近稳定不变或文本训练完毕停止。
5.根据权利要求1所述的基于深度学习的用户主题向量化表示方法,其特征在于,步骤8的用户主题特征向量的生成包括:
将步骤4获得的用户特征向量与步骤7获得的主题特征向量按照以下公式进行合并,最终获得用户主题特征向量,公式如下:
UTj=β*Uj+(1-β)*tk
其中,β为可变权重,取值最小为0,最大为1,用于分配用户特征向量和主题特征向量的比重;UTj为用户主题特征向量。
6.一种基于深度学习的用户主题向量化...
【专利技术属性】
技术研发人员:王晨宇,苗仲辰,林越峰,高剑,
申请(专利权)人:上海金融期货信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。