【技术实现步骤摘要】
一种新闻特征向量的构建方法及应用
本专利技术属于计算机
,具体涉及一种新闻特征向量的构建方法及应用。
技术介绍
新闻,承载了大量的信息,往往可以引导舆论,影响人的行为以及事件的发展。这一点在股票市场上表现的十分明显,一篇利好的新闻往往可以促使该支股票的价格上扬。然而在信息时代,新闻已然成了一个大体量,高更新频率的大数据;同时,新闻作为文本数据,是非结构化的,不好直接用于种种数学模型。现有技术中,一般利用词袋模型将文本和时间表示成向量。这个方法形成的向量过于稀疏,长度过长,不利于进行后续的计算。也有研究者采用skip-gram词向量模型有效地训练了单词的表征,该方式利用神经网络和词之间的共生关系将单词压缩至一个低纬度的连续向量中。还有一种文本向量的训练方式,该方式通过训练文本向量来预测文本中的单词,其最终目的不是预测,而是得到训练后的文本向量;作者(Le&Mikolov,2014)提出了两个模型,一是考虑了词序,基于连续词袋模型的PV-DBOW模型,二是没有考虑词序,但是结合了skip-gram的 ...
【技术保护点】
1.一种新闻特征向量的构建方法,其特征在于:包括如下步骤,/nS1、获取新闻文本,组成训练集,提取每个新闻文本的标题为新闻节点;/nS2、提取所述新闻节点中的关键词节点,并形成上下文关系网络;/nS3、根据边的权重,采用node2vec图嵌入模型偏差随即游走,依次以每一个新闻节点为起点游走,下一个新闻节点即从与其相连的关键词节点中根据转移概率随机选择,转移概率分布等于该新闻节点的所有边的归一化结果,游走固定长度后形成序列;/nS4、重构新闻节点,区分序列中关键词节点和新闻节点,移除各个序列中的关键词节点,将新闻节点改写成新闻特征的集合,并训练得到的是每个新闻特征的向量,这些 ...
【技术特征摘要】
1.一种新闻特征向量的构建方法,其特征在于:包括如下步骤,
S1、获取新闻文本,组成训练集,提取每个新闻文本的标题为新闻节点;
S2、提取所述新闻节点中的关键词节点,并形成上下文关系网络;
S3、根据边的权重,采用node2vec图嵌入模型偏差随即游走,依次以每一个新闻节点为起点游走,下一个新闻节点即从与其相连的关键词节点中根据转移概率随机选择,转移概率分布等于该新闻节点的所有边的归一化结果,游走固定长度后形成序列;
S4、重构新闻节点,区分序列中关键词节点和新闻节点,移除各个序列中的关键词节点,将新闻节点改写成新闻特征的集合,并训练得到的是每个新闻特征的向量,这些低维度的向量相加即为一个新闻文本的向量;
S5、将新闻特征向量集合及对应的序列保存,得到向量字典。
2.根据权利要求1所述的方法,其特征在于:所述S2中“提取所述新闻节点中的关键词节点,并形成上下文关系网络”具体包括:
S21、利用自然语言处理工具对每个新闻节点根据词性抽取实体和动作,所述实体和动作统称为关键词节点;
S22、利用抽取出的实体和动作连接成新闻数据集:每个新闻节点仅与关键词节点相连,关键词节点相互之间不直接相连,新闻节点相互之间不直接相连;
S23、通过tf-idf测量新闻节点和关键词节点间的边的权重,形成带有权重的新闻数据集网络,即为所述上下文关系网络。
3.根据权利要求2所述的方法,其特征在于:所述tf-idf的定义为:
其中ni,j表示在第j个文本中第i个单词的个数,∑knk,j则表示在第j个本文中单词的总个数,两者相除即为词频(tf),|D|是文本...
【专利技术属性】
技术研发人员:宗璐,马晔,苏炯龙,
申请(专利权)人:西交利物浦大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。