向量获取方法、装置、电子设备以及计算机可读存储介质制造方法及图纸

技术编号:24498732 阅读:90 留言:0更新日期:2020-06-13 04:07
本申请提供了一种向量获取方法、装置、电子设备以及计算机可读存储介质,该方法包括:获取初始向量,初始向量包括初始主语向量、初始宾语向量和初始关系向量,初始主语向量的数目与初始宾语向量的数目之间的差值大于预设数目阈值,其中,初始主语向量存储于弹性分布式数据集RDD,初始宾语向量、初始关系向量是通过Spark架构的广播变量获取的;根据初始数据,对初始向量进行训练,得到目标特征训练向量,初始数据包括多个主谓宾SPO三元组,目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。通过广播变量获取初始宾语向量和初始关系向量,避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况。

Vector acquisition method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
向量获取方法、装置、电子设备以及计算机可读存储介质
本申请涉及计算机
,具体而言,涉及一种向量获取方法、装置、电子设备以及计算机可读存储介质。
技术介绍
随着大数据技术的不断发展,用户可以根据获取的大量数据对主语实体、宾语实体和SPO(Subject-Predicate-Object,主语-谓语-宾语)三元组进行提取分析,从而确定各个主语实体和各个宾语实体之间的关系。相关技术中,可以通过TransE(基于翻译模型的关系学习算法)技术,将大量的主语实体、宾语实体以及主语实体和宾语实体之间的关系输入预先设置的数据模型,通过数据模型对主语实体、宾语实体以及主语实体和宾语实体之间的关系进行分析训练,得到主语向量、宾语向量和关系向量。但是,若主语实体的数量远大于宾语实体的数量,会造成数据量不均衡,导致报错中断的情况,无法训练得到主语向量、宾语向量和关系向量。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种向量获取方法、装置、电子设备及计算机可读存储介质,能够通过从RDD获取初始向量中的初始主语向量,并通过Spark架构的广播变量获取初始向量中的初始宾语向量和初始关系向量,并根据包括多个SPO三元组的初始数据,对初始向量进行训练,得到目标特征训练向量,避免了由于主语实体的数目和宾语实体的数目不均衡无法训练向量的情况,提高了训练包括特征主语向量、特征宾语向量和特征关系向量的目标特征训练向量的灵活性。第一方面,本申请实施例提供了一种向量获取方法,应用于斯帕克Spark架构中的计算节点,所述Spark架构包括:服务器、管理节点、工作节点和所述计算节点,所述管理节点分别与所述服务器和所述工作节点连接,所述工作节点包括至少一个计算节点;所述方法包括:获取初始向量,所述初始向量包括初始主语向量、初始宾语向量和初始关系向量,所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值,其中,所述初始主语向量存储于RDD(ResilientDistributedDatasets,弹性分布式数据集),所述初始宾语向量、所述初始关系向量是通过所述Spark架构的广播变量获取的;根据初始数据,对所述初始向量进行训练,得到目标特征训练向量,所述初始数据包括多个SPO三元组,所述目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。可选的,所述根据初始数据,对所述初始向量进行训练,包括:根据所述初始数据,对所述初始向量进行训练,得到第一训练向量;若所述第一训练向量的损失函数值不小于所述预设函数阈值,根据所述初始数据对所述第一训练向量进行训练,得到第二训练向量,直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。可选的,所述根据初始数据,对所述初始向量进行训练,包括:根据SPO三元组正样本,生成SPO三元组负样本;根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练。可选的,所述根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练之前,还包括:通过RDD外连接的方式,对所述SPO三元组负样本中的非法负样本进行过滤,得到合法负样本;所述根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练,包括:根据所述SPO三元组正样本和所述合法负样本,对所述初始向量进行训练。可选的,所述根据初始数据,对所述初始向量进行训练,包括:对所述第一训练向量进行归一化,得到归一化第一训练向量;根据所述初始数据对所述归一化第一训练向量进行训练。可选的,在所述根据初始数据,对所述初始向量进行训练之后,还包括:将所述目标特征训练向量包括的主语实体名、宾语实体名和关系名的数据类型,由整型转换为字符串型,得到转换后的目标特征训练向量。可选的,所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式,所述特征宾语向量和所述特征关系向量的格式类型为文本格式。第二方面,本申请实施例提供了一种应用于Spark架构中的计算节点,所述Spark架构包括:服务器、管理节点、工作节点和所述计算节点,所述管理节点分别与所述服务器和所述工作节点连接,所述工作节点包括至少一个计算节点;所述装置包括:获取模块,用于获取初始向量,所述初始向量包括初始主语向量、初始宾语向量和初始关系向量,所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值,其中,所述初始主语向量存储于RDD,所述初始宾语向量、所述初始关系向量是通过所述Spark架构的广播变量获取的;训练模块,用于根据初始数据,对所述初始向量进行训练,得到目标特征训练向量,所述初始数据包括多个SPO三元组,所述目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。可选的,所述训练模块,具体用于根据所述初始数据,对所述初始向量进行训练,得到第一训练向量;若所述第一训练向量的损失函数值不小于所述预设函数阈值,根据所述初始数据对所述第一训练向量进行训练,得到第二训练向量,直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。可选的,所述训练模块,具体用于根据SPO三元组正样本,生成SPO三元组负样本;根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练。可选的,还包括:过滤模块,用于通过RDD外连接的方式,对所述SPO三元组负样本中的非法负样本进行过滤,得到合法负样本;所述训练模块,还具体用于根据所述SPO三元组正样本和所述合法负样本,对所述初始向量进行训练。可选的,所述训练模块,还具体用于对所述第一训练向量进行归一化,得到归一化第一训练向量;根据所述初始数据对所述归一化第一训练向量进行训练。可选的,还包括:转换模块,用于将所述目标特征训练向量包括的主语实体名、宾语实体名和关系名的数据类型,由整型转换为字符串型,得到转换后的目标特征训练向量。可选的,所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式,所述特征宾语向量和所述特征关系向量的格式类型为文本格式。第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如第一方面中任一所述的向量获取方法的步骤。第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面中任一所述的向量获取方法的步骤。本申请实施例通过从RDD获取初始向量中的初始主语向量,并通过Spark架构的广播变量获取初始向量中的初始宾语向量和初始关系向量,并根据包括多个SPO三元组的初始数据,对初始向量进行训练,得到目标特征训练向量,避免了本文档来自技高网...

【技术保护点】
1.一种向量获取方法,其特征在于,应用于斯帕克Spark架构中的计算节点,所述Spark架构包括:服务器、管理节点、工作节点和所述计算节点,所述管理节点分别与所述服务器和所述工作节点连接,所述工作节点包括至少一个计算节点;所述方法包括:/n获取初始向量,所述初始向量包括初始主语向量、初始宾语向量和初始关系向量,所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值,其中,所述初始主语向量存储于弹性分布式数据集RDD,所述初始宾语向量、所述初始关系向量是通过所述Spark架构的广播变量获取的;/n根据初始数据,对所述初始向量进行训练,得到目标特征训练向量,所述初始数据包括多个主谓宾SPO三元组,所述目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。/n

【技术特征摘要】
1.一种向量获取方法,其特征在于,应用于斯帕克Spark架构中的计算节点,所述Spark架构包括:服务器、管理节点、工作节点和所述计算节点,所述管理节点分别与所述服务器和所述工作节点连接,所述工作节点包括至少一个计算节点;所述方法包括:
获取初始向量,所述初始向量包括初始主语向量、初始宾语向量和初始关系向量,所述初始主语向量的数目与所述初始宾语向量的数目之间的差值大于预设数目阈值,其中,所述初始主语向量存储于弹性分布式数据集RDD,所述初始宾语向量、所述初始关系向量是通过所述Spark架构的广播变量获取的;
根据初始数据,对所述初始向量进行训练,得到目标特征训练向量,所述初始数据包括多个主谓宾SPO三元组,所述目标特征训练向量包括:特征主语向量、特征宾语向量和特征关系向量。


2.根据权利要求1所述的方法,其特征在于,所述根据初始数据,对所述初始向量进行训练,包括:
根据所述初始数据,对所述初始向量进行训练,得到第一训练向量;
若所述第一训练向量的损失函数值不小于所述预设函数阈值,根据所述初始数据对所述第一训练向量进行训练,得到第二训练向量,直至训练得到的目标特征训练向量的损失函数值小于所述预设函数阈值。


3.根据权利要求1所述的方法,其特征在于,所述根据初始数据,对所述初始向量进行训练,包括:
根据SPO三元组正样本,生成SPO三元组负样本;
根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练。


4.根据权利要求3所述的方法,其特征在于,所述根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练之前,还包括:
通过RDD外连接的方式,对所述SPO三元组负样本中的非法负样本进行过滤,得到合法负样本;
所述根据所述SPO三元组正样本和所述SPO三元组负样本,对所述初始向量进行训练,包括:
根据所述SPO三元组正样本和所述合法负样本,对所述初始向量进行训练。


5.根据权利要求2所述的方法,其特征在于,所述根据初始数据,对所述初始向量进行训练,包括:
对所述第一训练向量进行归一化,得到归一化第一训练向量;
根据所述初始数据对所述归一化第一训练向量进行训练。


6.根据权利要求1至5任一所述的方法,其特征在于,在所述根据初始数据,对所述初始向量进行训练之后,还包括:
将所述目标特征训练向量包括的主语实体名、宾语实体名和关系名的数据类型,由整型转换为字符串型,得到转换后的目标特征训练向量。


7.根据权利要求1至5任一所述的方法,其特征在于,所述特征主语向量的格式类型为面向分析型业务的列式存储Parquet格式,所述特征宾语向量和所述特征关系向量的格式类型为文本格式。


8.一种向量获取装置,其特征在于,应用于斯帕克Spark架构中的计算节点,所述Spark架构包括...

【专利技术属性】
技术研发人员:林宇澄杨晓庆
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1