一种数据处理方法、装置以及计算机可读存储介质制造方法及图纸

技术编号:26504987 阅读:24 留言:0更新日期:2020-11-27 15:32
本申请公开了一种数据处理方法、装置以及计算机可读存储介质,该方法包括:获取包括图节点的隐式文本图;隐式文本图中的图节点包括已有文档对应的文档节点和已有文档包含的文档单词对应的单词节点;在隐式文本图中,获取目标文档包含的文档单词对应的单词节点,作为目标文档对应的目标邻居节点;从隐式文本图中获取目标邻居节点对应的文档单词的单词特征向量,根据隐式文本图,生成目标文档与目标邻居节点对应的文档单词之间的目标关联特征信息;将目标文档的文档特征向量、单词特征向量、以及目标关联特征信息,输入向量生成模型;在向量生成模型中,生成目标文档的文档检索向量。采用本申请,可提高所获取到的目标文档的文档检索向量的准确性。

【技术实现步骤摘要】
一种数据处理方法、装置以及计算机可读存储介质
本申请涉及数据处理的
,尤其涉及一种数据处理方法、装置以及计算机可读存储介质。
技术介绍
在很多客户端场景中,经常会遇到检索与某个文档相似的其他文档的场景。例如,可以将用户在客户端录入的问题作为一个文档,客户端可以检索与该问题对应的回答,检索到的该问题的回答即为与该问题相似的文档。现有技术中,通常是通过神经网络模型分别提取每个文档(可以包括问题对应的文档以及回答对应的文档)的文档特征,以生成每个文档分别对应的文档向量,进而即可根据不同文档的文档向量之间的向量距离,来判断不同文档之间是否相似。由此可见,现有技术中,每个文档的文档向量仅是通过文档自身的文档特征所生成的,因此每个文档的文档向量所包含的文档特征较为单一,从而导致所生成的每个文档的文档向量并不准确,进而导致在根据每个文档的文档向量来判断每个文档之间是否相似时,其判断结果也不准确。
技术实现思路
本申请提供了一种数据处理方法、装置以及计算机可读存储介质,可提高所生成的目标文档的文档检索向量的准确本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取包括图节点的隐式文本图;所述隐式文本图中的图节点包括已有文档对应的文档节点、以及所述已有文档包含的文档单词对应的单词节点;/n在所述隐式文本图中,获取目标文档包含的文档单词对应的单词节点,作为所述目标文档对应的目标邻居节点;/n从所述隐式文本图中获取所述目标邻居节点对应的文档单词的单词特征向量,根据所述隐式文本图,生成所述目标文档与所述目标邻居节点对应的文档单词之间的目标关联特征信息;/n将所述目标文档的文档特征向量、所述单词特征向量、以及所述目标关联特征信息,输入向量生成模型;所述向量生成模型,是通过所述隐式文本图中单词节点之间的连接关系、以及...

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取包括图节点的隐式文本图;所述隐式文本图中的图节点包括已有文档对应的文档节点、以及所述已有文档包含的文档单词对应的单词节点;
在所述隐式文本图中,获取目标文档包含的文档单词对应的单词节点,作为所述目标文档对应的目标邻居节点;
从所述隐式文本图中获取所述目标邻居节点对应的文档单词的单词特征向量,根据所述隐式文本图,生成所述目标文档与所述目标邻居节点对应的文档单词之间的目标关联特征信息;
将所述目标文档的文档特征向量、所述单词特征向量、以及所述目标关联特征信息,输入向量生成模型;所述向量生成模型,是通过所述隐式文本图中单词节点之间的连接关系、以及所述文档节点与单词节点之间的连接关系训练得到;所述隐式文本图中具有连接关系的图节点之间互为邻居节点;所述隐式文本图中互为邻居节点的图节点之间具备对应的关联特征信息;
在所述向量生成模型中,生成所述目标文档的文档检索向量;所述目标文档的文档检索向量用于检索与所述目标文档相似的文档。


2.根据权利要求1所述的方法,其特征在于,所述在所述隐式文本图中,获取目标文档包含的文档单词对应的单词节点,作为所述目标文档对应的目标邻居节点,包括:
对所述目标文档进行文档分词,得到所述目标文档包含的文档单词;
将所述隐式文本图中,与所述目标文档包含的文档单词相同的文档单词所对应的单词节点,确定为所述目标文档对应的所述目标邻居节点。


3.根据权利要求1所述的方法,其特征在于,所述已有文档的文档数量为至少两个;所述根据所述隐式文本图,生成所述目标文档与所述目标邻居节点对应的文档单词之间的目标关联特征信息,包括:
获取所述目标邻居节点对应的文档单词在所述目标文档中的出现次数,获取所述隐式文本图的至少两个已有文档中,目标已有文档的文档数量:所述目标已有文档为包含所述目标邻居节点对应的文档单词的已有文档;
根据所述出现次数和所述文档数量,确定所述目标文档与所述目标邻居节点对应的文档单词之间的词频参数;
将所述词频参数,确定为所述目标文档与所述目标邻居节点对应的文档单词之间的目标关联特征信息。


4.根据权利要求1所述的方法,其特征在于,所述目标文档的文档检索向量中包括至少两个元素位置分别对应的元素值;所述方法还包括:
获取所述已有文档的文档检索向量和所述已有文档包含的文档单词的文档检索向量;
将所述已有文档的文档检索向量和所述已有文档包含的文档单词的文档检索向量,均确定为参考检索向量;所述参考检索向量中包括所述至少两个元素位置分别对应的元素值;
根据所述参考检索向量中每个元素位置分别对应的元素值,确定所述每个元素位置分别对应的中位数;
根据所述每个元素位置分别对应的中位数、以及所述目标文档的文档检索向量,生成所述目标文档的文档哈希码;所述目标文档的文档哈希码用于检索与所述目标文档相似的文档;所述目标文档的文档哈希码的维度低于所述目标文档的文档检索向量的维度。


5.根据权利要求4所述的方法,其特征在于,所述根据所述每个元素位置分别对应的中位数、以及所述目标文档的文档检索向量,生成所述目标文档的文档哈希码,包括:
将所述目标文档的文档检索向量中所述每个元素位置分别对应的元素值中,大于所对应的中位数的元素值,标记为第一码值;
将所述目标文档的文档检索向量中所述每个元素位置分别对应的元素值中,小于或等于所对应的中位数的元素值,标记为第二码值;
根据所述每个元素位置分别对应的第一码值或第二码值,生成所述目标文档的文档哈希码。


6.根据权利要求5所述的方法,其特征在于,所述目标文档为文档检索客户端获取到的询问文本信息;所述方法还包括:
获取所述已有文档的文档哈希码;
获取目标文档的文档哈希码和已有文档的文档哈希码之间的汉明距离;所述汉明距离表征所述目标文档与所述已有文档之间的文档相似度;
当所述汉明距离小于或等于汉明距离阈值时,将所述已有文档确定为所述目标文档的相似文档;
将所述相似文档发送至所述文档检索客户端,以使所述文档检索客户端在客户端页面中,对所述询问文本信息和所述相似文档进行关联输出。


7.根据权利要求1所述的方法,其特征在于,所述在所述向量生成模型中,生成所述目标文档对应的文档检索向量,包括:
根据所述目标文档的文档特征向量、所述单词特征向量和所述目标关联特征信息,在所述向量生成模型中,生成所述目标邻居节点对应的文档单词针对所述目标文档的节点影响权重;所述节点影响权重表征所述目标邻居节点对应的文档单词在所述目标文档中的重要程度;
根据所述节点影响权重,对所述单词特征向量进行加权求和,得到参考总向量;
构建所述参考总向量所属的高斯分布;
将所述高斯分布的均值向量,确定为所述目标文档对应的文档检索向量。


8.一种数据处理方法,其特征在于,包括:
获取包括图节点的的隐式文本图;所述隐式文本图中的图节点,包括至少两个已有文档对应的文档节点、以及所述至少两个已有文档包含的文档单词对应的单词节点;所述隐式文本图中,包括至少两个文档节点与至少两个单词节点之间的连接关系、以及所述至少两个单词节点相互之间的连接关系;具有连接关系的图节点之间具有对应的关联特征信息;
在所述隐式文本图中的文档节点和单词节点中获取样本节点;
将所述隐式文本图中,与所述样本节点具有连接关系的图节点,确定为所述样本节点的邻居样本图节点;
将所述隐式文本图中,所述样本节点对应的样本特征向量、所述邻居样本图节点对应的样本特征向量、以及所述样本节点与所述...

【专利技术属性】
技术研发人员:欧子菁王婧雯赵瑞辉林民龙
申请(专利权)人:腾讯云计算长沙有限责任公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1