基于内容的分布式特征提取方法、装置、设备及介质制造方法及图纸

技术编号:24996110 阅读:37 留言:0更新日期:2020-07-24 17:58
本申请公开了基于内容的分布式特征提取方法、装置、设备及介质。该方法通过获取待处理数据所包含的多个不同维度的内容信息,每个内容信息与一个特征维度相对应;对多个内容信息中的每一个分别进行预处理,得到多个与每个内容信息一一对应的原始特征向量;调用分布式特征提取模型对多个原始特征向量进行特征提取,得到与待处理数据对应的分布式特征,该分布式特征是按照标准特征维度模板定义的多个特征维度对待处理数据进行表征的结果,该标准特征维度模板定义对不同来源、不同类型的待处理数据进行内容抽取的范围。本申请实施例利用分布式特征提取模型将多个内容信息映射到同一个向量空间,以获得精准推荐的效果。

【技术实现步骤摘要】
基于内容的分布式特征提取方法、装置、设备及介质
本申请一般涉及大数据
,尤其涉及基于内容的分布式特征提取方法、装置、设备及介质。
技术介绍
随着电子设备的发展,越来越多的人选择在电子设备上阅读新闻资讯。基于人工智能的个性化新闻推荐系统,通常是通过机器学习算法,特别是神经网络来对新闻内容进行特征提取。例如,基于协同信息的表征提取,或者基于内容信息的表征提取,或者基于前两者的组合方式的表征提取。前者依赖用户的交互信息(例如点击、收藏等),其依赖于用户的交互操作。后者,依赖新闻内容(包括标题、作者、文本、正文等)自身的信息。但是,现在新闻资讯的形式多样化,内容信息非常丰富。利用现有的表征提取方法,不能针对不同来源、不同类型的资讯数据进行统一的特征提取,从而导致推荐系统不能准确地理解不同来源、类型的资讯数据。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种基于内容的分布式特征提取方法、装置、设备及介质,来获取待处理数据所包含的内容信息之间的相关性。一方面,本申请实施例提供了一种基于内容的分布式特征提本文档来自技高网...

【技术保护点】
1.一种基于内容的分布式特征提取方法,其特征在于,该方法包括:/n获取待处理数据所包含的多个不同维度的内容信息,每个所述内容信息与一个特征维度相对应;/n对所述多个内容信息进行预处理得到多个原始特征向量,每个所述原始特征向量与每个所述内容信息是一一对应的;/n调用分布式特征提取模型对所述多个原始特征向量进行特征提取,得到与所述待处理数据对应的分布式特征,所述分布式特征是按照标准特征维度模板定义的多个特征维度对所述待处理数据进行表征的结果,所述标准特征维度模板定义对不同来源、不同类型的待处理数据进行内容抽取的范围。/n

【技术特征摘要】
1.一种基于内容的分布式特征提取方法,其特征在于,该方法包括:
获取待处理数据所包含的多个不同维度的内容信息,每个所述内容信息与一个特征维度相对应;
对所述多个内容信息进行预处理得到多个原始特征向量,每个所述原始特征向量与每个所述内容信息是一一对应的;
调用分布式特征提取模型对所述多个原始特征向量进行特征提取,得到与所述待处理数据对应的分布式特征,所述分布式特征是按照标准特征维度模板定义的多个特征维度对所述待处理数据进行表征的结果,所述标准特征维度模板定义对不同来源、不同类型的待处理数据进行内容抽取的范围。


2.根据权利要求1所述的方法,其特征在于,所述获取待处理数据所包含的多个不同维度的内容信息,包括:
调用所述标准特征维度模板对所述待处理数据进行内容抽取,得到所述待处理数据所包含的多个不同维度的内容信息。


3.根据权利要求1所述的方法,其特征在于,所述对所述多个内容信息进行预处理得到多个原始特征向量,包括:
调用与每个所述内容信息相对应的预处理策略对所述内容信息进行预处理,得到与所述内容信息相对应的原始特征向量。


4.根据权利要求3所述的方法,其特征在于,所述调用与每个所述内容信息相对应的预处理策略对所述内容信息进行预处理,包括:
确定所述内容信息的数据类型;
根据所述数据类型确定与所述数据类型对应的预处理策略;
利用所述预处理策略将所述内容信息转换成与所述内容信息对应的所述原始特征向量。


5.根据权利要求1所述的方法,其特征在于,所述调用分布式特征提取模型对所述多个原始特征向量进行特征提取,包括:
将多个所述原始特征向量进行特征拼接处理和加噪处理;
调用所述分布式特征提取模型对前述拼接处理和加噪处理后的结果进行特征提取,得到与所述待处理数据对应的分布式特征。


6.根据权利要求5所述的方法,其特征在于,所述调用所述分布式特征提取模型对前述拼接处理和加噪处理后的结果进行特征提取,包括:
将前述拼接处理和加噪处理后的结果与权重矩阵相乘,输出线性特征向量;
利用激活函数对所述线性特征向量进行非线性处理,得到所述分布式特征。


7.根据权利要求5所述的方法,其特征在于,在将多个所述原始特征向量进行特征拼接处理和加噪处理之前,所述调用分布式特征提取模型对所述多个原始特征向量进行特征提取还包括:
对所述多个原始特征向量...

【专利技术属性】
技术研发人员:白冰张峻旗林也白琨
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1