数据处理方法、装置、计算机设备以及可读存储介质制造方法及图纸

技术编号：22884074 阅读：35 留言：0更新日期：2019-12-21 07:20

本申请实施例公开了一种数据处理方法、装置、计算机设备以及可读存储介质，该方法包括：在文本资源平台中获取文本对象对应的历史发布文本的多个初始字符；根据历史发布文本中每个初始字符分别对应的词频和逆文档频率，确定文本对象对应的文本类型标签；获取基于音视频资源平台的分类模型；基于文本类型标签与多个音视频类型标签之间的标签相似度，确定文本类型标签对应的相似音视频类型标签；根据文本对象对应的文本名称、文本类型标签以及相似音视频类型标签生成输入特征；基于分类模型输出的输入特征对应的目标音视频类型标签，确定目标用户对应的音视频推荐对象。采用本申请实施例，可以提高推荐方式的多样性，且提高推荐数据的准确率。

Data processing method, device, computer equipment and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算机设备以及可读存储介质
本申请涉及互联网
，尤其涉及一种数据处理方法、装置、计算机设备以及可读存储介质。
技术介绍
随着数据信息化的发展，数据量增长快速，大数据呈现出多元化、分散化的趋势。在大规模视频数据的环境下，可以通过用户画像确定用户的个人偏好，进而从大量视频数据中选择与用户偏好相匹配的视频数据。然而，对于冷启动用户而言，由于没有产生任何视频观看记录，往往无法确定应该为该冷启动用户推荐什么视频数据。现有技术中，可以根据视频的关注度、传播度以及是否热门等因素为冷启动用户推荐视频数据。由于给冷启动用户推荐的视频数据仅基于视频自身信息进行推荐，推荐方式过于单一，且推荐的视频数据可能与该冷启动用户的兴趣点并不匹配，造成为用户推荐的视频数据准确率过低。
技术实现思路
本申请实施例提供一种数据处理方法、装置、计算机设备以及可读存储介质，可以提高推荐方式的多样性，且提高推荐数据的准确率。本申请实施例一方面提供了一种数据处理方法，包括：在文本资源平台中获取...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：/n在文本资源平台中获取与目标用户相关联的文本对象，获取所述文本对象对应的历史发布文本中的多个初始字符；/n根据所述历史发布文本获取每个初始字符分别对应的词频和逆文档频率，根据所述词频和所述逆文档频率在所述多个初始字符中选择所述文本对象对应的文本类型标签；/n获取基于音视频资源平台的分类模型；所述分类模型是基于所述音视频资源平台中的多个音视频对象对应的音视频标题和音视频类型标签训练得到的；/n获取所述文本类型标签与多个音视频类型标签之间的标签相似度，基于所述标签相似度，从所述多个音视频类型标签中确定所述文本类型标签对应的相似音视频类型标签；/n根据所述文...

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：
在文本资源平台中获取与目标用户相关联的文本对象，获取所述文本对象对应的历史发布文本中的多个初始字符；
根据所述历史发布文本获取每个初始字符分别对应的词频和逆文档频率，根据所述词频和所述逆文档频率在所述多个初始字符中选择所述文本对象对应的文本类型标签；
获取基于音视频资源平台的分类模型；所述分类模型是基于所述音视频资源平台中的多个音视频对象对应的音视频标题和音视频类型标签训练得到的；
获取所述文本类型标签与多个音视频类型标签之间的标签相似度，基于所述标签相似度，从所述多个音视频类型标签中确定所述文本类型标签对应的相似音视频类型标签；
根据所述文本对象对应的文本名称、所述文本类型标签以及所述相似音视频类型标签，生成输入特征；
将所述输入特征输入至所述分类模型，基于所述分类模型输出所述输入特征对应的目标音视频类型标签，根据所述目标音视频类型标签确定所述目标用户对应的音视频推荐对象；所述音视频推荐对象为所述音视频资源平台中的音视频对象。

2.根据权利要求1所述的方法，其特征在于，所述获取所述文本对象对应的历史发布文本中的多个初始字符，包括：
获取目标时间范围内与所述文本对象相关联的历史发布文本；
基于停用词库对所述历史发布文本进行筛选，将筛选后的历史发布文本划分为所述多个初始字符。

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史发布文本获取每个初始字符分别对应的词频和逆文档频率，根据所述词频和所述逆文档频率在所述多个初始字符中选择所述文本对象对应的文本类型标签，包括：
分别统计所述每个初始字符在所述历史发布文本中的单位数量，基于所述单位数量与所述历史发布文本对应的字符总数量，确定所述每个初始字符分别对应的词频；
从语料库中确定所述每个初始字符分别对应的文档数量，基于所述文档数量与所述语料库中的文档总数量，确定所述每个初始字符分别对应的逆文档频率；
根据所述词频与所述逆文档频率，确定所述每个初始字符分别对应的权重值，基于所述权重值从所述多个初始字符中选择所述文本对象对应的文本类型标签。

4.根据权利要求1所述的方法，其特征在于，所述获取所述文本类型标签与多个音视频类型标签之间的标签相似度，基于所述标签相似度，从所述多个音视频类型标签中确定所述文本类型标签对应的相似音视频类型标签，包括：
将所述文本类型标签和所述多个音视频类型标签分别划分为多个单位字符，并将每个单位字符转换为单位字符向量；
基于所述文本类型标签对应的单位字符向量生成第一向量，基于每个音视频类型标签分别对应的单位字符向量，生成所述每个音视频类型标签分别对应的第二向量；
确定所述第一向量与每个第二向量之间的标签相似度，将具有最大标签相似度的第二向量对应的音视频类型标签，确定为所述文本类型标签对应的所述相似音视频类型标签。

5.根据权利要求4所述的方法，其特征在于，所述根据所述文本对象对应的文本名称、所述文本类型标签以及所述相似音视频类型标签，生成输入特征，包括：
获取所述文本对象对应的所述文本名称，根据所述文本名称包含的多个单位字符分别对应的单位字符向量，生成第三向量；
将所述第一向量、所述相似音视频类型标签对应的第二向量以及所述第三向量拼接成所述输入特征。

6.根据权利要求1所述的方法，其特征在于，所述将所述输入特征输入至所述分类模型，基于所述分类模型输出所述输入特征对应的目标音视频类型标签，根据所述目标音视频类型标签确定所述目标用户对应的音视频推荐对象，包括：
将所述输入特征输入至所述分类模型，在所述分类模型中生成所述输入特征对应的属性特征向量；
获取所述属性特征向量与所述分类模型中的多种属性类型标签之间的匹配度，将最大匹配度对应的属性类型标签确定为与所述文本对象相关联的目标音视频类型标签；
根据所述目标音视频类型标签，确定所述目标用户对应...

【专利技术属性】
技术研发人员：余志伟，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人