内容投放系统中的特征词处理方法、装置及存储介质制造方法及图纸

技术编号：21629850 阅读：30 留言：0更新日期：2019-07-17 11:23

本申请公开了一种内容投放系统中的特征词处理方法，包括：获取训练样本数据，所述训练样本数据包括多个样本特征词中各样本特征词的特征数据及属性信息，所述属性信息用以指示对应样本特征词是否为预定属性特征词；根据所述多个样本特征词中各样本特征词的特征数据及属性信息，训练得到概率估计模型；获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；针对任一特征词，将该特征词的特征数据输入所述概率估计模型，获得该特征词作为所述预定属性特征词的概率；及根据各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词。本申请还提供了相应的装置及存储介质。

Feature Word Processing Method, Device and Storage Medium in Content Delivery System

全部详细技术资料下载

【技术实现步骤摘要】
内容投放系统中的特征词处理方法、装置及存储介质
本申请涉及互联网信息处理
，尤其涉及一种内容投放系统中的特征词处理方法、装置及存储介质。
技术介绍
随着互联网技术的发展，人们在互联网上进行的活动越来越多，不仅是简单的浏览网页，还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及，个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品，从而可节省用户搜索信息或商品的时间。在个性化推荐中，需要根据媒体内容的关键词及用户的兴趣标签确定媒体内容是否是用户感兴趣的媒体内容。在确定媒体内容的关键词时，需要对媒体内容的文本内容进行准确分词以获取该媒体内容的关键词。在中文处理领域，由于汉语本身的特点，词语之间没有像英文中有空格自然隔开，因此中文分词是一项重要的基础技术。但是，随着信息时代互联网的飞速发展，语言在网络平台上也被不断更新，从而造就了大量的新词。新词的出现，使得分词结果中出现过多的单字或细粒度词，影响了分词的准确率，进而影响了提取媒体内容关键词的准确性，因此，新词的准确识别受到越来越多的关注。
技术实现思路
本申请实例提供了一种内容投放系统中的特征词处理方法，包括：获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信...

【技术保护点】
1.一种内容投放系统中的特征词处理方法，其特征在于，包括：获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及根据接收到的各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词。

【技术特征摘要】
1.一种内容投放系统中的特征词处理方法，其特征在于，包括：获取已投放的媒体内容数据，确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据；针对任一特征词，将该特征词的特征数据输入预先训练的概率估计模型，接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率，所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到，其中，所述属性信息用以指示对应样本特征词是否为预定属性特征词；及根据接收到的各特征词作为所述预定属性特征词的概率，从所述多个待识别特征词中确定出预定属性特征词。2.根据权利要求1所述的方法，其中，所述特征数据包括多个维度；所述概率估计模型，由所述各样本特征词的特征数据及属性信息，确定所述概率估计模型的模型参数，该模型参数包括所述多个维度中各维度对应的权重；其中，所述概率估计模型，根据输入的该特征词的特征数据中各维度以及各维度对应的权重，确定该特征词作为所述预定属性特征词的概率。3.根据权利要求1所述的方法，其中，所述确定所述媒体内容数据中的多个待识别特征词包括：将所述媒体内容数据中媒体内容的文本内容进行分词，获取一个或多个候选特征词；将所述一个或多个候选特征词中没有出现在词库中的候选特征词作为所述待识别特征词，添加到待识别特征词集合中，所述词库中包括一个或多个所述预定属性特征词。4.根据权利要求1所述的方法，其中，所述确定所述媒体内容数据中的多个待识别特征词包括：根据所述媒体内容确定一个或多个字符串；对于所述一个或多个字符串中的任一字符串，计算该字符串中任两个字符之间的关联度，根据所述任两个字符之间的关联度，将该字符串划分为一个或多个待识别特征词，添加到待识别特征词集合中。5.根据权利要求3或4所述的方法，其中，所述特征数据包括多个维度，其中，所述确定所述媒体内容数据中各特征词对应的特征数据包括：针对任一特征词，根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值。6.根据权利要求5所述的方法，其中，所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：当所述多个维度包括频率时，确定该特征词在所述待识别特征词集合中出现的频率，将其作为所述频率维度对应的参数值。7.根据权利要求5所述的方法，其中，所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括：当所述多个维度包括凝固度时，确定该特征词的一个或多个子词，确定该特征词及该特征词的各子词在所述待识别特征词集合中出现的频率；根据该特征词对应的频率及各子词对应的频率确定该特征词在所述待识别特征词集合中出现的概率及各子词在所述待识别特征词集合中出现的概率，根据该特征词对应的概率及各子词对应的概率确定该特征词的凝固度，并将其作为所述凝固度维度对应的参数值。8....

【专利技术属性】
技术研发人员：于明刚，赵铭，温旭，范欣，张智敏，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人