内容投放系统中的特征词处理方法、装置及存储介质制造方法及图纸

技术编号:21629850 阅读:30 留言:0更新日期:2019-07-17 11:23
本申请公开了一种内容投放系统中的特征词处理方法,包括:获取训练样本数据,所述训练样本数据包括多个样本特征词中各样本特征词的特征数据及属性信息,所述属性信息用以指示对应样本特征词是否为预定属性特征词;根据所述多个样本特征词中各样本特征词的特征数据及属性信息,训练得到概率估计模型;获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;针对任一特征词,将该特征词的特征数据输入所述概率估计模型,获得该特征词作为所述预定属性特征词的概率;及根据各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。本申请还提供了相应的装置及存储介质。

Feature Word Processing Method, Device and Storage Medium in Content Delivery System

【技术实现步骤摘要】
内容投放系统中的特征词处理方法、装置及存储介质
本申请涉及互联网信息处理
,尤其涉及一种内容投放系统中的特征词处理方法、装置及存储介质。
技术介绍
随着互联网技术的发展,人们在互联网上进行的活动越来越多,不仅是简单的浏览网页,还可以在互联网上进行即时通讯、购物、广告宣传和网络游戏等。随着互联网技术的普及,个性化推荐系统已经广泛的应用于在线电子商务平台。所谓个性化推荐即根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品,从而可节省用户搜索信息或商品的时间。在个性化推荐中,需要根据媒体内容的关键词及用户的兴趣标签确定媒体内容是否是用户感兴趣的媒体内容。在确定媒体内容的关键词时,需要对媒体内容的文本内容进行准确分词以获取该媒体内容的关键词。在中文处理领域,由于汉语本身的特点,词语之间没有像英文中有空格自然隔开,因此中文分词是一项重要的基础技术。但是,随着信息时代互联网的飞速发展,语言在网络平台上也被不断更新,从而造就了大量的新词。新词的出现,使得分词结果中出现过多的单字或细粒度词,影响了分词的准确率,进而影响了提取媒体内容关键词的准确性,因此,新词的准确识别受到越来越多的关注。
技术实现思路
本申请实例提供了一种内容投放系统中的特征词处理方法,包括:获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;针对任一特征词,将该特征词的特征数据输入预先训练的概率估计模型,接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率,所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到,其中,所述属性信息用以指示对应样本特征词是否为预定属性特征词;及根据接收到的各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。本申请实例还提供了一种内容投放系统中的特征词处理装置,包括:待识别特征词获取单元,用以获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;识别单元,用以针对任一特征词,将该特征词的特征数据输入预先训练的概率估计模型,接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率,所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到,其中,所述属性信息用以指示对应样本特征词是否为预定属性特征词;及根据接收到的各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。本申请实例还提供了一种计算机可读存储介质,存储有计算机可读指令,可以使至少一个处理器执行如上述所述的方法。采用本申请提供的上述方案,确定的预定属性的特征词更加准确。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实例涉及的系统构架图;图2是本申请一实例内容投放系统中的特征词处理方法的流程图;图3是本申请一实例内容投放系统中的特征词处理方法应用在新词提取的流程图;图4A是本申请一实例新闻及新闻的关键词的页面示意图;图4B是本申请一实例内容投放系统中的特征词处理装置的结构示意图;以及图5为本申请实例中的计算设备组成结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本申请提出了一种内容投放系统中的特征词处理方法、装置及存储介质,可应用于图1所示的系统构架中。如图1所示,该系统构架包括:应用(APP)客户端101、推送信息提供方客户端103、标注客户端102、应用服务器104、投放数据库105、词库106及标注词库107。其中,应用(APP)客户端101、推送信息提供方客户端103、标注客户端102与应用服务器104之间通过互联网连接。终端用户可以使用应用客户端101访问应用服务器104,比如:浏览新闻或者文章等。当用户使用应用客户端101访问应用服务器104时,应用服务器确定用户可能感兴趣的媒体内容,并将确定的媒体内容的链接发送给应用客户端101,以在应用客户端101上展示。应用服务器104确定用户可能感兴趣的媒体内容时,根据用户的兴趣标签及媒体内容的关键词确定用户的兴趣标签与媒体内容的关键词之间的相似度,进而根据该相似度确定用户可能感兴趣的媒体内容。因而,应用服务器104需要准确确定媒体内容的关键词,应用服务器104在确定一个媒体内容的关键词时,获取该媒体内容的文本内容,利用词库105中的特征词对所述文本内容进行分词,获取多个候选关键词,之后,根据一些筛选规则,例如,利用IF-IDF特征筛选所述多个候选关键词得到该媒体内容的至少一个关键词。随着信息时代互联网的飞速发展,造就了大量的特别属性的词,例如新词,因而需要不断挖掘预定属性的词添加到词库中,例如,不断挖掘新词添加到词库中,以使得根据该词库对媒体内容的文本内容进行分词,分得的词更加准确,进而确定的关键词也更准确。应用服务器104在挖掘预定属性的特征词时,从投放数据库105中获取投放过的媒体内容,根据该媒体内容确定多个特征词,进而根据一些筛选规则确定多个候选预定属性特征词,例如潜在新词,保存在标注词库107中,标注客户端102可以为浏览器客户端,维护人员通过标注客户端102登录标注网页以访问应用服务器104时,应用服务器104将标注词库107中待标注的关键词发送给标注客户端102。所述标注网页上显示待标注的候选预定属性特征词,例如,潜在新词,用户在标注网页上对所述候选预定属性特征词进行标注,标注其是预定属性特征词或不是预定属性特征词,标注客户端将标注结果返回给应用服务器104,应用服务器104将标注后的特征词保存在标注词库中。后续,应用服务器104根据标注词库中标注后的特征词进行训练得到模型,该模型用以筛选预定属性特征词,例如,提取新词。应用服务器在筛选预定属性特征词时,例如,提取新词时,例如,每天进行一次新词筛选,在投放数据库105中获取前一天投放过的媒体内容数据,根据该媒体内容数据及上述训练得到的模型筛选候选新词,将候选新词保存在标注词库107中,维护人员定期在所述标注客户端102上登陆所述标注网页,对候选新词进行标注,标注客户端102将标注的结果返回给应用服务器104,应用服务器104将标注后的特征词保存在标注词库107中,同时将标注得到的新词保存在词库105中。应用服务器同时定期从标注词库107中提取标注后的特征词作为样本特征词更新模型。通过推送信息提供方客户端103,推送信息提供方可以将其要推送的媒体内容的素材上传到应用服务器104,以生成相应的用于投放的媒体内容。预定属性特征词的提取是推荐系统的基础工作,预定属性特征词构成了推荐系统的词库中的一部分关键词,例如,所述预定属性特征词为新词,其中本文档来自技高网...

【技术保护点】
1.一种内容投放系统中的特征词处理方法,其特征在于,包括:获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;针对任一特征词,将该特征词的特征数据输入预先训练的概率估计模型,接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率,所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到,其中,所述属性信息用以指示对应样本特征词是否为预定属性特征词;及根据接收到的各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。

【技术特征摘要】
1.一种内容投放系统中的特征词处理方法,其特征在于,包括:获取已投放的媒体内容数据,确定所述媒体内容数据中的多个待识别特征词以及各特征词对应的特征数据;针对任一特征词,将该特征词的特征数据输入预先训练的概率估计模型,接收所述概率估计模型输出的该特征词作为所述预定属性特征词的概率,所述概率估计模型由训练样本数据包括的多个样本特征词中各样本特征词的特征数据及属性信息训练得到,其中,所述属性信息用以指示对应样本特征词是否为预定属性特征词;及根据接收到的各特征词作为所述预定属性特征词的概率,从所述多个待识别特征词中确定出预定属性特征词。2.根据权利要求1所述的方法,其中,所述特征数据包括多个维度;所述概率估计模型,由所述各样本特征词的特征数据及属性信息,确定所述概率估计模型的模型参数,该模型参数包括所述多个维度中各维度对应的权重;其中,所述概率估计模型,根据输入的该特征词的特征数据中各维度以及各维度对应的权重,确定该特征词作为所述预定属性特征词的概率。3.根据权利要求1所述的方法,其中,所述确定所述媒体内容数据中的多个待识别特征词包括:将所述媒体内容数据中媒体内容的文本内容进行分词,获取一个或多个候选特征词;将所述一个或多个候选特征词中没有出现在词库中的候选特征词作为所述待识别特征词,添加到待识别特征词集合中,所述词库中包括一个或多个所述预定属性特征词。4.根据权利要求1所述的方法,其中,所述确定所述媒体内容数据中的多个待识别特征词包括:根据所述媒体内容确定一个或多个字符串;对于所述一个或多个字符串中的任一字符串,计算该字符串中任两个字符之间的关联度,根据所述任两个字符之间的关联度,将该字符串划分为一个或多个待识别特征词,添加到待识别特征词集合中。5.根据权利要求3或4所述的方法,其中,所述特征数据包括多个维度,其中,所述确定所述媒体内容数据中各特征词对应的特征数据包括:针对任一特征词,根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值。6.根据权利要求5所述的方法,其中,所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括:当所述多个维度包括频率时,确定该特征词在所述待识别特征词集合中出现的频率,将其作为所述频率维度对应的参数值。7.根据权利要求5所述的方法,其中,所述根据所述待识别特征词集合确定该特征词的特征数据中各维度对应的参数值包括:当所述多个维度包括凝固度时,确定该特征词的一个或多个子词,确定该特征词及该特征词的各子词在所述待识别特征词集合中出现的频率;根据该特征词对应的频率及各子词对应的频率确定该特征词在所述待识别特征词集合中出现的概率及各子词在所述待识别特征词集合中出现的概率,根据该特征词对应的概率及各子词对应的概率确定该特征词的凝固度,并将其作为所述凝固度维度对应的参数值。8....

【专利技术属性】
技术研发人员:于明刚赵铭温旭范欣张智敏
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1