【技术实现步骤摘要】
广告文本分类方法及装置
本公开涉及数据处理
,具体涉及一种广告文本分类方法、一种广告文本分类装置、一种存储介质以及一种计算机系统。
技术介绍
随着移动互联网行业的快速发展,移动终端的广告流量价值也随之增大,以图片形式承载广告内容,是广告的重要展现形式之一。受移动终端尺寸限制,这些图片承载的广告文本通常简洁精炼,囊括的信息对用户的导流具有决定性的影响。分析提炼这些文本信息的内在特征,往往需要在基本类目划分的基础上开展,因此,如何实现文本自动分类,一直是相关行业研究和应用的热点。现有的文本分类方法主要包括规则匹配方法和模型训练方法。其中,规则匹配方法即根据经验人为设定文本类别的划分规则。而模型训练方法则是利用已训练的机器学习模型实现文本的自动分类。但上述的方法仍存在一定的缺陷。例如,规则匹配方法的分类效果的好坏直接依赖于规则设定的方法,在专业细分场景下,不同类别往往存在一定程度的交叉和重叠,这增加了规则设定的难度。同时,随着文本规模的增长,该方法维持效果所需设定的规则复杂度也随之增加,不利于分类效果的持续提升。而对于模型训 ...
【技术保护点】
1.一种广告文本分类方法,其特征在于,包括:/n获取待分类文本;/n利用已训练的词向量模型计算所述待分类文本词向量;/n根据所述待分类文本的词向量计算与给定类目对应相似词的相似度,以获取所述待分类文本与各所述给定类目的相似度评分;/n将与所述待分类文本相似度评分最高的所述给定类目配置为所述待分类文本的分类结果。/n
【技术特征摘要】
1.一种广告文本分类方法,其特征在于,包括:
获取待分类文本;
利用已训练的词向量模型计算所述待分类文本词向量;
根据所述待分类文本的词向量计算与给定类目对应相似词的相似度,以获取所述待分类文本与各所述给定类目的相似度评分;
将与所述待分类文本相似度评分最高的所述给定类目配置为所述待分类文本的分类结果。
2.根据权利要求1所述方法,其特征在于,所述根据所述待分类文本的词向量计算与给定类目对应相似词的相似度后,所述方法还包括:
对所述待分类文本与给定类目的各相似词的相似度结果做平滑处理,以根据平滑处理后的相似度结果计算所述待分类文本与各所述给定类目的相似度评分结果。
3.根据权利要求2所述方法,其特征在于,所述对所述待分类文本与给定类目的各相似词的相似度结果做平滑处理包括:
其中,fc[·]为平滑函数,Xt为待分类文本t的分词集合。
4.根据权利要求1所述方法,其特征在于,根据所述待分类文本的词向量计算与给定类目对应相似词的相似度,以获取所述待分类文本与各所述给定类目的相似度评分包括:
其中,l为待分类文本的分词个数。
5.根据权利要求1所述方法,其特征在于,所述获取待分类文本包括:
获取原始文本,并对其进行预处理以获取待分类文本;
其中,所述预处理包括分词处理及清洗处理。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:预先训练所述词向量模型,包括:
获取背景语料;
以所述背景语料为输入,对Word2vec模型训练以获取词向量模型,及所述背景语料对应的词向量;
计算所述背景语料与给定类目的关键词之间的相似度以获取所述给定类目的关键词对应...
【专利技术属性】
技术研发人员:胡雨佳,
申请(专利权)人:北京京东金融科技控股有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。