【技术实现步骤摘要】
一种自动发现音频关键词到分类映射关系的方法
本专利技术具体涉及到一种自动发现音频关键词到分类映射关系的方法。
技术介绍
音频节目相关的文本信息包括音频题目和音频简介信息,用户可能因为慵懒不去上传音频简介信息。可用的音频文本信息一般只有题目信息。音频题目有个很明显的特点,一般是几个词甚至一个词,比如一个音频起名叫《今日头条》。利用这么短的文本很难做模型分类,所以,通过关键字映射到分类的一种常用的音频分类的方法。如何能找到更多的关键词到分类的映射,是上述算法的关键。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术要解决的技术问题是:利用word2vec自动发现关键词到分类的映射关系,降低了通过运营标注成本,后续流程可提高音频分类的覆盖率。一种自动发现音频关键词到分类映射关系的方法,包括如下步骤:人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;获取公开的word2vec数据,预训练word2vec;利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。进一步地,所述人工标注分类数据库产出数据格式如下:民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};民俗是分类数据,大括号内的词是民俗分类下的关键词,表示的意义是:若一个音频节目题目中包含了大括号内的词中的一 ...
【技术保护点】
1.一种自动发现音频关键词到分类映射关系的方法,其特征在于,包括如下步骤:/n人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;/n获取公开的word2vec数据,预训练word2vec;/n利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。/n
【技术特征摘要】
1.一种自动发现音频关键词到分类映射关系的方法,其特征在于,包括如下步骤:
人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;
获取公开的word2vec数据,预训练word2vec;
利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。
2.根据权利要求1所述一种自动发现音频关键词到分类映射关系的方法,其特征在于:所述人工标注分类数据库产出数据格式如下:
民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};
民俗是分类数据,大括号内的词是民俗分...
【专利技术属性】
技术研发人员:杜春河,丁宁,
申请(专利权)人:广州荔支网络技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。