一种自动发现音频关键词到分类映射关系的方法技术

技术编号:24251618 阅读:31 留言:0更新日期:2020-05-22 23:36
本发明专利技术公开了一种自动发现音频关键词到分类映射关系的方法,包括如下步骤:人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;获取公开的word2vec数据,预训练word2vec;利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中,通过word2vec能够找出更丰富的映射关系,有效的降低人工成本,而且可以自动迭代。

A method of automatically finding the mapping relationship between audio keywords and classification

【技术实现步骤摘要】
一种自动发现音频关键词到分类映射关系的方法
本专利技术具体涉及到一种自动发现音频关键词到分类映射关系的方法。
技术介绍
音频节目相关的文本信息包括音频题目和音频简介信息,用户可能因为慵懒不去上传音频简介信息。可用的音频文本信息一般只有题目信息。音频题目有个很明显的特点,一般是几个词甚至一个词,比如一个音频起名叫《今日头条》。利用这么短的文本很难做模型分类,所以,通过关键字映射到分类的一种常用的音频分类的方法。如何能找到更多的关键词到分类的映射,是上述算法的关键。
技术实现思路
针对上述现有技术存在的缺陷,本专利技术要解决的技术问题是:利用word2vec自动发现关键词到分类的映射关系,降低了通过运营标注成本,后续流程可提高音频分类的覆盖率。一种自动发现音频关键词到分类映射关系的方法,包括如下步骤:人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;获取公开的word2vec数据,预训练word2vec;利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。进一步地,所述人工标注分类数据库产出数据格式如下:民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};民俗是分类数据,大括号内的词是民俗分类下的关键词,表示的意义是:若一个音频节目题目中包含了大括号内的词中的一个,则这个节目的分类就是民俗。进一步地,所述word2vec是一种利用低维度向量数据表示词含义的方法,相似词的向量表示之间的距离会比不相似词之间的距离大。进一步地,根据word2vec的性质,可以找出各个分类下关键词相似的新关键词,通过验证后加入到对应的分类关键词中。进一步地,所述验证步骤为:将新关键词与多个已有关键词进行比较,以防止误判。与现有技术相比,本专利技术的至少包括以下有益效果:1.能够找出更丰富的映射关系;2.有效的降低人工成本;3.可自动迭代。附图说明图1为本专利技术一种自动发现音频关键词到分类映射关系的方法的流程图。具体实施方式以下实施例对本专利技术进行说明,但本专利技术并不受这些实施例所限制。对本专利技术的具体实施方式进行修改或者对部分技术特征进行等同替换,而不脱离本专利技术方案的精神,其均应涵盖在本专利技术请求保护的技术方案范围当中。如图1所示,一种自动发现音频关键词到分类映射关系的方法,包括如下步骤:步骤S100:人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;步骤S101:获取公开的word2vec数据,预训练word2vec;步骤S102:利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。通过word2vec能够找出更丰富的映射关系,有效的降低人工成本,而且可以自动迭代。本专利技术所述人工标注分类数据库产出数据格式如下:民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};民俗是分类数据,大括号内的词是民俗分类下的关键词,表示的意义是:若一个音频节目题目中包含了大括号内的词中的一个,则这个节目的分类就是民俗,例如,如果一个音频节目题目中包含了“赛龙舟”,则这个节目的分类就是民俗。本专利技术所述word2vec是一种利用低维度向量数据表示词含义的方法,相似词的向量表示之间的距离会比不相似词之间的距离大,例如“今日头条”和“微信”之间的向量距离大于“微信”和“北京”之间的距离,通过向量距离能够判断相似词。本专利技术根据word2vec的性质,可以找出各个分类下关键词相似的新关键词,通过验证后加入到对应的分类关键词中,例如,根据word2vec计算出,“生活习俗”和民俗下多个关键词都很相似,将“生活习俗”也加入到民俗分类的关键词中。本专利技术所述验证步骤为:将新关键词与多个已有关键词进行比较,以防止误判,这是为了防止添加一些无关的关键词,例如“风物人情”和“地方特产”word2vec的词向量距离很小,但却不是民俗分类的关键词。以上所述的具体实施方式对本专利技术的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本专利技术的最优选实施例,并不用于限制本专利技术,凡在本专利技术的原则范围内所做的任何修改、补充和等同替换等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种自动发现音频关键词到分类映射关系的方法,其特征在于,包括如下步骤:/n人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;/n获取公开的word2vec数据,预训练word2vec;/n利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。/n

【技术特征摘要】
1.一种自动发现音频关键词到分类映射关系的方法,其特征在于,包括如下步骤:
人工标注关键词到分类映射关系数据中,建立人工标注分类数据库;
获取公开的word2vec数据,预训练word2vec;
利用人工标注分类数据库以及word2vec,计算各个分类下关键词的相似词并加入到对应分类的关键词中。


2.根据权利要求1所述一种自动发现音频关键词到分类映射关系的方法,其特征在于:所述人工标注分类数据库产出数据格式如下:
民俗{“中元节”,“立春吃春饼”,“民俗类”,“端午常识”,“节日文化”,“年俗”,“重阳节”,“赛龙舟”,“京味儿趣事”,“民俗文化”,“风物人情”,“天津民俗”,“民俗禁忌”};
民俗是分类数据,大括号内的词是民俗分...

【专利技术属性】
技术研发人员:杜春河丁宁
申请(专利权)人:广州荔支网络技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1