The invention discloses a music text generation method based on word shift distance combined with word vector. Firstly, the lyric text and comment text of a song are crawled from a music software website; then the lyric text and comment text are processed by word segmentation; secondly, the words obtained from the lyric are further expressed by vectorization to obtain the vector distribution of words; and the direction of the lyric text in a song is calculated. The word-shift distance between the quantity and all the comment text vectors is used to obtain the word-shift distance ranking of the comment texts of each song; the threshold value N of the word-shift distance is set, and the comment texts of songs whose word-shift distance is less than the threshold value N are sorted according to the size of the word-shift distance as the filtered comment texts; finally, the alternative comment texts are reprocessed and the discrepancies among them are deleted. In natural grammar sentences, add the attribute information of the song as the music copy recommended to the user. The music text generated by the invention is small in length and improves the efficiency of people selecting songs.
【技术实现步骤摘要】
一种基于词移距离结合词向量的音乐文案生成方法
本专利技术属于信息
,涉及一种自然语言处理的文本摘要生成方法,具体涉及一种结合文本的词向量嵌入表示和基于词移距离的文本相似度计算两方面优势的基于歌曲评论文本的个性化音乐文案生成方法。
技术介绍
互联网时代的不断发展帮助人们可以通过更多便捷的工具获取到音乐,人们不必再购买MP3类设备专门进行音乐的听取,同时也打破了音乐传播地域的限制。但是音乐的数量与此同时飞速增长,每天都有数以百计的新歌增加到全球曲库当中,人们挑选想要听的歌曲成为当前的一大难题。歌曲厂商为了推广歌曲时,通常会附加音乐的个性化描述或背景简介,也即音乐文案,以达到取悦听众的目的。但这些传统文案主要往往由人工编辑或筛选完成,计算机起辅助作用,来帮助文案中进行纠错及排版。同时传统编辑歌曲文案的方式费时费力,人工成本较大。对于听歌群体来讲,传统人工文案一是无法满足听歌的多元化需求,二是编辑起来耗费时间较多,且效率较低。传统听歌软件一般针对听歌多元化和效率问题选择歌单推荐,利用从众心理将热度较大的歌曲推荐给听歌群体,但是忽视了听歌群体本身的感受以及选择权。
技术实现思路
本专利技术旨在提高音乐文案生成的效率,帮助人们在更短的时间内了解歌曲、挑选歌曲,提高传统人工生成歌曲文案的时效性,改变传统人工音乐文案生成过程中的文案生成来源单一性特点,增加生成后音乐文案的篇幅可控性以及音乐文案与歌曲本身的相关性和听取歌曲人群对歌曲理解的共通性,让人们更好地选择歌曲同时享受歌曲。本专利技术同时克服了传统音乐文案生成耗时长、人工成本投入大、文案辐射歌曲范围小的缺陷,提出了一 ...
【技术保护点】
1.一种基于词移距离结合词向量的音乐文案生成方法,其特征在于,包括以下步骤:步骤1:从音乐软件网站爬取歌曲的歌词文本和评论文本;步骤2:对歌曲的歌词文本和评论文本进行分词处理;步骤3:对步骤2分词中得到的词语进一步使用向量化表示,获取词语的向量分布表示;步骤4:计算步骤3中歌曲的歌词文本向量与所有评论文本向量之间的词移距离,获得这首歌的歌词文本和所有评论文本的词移距离排序;步骤5:设定词移距离的边界值阈值N,将步骤4中词移距离小于边界值阈值N的歌曲评论文本按词移距离大小排序,作为筛选后的评论文本,用于下一步音乐文案的生成工作;步骤6:将步骤5中筛选的评论文本进行去重处理,删除其中不符合语法规则的句子,添加上歌曲的名称和作者等属性信息作为推荐给用户的歌曲音乐文案。
【技术特征摘要】
1.一种基于词移距离结合词向量的音乐文案生成方法,其特征在于,包括以下步骤:步骤1:从音乐软件网站爬取歌曲的歌词文本和评论文本;步骤2:对歌曲的歌词文本和评论文本进行分词处理;步骤3:对步骤2分词中得到的词语进一步使用向量化表示,获取词语的向量分布表示;步骤4:计算步骤3中歌曲的歌词文本向量与所有评论文本向量之间的词移距离,获得这首歌的歌词文本和所有评论文本的词移距离排序;步骤5:设定词移距离的边界值阈值N,将步骤4中词移距离小于边界值阈值N的歌曲评论文本按词移距离大小排序,作为筛选后的评论文本,用于下一步音乐文案的生成工作;步骤6:将步骤5中筛选的评论文本进行去重处理,删除其中不符合语法规则的句子,添加上歌曲的名称和作者等属性信息作为推荐给用户的歌曲音乐文案。2.根据权利要求1所述的基于词移距离结合词向量的音乐文案生成方法,其特征在于:步骤2中,采用Jieba分词工具对歌曲的歌词文本、评论文本进行分词处理,基于trie和DAG的方法解决词语组合问题同时使用动态规划进行词语切分。3.根...
【专利技术属性】
技术研发人员:彭敏,王维川,胡刚,金志欢,高望,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。