一种用于构建领域词典的数据处理方法及装置制造方法及图纸

技术编号:33130029 阅读:58 留言:0更新日期:2022-04-17 00:45
本发明专利技术公开了一种用于构建领域词典的数据处理方法及装置,该方法包括:获取待处理素材信息;待处理素材信息包括营销文本信息,和/或,待处理歌曲信息,和/或,押韵字表信息;对待处理素材信息进行分割过滤处理,得到待用词典;待用词典用于对素材文本中的词语进行筛选;对待用词典进行分割筛选处理,得到领域关键词信息;关键词信息与待处理素材信息所属的广告领域是强相关的;领域关键词用于构建领域词典。可见,本发明专利技术能够通过对待处理素材信息的分割过滤处理和分割筛选处理等综合处理得到用于构建领域词典的领域关键词信息,有利于降低对歌曲素材要求,提高对歌曲素材的处理效能,进而提升广告歌词的生成效率和降低制作成本。本。本。

【技术实现步骤摘要】
一种用于构建领域词典的数据处理方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种用于构建领域词典的数据处理方法及装置。

技术介绍

[0002]将热门流行歌曲转化为广告歌词是当前广告推广适应电梯广告等新媒介发展的重要方式,这一过程需要利用智能模型将学习了解推广歌曲背后的语言风格、社交流行趋势和情感表达,以生成朗朗上口的广告歌词,但目前在歌曲生成过程中普遍存在对歌曲素材要求较高,广告歌词制作成本较高等问题。因此,提供一种用于构建领域词典的数据处理方法及装置,以降低对歌曲素材要求,提高对歌曲素材的处理效能,进而提升广告歌词的生成效率和降低制作成本显得尤为重要。

技术实现思路

[0003]本专利技术所要解决的技术问题在于,提供一种用于构建领域词典的数据处理方法及装置,能够通过对待处理素材信息的分割过滤处理和分割筛选处理等综合处理得到用于构建领域词典的领域关键词信息,有利于降低对歌曲素材要求,提高对歌曲素材的处理效能,进而提升广告歌词的生成效率和降低制作成本。
[0004]为了解决上述技术问题,本专利技术实施例第一方面公开了一种用于构建领域词典的数据处理方法,所述方法包括:
[0005]获取待处理素材信息;所述待处理素材信息包括营销文本信息,和/或,待处理歌曲信息,和/或,押韵字表信息;
[0006]对所述待处理素材信息进行分割过滤处理,得到待用词典;所述待用词典用于对素材文本中的词语进行筛选;
[0007]对所述待用词典进行分割筛选处理,得到领域关键词信息;所述关键词信息与所述待处理素材信息所属的广告领域是强相关的;所述领域关键词用于构建领域词典。
[0008]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对所述待处理素材信息进行分割过滤处理,得到待用词典,包括:
[0009]对所述待处理歌曲信息进行识别处理,得到初始歌词文本信息;
[0010]对所述初始歌词文本信息分割过滤处理,得到待用词典。
[0011]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对所述初始歌词文本信息分割过滤处理,得到待用词典,包括:
[0012]对所述初始歌词文本信息进行字符分割和行分隔处理,得到第一中间歌词文本信息;
[0013]对所述第一中间歌词文本信息进行计算处理,得到第二中间歌词文本信息;
[0014]利用预设的停用词表对所述第二中间歌词文本信息进行筛选处理,得到第三中间歌词文本信息;所述第三中间歌词文本信息包括若干个歌词文本片段;
[0015]对所述第三中间歌词文本信息进行计算筛选排序处理,得到待用词典。
[0016]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对所述第三中间歌词文本信息进行计算筛选排序处理,得到待用词典,包括:
[0017]对所述第三中间歌词文本信息进行信息熵计算处理,得到第一文本熵信息;
[0018]利用预设的熵阈值对所述第一文本熵信息进行筛选处理,得到第二文本熵信息;
[0019]对所述第二文本熵信息进行排序处理,得到文本序列信息;所述排序处理是根据所述歌词文本片段对应的频率信息进行的;
[0020]对所述文本序列信息进行处理,得到待用词典。
[0021]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对所述待用词典进行分割筛选处理,得到领域关键词信息,包括:
[0022]利用预设的词向量模型对所述待用词典和所述营销文本信息进行处理,得到词向量信息;
[0023]利用预设的第一分词工具对所述待用词典和所述营销文本信息进行处理,得到待用领域词信息;
[0024]对所述词向量信息和所述待用领域词信息进行转换筛选处理,得到领域关键词信息。
[0025]作为一种可选的实施方式,在本专利技术实施例第一方面中,所述对所述词向量信息和所述待用领域词信息进行转换筛选处理,得到领域关键词信息,包括:
[0026]利用所述词向量信息对所述待用领域词信息进行转换处理,得到领域词向量信息;
[0027]对所述领域词向量信息进行聚类计算处理,得到词距离信息;
[0028]对所述词距离信息进行分组筛选处理,得到领域关键词信息。
[0029]作为一种可选的实施方式,在本专利技术实施例第一方面中,在所述对所述待用词典进行分割筛选处理,得到领域关键词信息之后,所述方法还包括:
[0030]对所述押韵字表信息进行处理,得到同韵列表;
[0031]利用预设的第二分词工具对所述同韵列表、所述领域关键词信息和所述待处理歌曲信息进行处理,得到训练文本信息;所述训练文本信息用于训练格式限制模型;所述格式限制模型用于约束广告歌词的格式。
[0032]本专利技术实施例第二方面公开了一种用于构建领域词典的数据处理装置,装置包括:
[0033]获取模块,用于获取待处理素材信息;所述待处理素材信息包括营销文本信息,和/或,待处理歌曲信息,和/或,押韵字表信息;
[0034]第一处理模块,用于对所述待处理素材信息进行分割过滤处理,得到待用词典;所述待用词典用于对素材文本中的词语进行筛选;
[0035]第二处理模块,用于对所述待用词典进行分割筛选处理,得到领域关键词信息;所述关键词信息与所述待处理素材信息所属的广告领域是强相关的;所述领域关键词用于构建领域词典。
[0036]作为一种该可选的实施方式,在本专利技术实施例第二方面中,所述第一处理模块包括第一处理子模块和第二处理子模块,其中:
[0037]所述第一处理子模块,用于对所述待处理歌曲信息进行识别处理,得到初始歌词文本信息;
[0038]所述第二处理子模块,用于对所述初始歌词文本信息分割过滤处理,得到待用词典。
[0039]作为一种该可选的实施方式,在本专利技术实施例第二方面中,所述第二处理子模块对所述初始歌词文本信息分割过滤处理,得到待用词典,包括:
[0040]对所述初始歌词文本信息进行字符分割和行分隔处理,得到第一中间歌词文本信息;
[0041]对所述第一中间歌词文本信息进行计算处理,得到第二中间歌词文本信息;
[0042]利用预设的停用词表对所述第二中间歌词文本信息进行筛选处理,得到第三中间歌词文本信息;所述第三中间歌词文本信息包括若干个歌词文本片段;
[0043]对所述第三中间歌词文本信息进行计算筛选排序处理,得到待用词典。
[0044]作为一种该可选的实施方式,在本专利技术实施例第二方面中,所述第二处理子模块对所述第三中间歌词文本信息进行计算筛选排序处理,得到待用词典,包括:
[0045]对所述第三中间歌词文本信息进行信息熵计算处理,得到第一文本熵信息;
[0046]利用预设的熵阈值对所述第一文本熵信息进行筛选处理,得到第二文本熵信息;
[0047]对所述第二文本熵信息进行排序处理,得到文本序列信息;所述排序处理是根据所述歌词文本片段对应的频率信息进行的;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于构建领域词典的数据处理方法,其特征在于,所述方法包括:获取待处理素材信息;所述待处理素材信息包括营销文本信息,和/或,待处理歌曲信息,和/或,押韵字表信息;对所述待处理素材信息进行分割过滤处理,得到待用词典;所述待用词典用于对素材文本中的词语进行筛选;对所述待用词典进行分割筛选处理,得到领域关键词信息;所述关键词信息与所述待处理素材信息所属的广告领域是强相关的;所述领域关键词用于构建领域词典。2.根据权利要求1所述的用于构建领域词典的数据处理方法,其特征在于,所述对所述待处理素材信息进行分割过滤处理,得到待用词典,包括:对所述待处理歌曲信息进行识别处理,得到初始歌词文本信息;对所述初始歌词文本信息分割过滤处理,得到待用词典。3.根据权利要求2所述的用于构建领域词典的数据处理方法,其特征在于,所述对所述初始歌词文本信息分割过滤处理,得到待用词典,包括:对所述初始歌词文本信息进行字符分割和行分隔处理,得到第一中间歌词文本信息;对所述第一中间歌词文本信息进行计算处理,得到第二中间歌词文本信息;利用预设的停用词表对所述第二中间歌词文本信息进行筛选处理,得到第三中间歌词文本信息;所述第三中间歌词文本信息包括若干个歌词文本片段;对所述第三中间歌词文本信息进行计算筛选排序处理,得到待用词典。4.根据权利要求3所述的用于构建领域词典的数据处理方法,其特征在于,所述对所述第三中间歌词文本信息进行计算筛选排序处理,得到待用词典,包括:对所述第三中间歌词文本信息进行信息熵计算处理,得到第一文本熵信息;利用预设的熵阈值对所述第一文本熵信息进行筛选处理,得到第二文本熵信息;对所述第二文本熵信息进行排序处理,得到文本序列信息;所述排序处理是根据所述歌词文本片段对应的频率信息进行的;对所述文本序列信息进行处理,得到待用词典。5.根据权利要求1所述的用于构建领域词典的数据处理方法,其特征在于,所述对所述待用词典进行分割筛选处理,得到领域关键词信息,包括:利用预设的词向量模型对所述待用词典和所述营销文本信息进行处理,得到词向量信息;利用预设的第一分词工具对所述待用词...

【专利技术属性】
技术研发人员:黄于晏陈莹莹钟艺豪陈畅新孔晓晴
申请(专利权)人:有米科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1