基于云算力和大数据技术的知识图谱海量非结构化集成方法技术

技术编号:39522019 阅读:36 留言:0更新日期:2023-11-25 19:01
本申请提供基于云算力和大数据技术的知识图谱海量非结构化集成方法,包括:筛选出含有歌词或评论的文本,并运用情感分析模块进行情感打分;在云服务器对获取到的数据进行识别,筛选出与情感相关的歌词或音乐元素;形成情感标签

【技术实现步骤摘要】
基于云算力和大数据技术的知识图谱海量非结构化集成方法


[0001]本专利技术涉及信息
,尤其涉及基于云算力和大数据技术的知识图谱海量非结构化集成方法


技术介绍

[0002]随着云计算和大数据技术的快速发展,获取和处理大量非结构化文本变得越来越重要

在音乐领域,获取和分析大量歌词或评论等非结构化文本,并将其应用于音乐制作和歌词创作,仍然是一个具有挑战性的问题

当前,许多音乐制作人和歌词作者仍然依赖于个人经验和直觉来制作音乐和歌词

他们需要从大量音乐数据中筛选与他们感兴趣的音乐元素或情感相关的信息

然而,由于音乐数据庞大且结构不明确,这一过程非常耗时且容易出错

因此,建立一个音乐知识图谱来支持音乐创作变得必要

建立音乐知识图谱需要大量的数据来支持,包括各种类型的音乐作品

音乐家的信息

音乐评论

音乐趋势等

这些数据可能分布在不同的来源和平台上,需要付出大量的时间和精力去收集

整理和清洗

同时,音乐中的歌词与评论为非结构化的数据,需要进行信息抽取和标注,这是一个既需要人力投入又需要精细操作的过程,需要大量的时间和资金支持

将非结构化的音乐数据转化为知识图谱涉及到实体识别

关系抽取等复杂任务

如何完成这些任务,并将其体现在知识图谱中,是一个挑战性的问题

因为知识图谱构建后,有大量的节点和子节点,会导致难以被创造者了解和简单使用,如何以降低知识图谱的复杂度,也是一个未解决的问题,它能给知识图谱的实用性带来突破

而且,音乐领域是一个快速变化的领域,需要定期更新音乐知识图谱以反映最新的音乐趋势和变化

同时,也需要对图谱进行维护,以保证其稳定性和可用性

然而,多次快速更新会导致音乐知识图谱庞大且难以应用

此外,音乐制作人和创作人往往拥有多个称呼,现有知识图谱往往难以对其进行合并处理,导致知识图谱过于庞大,且在分析歌手和创作人的偏好时可能会遗漏数据

另外,音乐知识图谱的知识是静态的,难以根据音乐制作人或歌词作者的个人风格提供个性化的修改建议

因此,音乐知识图谱在音乐创作和歌词修改方面的应用有一定局限性


技术实现思路

[0003]本专利技术提供了基于云算力和大数据技术的知识图谱海量非结构化集成方法,主要包括:利用云算力获取联通沃音乐的非结构化文本,包括评论

歌词,并用朴素贝叶斯算法进行初步分类;筛选出含有歌词或评论的文本,并运用情感分析模块进行情感打分;在云服务器对获取到的数据进行识别,筛选出与情感相关的歌词或音乐元素;形成情感标签

元素对,并将相似或相关的标签进行合并和统一,以降低知识图谱的复杂度;使用数据集成引擎将统一后的标签

元素对整合到一个简化的数据框架里;数据集成完成后,触发知识图谱的更新流程,并将这个简化的数据框架加入到音乐知识图谱中;实时检测机制同步更新数据集成框架中新加入的元素或标签,并在超出预定复杂度时自动触发标签的合并和简化;
根据音乐知识图谱,通过决策树算法分析音乐制作人或歌词作者关注的旋律或歌词;根据决策树算法预测结果,结合音乐知识图谱生成歌词修改方案,以用于修改旋律或歌词

[0004]在一种实施方式中,所述利用云算力获取联通沃音乐的非结构化文本,包括评论

歌词,并用朴素贝叶斯算法进行初步分类,包括:使用云服务器通过公开的数据接口从联通沃音乐获取相关的非结构化文本数据,包括评论和歌词;对于获取到的非结构化文本数据,使用
jieba
进行预处理工作,包括去重

清洗

分词和词性标注;通过
TF

IDF
,将文本转化为可供朴素贝叶斯算法使用的特征向量,特征向量包括文本内容和语义信息;使用文本特征向量对朴素贝叶斯算法进行训练,根据训练数据学习每个类别的特征分布;将经过预处理后的特征向量输入经训练的朴素贝叶斯算法,输出文本的分类结果,即预测的类别,根据需求,将这些文本分为情感正面

情感负面

与音乐相关的话题

与音乐无关的话题的类别

[0005]在一种实施方式中,所述筛选出含有歌词或评论的文本,并运用情感分析模块进行情感打分,包括:预先确定关键词或关键短语包括表示歌曲的名称

专辑

艺术家名字和歌词,使用关键词匹配的方法,对文本进行关键词的匹配检测;如果文本中包含任意一个关键词或短语,将该文本视为含有歌词或评论的文本;使用正则表达式或字符串匹配的方法,对文本进行精确或模糊匹配;对于匹配到的含有歌词或评论的文本,将其保留并记录下来,作为后续贝叶斯分类算法进行情感打分的输入;获取包含情感标签的训练数据集,包含文本样本和相应的情感标签正面

负面或中性情感;对文本样本进行预处理,包括文本清洗

分词

停用词去除;将预处理后的文本使用
TF

IDF
转换为作为朴素贝叶斯算法输入的特征向量;将特征向量和相应的情感标签输入朴素贝叶斯分类算法进行模型的训练;朴素贝叶斯算法基于训练数据学习类别的特征分布,计算每个类别的条件概率,估计每个特征在每个类别中的条件概率;使用已训练好的朴素贝叶斯情感分析模型对待分析的文本进行情感分类,根据预测结果的概率值来理解文本的情感倾向,并将文本的情感倾向性量化为情感分数

[0006]在一种实施方式中,所述在云服务器对获取到的数据进行识别,筛选出与情感相关的歌词或音乐元素,包括:获取包含歌词和音乐元素的数据集,包括具有情感标签或主题标签的歌曲

专辑

艺术家信息,含有情感词汇和表达情感的歌词,歌曲中情感相关的元素包括节奏

速度和音调;使用开源资源构建一个情感词库,包括描述情感状态或与情感相关的词语;对获取到的歌词和音乐元素文本进行预处理,包括文本清洗

分词和停用词去除,使用情感词库对文本进行情感词汇的匹配,提取与情感相关的单词或短语作为特征;使用带有情感标签的训练数据集,使用支持向量机训练一个情感分析模型;将特征向量和相应的情感标签输入模型进行训练,获取情感与特征之间的关联;使用已训练好的情感分析模型对获取到的歌词和音乐元素进行情感识别和筛选,将预处理后的文本转换为特征向量,并使用情感分析模型对特征向量进行情感分类,根据模型的预测结果判断文本是否与具体情感相关;根据情感分析的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于云算力和大数据技术的知识图谱海量非结构化集成方法,其特征在于,所述方法包括:利用云算力获取音乐平台的非结构化文本,包括评论

歌词,并用朴素贝叶斯算法进行初步分类;筛选出含有歌词或评论的文本,并运用情感分析模块进行情感打分;在云服务器对获取到的数据进行识别,筛选出与情感相关的歌词或音乐元素;形成情感标签

元素对,并将相似或相关的标签进行合并和统一,以降低知识图谱的复杂度;使用数据集成引擎将统一后的标签

元素对整合到一个简化的数据框架里;数据集成完成后,触发知识图谱的更新流程,并将这个简化的数据框架加入到音乐知识图谱中;实时检测机制同步更新数据集成框架中新加入的元素或标签,并在超出预定复杂度时自动触发标签的合并和简化;根据音乐知识图谱,通过决策树算法分析音乐制作人或歌词作者关注的旋律或歌词;根据决策树算法预测结果,结合音乐知识图谱生成歌词修改方案,以用于修改旋律或歌词
。2.
根据权利要求1所述的方法,其中,所述利用云算力获取音乐平台的非结构化文本,包括评论

歌词,并用朴素贝叶斯算法进行初步分类,包括:云服务器从音乐平台公开数据接口获取非结构化文本数据,包括评论和歌词;文本数据通过
jieba
预处理,包括去重

清洗

分词和词性标注;预处理后,数据通过
TF

IDF
转化为特征向量,用于朴素贝叶斯算法训练;训练完成后,输入特征向量,输出预测的类别,划分为情感正面

情感负面

与音乐相关和与音乐无关的话题
。3.
根据权利要求1所述的方法,其中,所述筛选出含有歌词或评论的文本,并运用情感分析模块进行情感打分,包括:文本匹配预先确定的关键词或关键短语,包括歌曲名称

专辑

艺术家名字和歌词;匹配成功的文本被视为含有歌词或评论,进而进行正则表达式或字符串匹配;对于匹配成功的文本进行记录并用于后续朴素贝叶斯算法输入;获取包含情感标签的训练数据集,预处理后转换为特征向量;朴素贝叶斯模型训练后,进行情感分类和量化为情感分数
。4.
根据权利要求1所述的方法,其中,所述在云服务器对获取到的数据进行识别,筛选出与情感相关的歌词或音乐元素,包括:获取数据集包括带有情感或主题标签的歌曲

专辑和艺术家信息;文本经预处理和情感词库匹配后,用于支持向量机情感分析模型的训练;训练完成后,预处理的文本转换为特征向量,用于情感分类;情感分析模型的预测结果用于筛选与情感相关的歌词或音乐元素
。5.
根据权利要求1所述的方法,其中,所述形成情感标签

元素对,并将相似或相关的标签进行合并和统一,以降低知识图谱的复杂度,包括:获取音乐平台上的歌曲评论或使用社交平台获取用户对歌曲的评价;使用
Spacy
提取评论中的情感词汇,并与情感词典进行匹配;提取歌曲元素中的音调和节奏特征,并与前述情感标签进行匹配;应用余弦相似度计算情感标签相似度,相似度高于预设标准的标签进行合并;执行元素的分类和归一化处理,构建匹配和归一化后的情感标签与元素对;将每个情感标签与对应的元素组成一个数据行,并存储在表格或数据集中
。6.
根据权利要求1所述的方法,其中,所述使用数据集成引擎将统一后的标签

元素对整合到一个简化的数据框架里,包括:选择
Talend
数据集成引擎,将音乐情感标签和音乐元素数据存储在预设数量的种类数据源如数据库
、CSV
文件中;利用
Talend
通过
API
或数据库连接至这些数据源;定义数据转换
和映射规则,在引擎操作界面中合并数据到一个简化的数据框架;自动执行数据整合流程,整合完成后进行数据质量的检查和验证
。7.
根据权利要求1所述的方法,其中,所述数据集成完成后,触发知识图谱的更新流程,并将这个简化的数据框架加入到音乐知识图谱中,包括:获取当前的音乐知识图谱结构,确定新数据的添加方式和对应关系;从简化的数据框架中提取音乐信息作为新实体或属性的值;使用
Neo4j
编辑已有的音乐知识图谱,添加新的音乐实体和与之相关的实体关联关系;验证和校对新添加的实体和关系,确认其准确性和完整性后,进行保存和更新;还包括:通过循环神经网络模型进行实体识别和消歧,确定不同数据框架中的音乐实体是否指代同一实体,获取准确的实体信息;通过图神经网络建立关系模型,从数据框架中抽取音乐实体之间的关系,得到准确的实体关联信息;所述通过循环神经网络模型进行实体识别和消歧,确定...

【专利技术属性】
技术研发人员:陈泽宇李韩胡磊明林金怡吴伟华胡高生余武于善龙
申请(专利权)人:联通沃音乐文化有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1