基于云算力和大数据技术的知识图谱海量非结构化集成方法技术

技术编号：39522019 阅读：36 留言：0更新日期：2023-11-25 19:01

本申请提供基于云算力和大数据技术的知识图谱海量非结构化集成方法，包括：筛选出含有歌词或评论的文本，并运用情感分析模块进行情感打分；在云服务器对获取到的数据进行识别，筛选出与情感相关的歌词或音乐元素；形成情感标签

全部详细技术资料下载

【技术实现步骤摘要】
基于云算力和大数据技术的知识图谱海量非结构化集成方法

[0001]本专利技术涉及信息
，尤其涉及基于云算力和大数据技术的知识图谱海量非结构化集成方法
。

技术介绍

[0002]随着云计算和大数据技术的快速发展，获取和处理大量非结构化文本变得越来越重要
。
在音乐领域，获取和分析大量歌词或评论等非结构化文本，并将其应用于音乐制作和歌词创作，仍然是一个具有挑战性的问题
。
当前，许多音乐制作人和歌词作者仍然依赖于个人经验和直觉来制作音乐和歌词
。
他们需要从大量音乐数据中筛选与他们感兴趣的音乐元素或情感相关的信息
。
然而，由于音乐数据庞大且结构不明确，这一过程非常耗时且容易出错
。
因此，建立一个音乐知识图谱来支持音乐创作变得必要
。
建立音乐知识图谱需要大量的数据来支持，包括各种类型的音乐作品
、
音乐家的信息
、
音乐评论
、
音乐趋势等
。
这些数据可能分布在不同的来源和平台上，需要付出大量的时间和精力去收集
、
整理和清洗
。
同时，音乐中的歌词与评论为非结构化的数据，需要进行信息抽取和标注，这是一个既需要人力投入又需要精细操作的过程，需要大量的时间和资金支持
。
将非结构化的音乐数据转化为知识图谱涉及到实体识别
、
关系抽取等复杂任务
。
如何完成这些任务，并...

【技术保护点】

【技术特征摘要】
1.
基于云算力和大数据技术的知识图谱海量非结构化集成方法，其特征在于，所述方法包括：利用云算力获取音乐平台的非结构化文本，包括评论
、
歌词，并用朴素贝叶斯算法进行初步分类；筛选出含有歌词或评论的文本，并运用情感分析模块进行情感打分；在云服务器对获取到的数据进行识别，筛选出与情感相关的歌词或音乐元素；形成情感标签
‑
元素对，并将相似或相关的标签进行合并和统一，以降低知识图谱的复杂度；使用数据集成引擎将统一后的标签
‑
元素对整合到一个简化的数据框架里；数据集成完成后，触发知识图谱的更新流程，并将这个简化的数据框架加入到音乐知识图谱中；实时检测机制同步更新数据集成框架中新加入的元素或标签，并在超出预定复杂度时自动触发标签的合并和简化；根据音乐知识图谱，通过决策树算法分析音乐制作人或歌词作者关注的旋律或歌词；根据决策树算法预测结果，结合音乐知识图谱生成歌词修改方案，以用于修改旋律或歌词
。2.
根据权利要求1所述的方法，其中，所述利用云算力获取音乐平台的非结构化文本，包括评论
、
歌词，并用朴素贝叶斯算法进行初步分类，包括：云服务器从音乐平台公开数据接口获取非结构化文本数据，包括评论和歌词；文本数据通过
jieba
预处理，包括去重
、
清洗
、
分词和词性标注；预处理后，数据通过
TF
‑
IDF
转化为特征向量，用于朴素贝叶斯算法训练；训练完成后，输入特征向量，输出预测的类别，划分为情感正面
、
情感负面
、
与音乐相关和与音乐无关的话题
。3.
根据权利要求1所述的方法，其中，所述筛选出含有歌词或评论的文本，并运用情感分析模块进行情感打分，包括：文本匹配预先确定的关键词或关键短语，包括歌曲名称
、
专辑
、
艺术家名字和歌词；匹配成功的文本被视为含有歌词或评论，进而进行正则表达式或字符串匹配；对于匹配成功的文本进行记录并用于后续朴素贝叶斯算法输入；获取包含情感标签的训练数据集，预处理后转换为特征向量；朴素贝叶斯模型训练后，进行情感分类和量化为情感分数
。4.
根据权利要求1所述的方法，其中，所述在云服务器对获取到的数据进行识别，筛选出与情感相关的歌词或音乐元素，包括：获取数据集包括带有情感或主题标签的歌曲
、
专辑和艺术家信息；文本经预处理和情感词库匹配后，用于支持向量机情感分析模型的训练；训练完成后，预处理的文本转换为特征向量，用于情感分类；情感分析模型的预测结果用于筛选与情感相关的歌词或音乐元素
。5.
根据权利要求1所述的方法，其中，所述形成情感标签
‑
元素对，并将相似或相关的标签进行合并和统一，以降低知识图谱的复杂度，包括：获取音乐平台上的歌曲评论或使用社交平台获取用户对歌曲的评价；使用
Spacy
提取评论中的情感词汇，并与情感词典进行匹配；提取歌曲元素中的音调和节奏特征，并与前述情感标签进行匹配；应用余弦相似度计算情感标签相似度，相似度高于预设标准的标签进行合并；执行元素的分类和归一化处理，构建匹配和归一化后的情感标签与元素对；将每个情感标签与对应的元素组成一个数据行，并存储在表格或数据集中
。6.
根据权利要求1所述的方法，其中，所述使用数据集成引擎将统一后的标签
‑
元素对整合到一个简化的数据框架里，包括：选择
Talend
数据集成引擎，将音乐情感标签和音乐元素数据存储在预设数量的种类数据源如数据库
、CSV
文件中；利用
Talend
通过
API
或数据库连接至这些数据源；定义数据转换
和映射规则，在引擎操作界面中合并数据到一个简化的数据框架；自动执行数据整合流程，整合完成后进行数据质量的检查和验证
。7.
根据权利要求1所述的方法，其中，所述数据集成完成后，触发知识图谱的更新流程，并将这个简化的数据框架加入到音乐知识图谱中，包括：获取当前的音乐知识图谱结构，确定新数据的添加方式和对应关系；从简化的数据框架中提取音乐信息作为新实体或属性的值；使用
Neo4j
编辑已有的音乐知识图谱，添加新的音乐实体和与之相关的实体关联关系；验证和校对新添加的实体和关系，确认其准确性和完整性后，进行保存和更新；还包括：通过循环神经网络模型进行实体识别和消歧，确定不同数据框架中的音乐实体是否指代同一实体，获取准确的实体信息；通过图神经网络建立关系模型，从数据框架中抽取音乐实体之间的关系，得到准确的实体关联信息；所述通过循环神经网络模型进行实体识别和消歧，确定...

【专利技术属性】
技术研发人员：陈泽宇，李韩，胡磊明，林金怡，吴伟华，胡高生，余武，于善龙，
申请(专利权)人：联通沃音乐文化有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人