面向音乐领域的实体关系抽取方法及系统技术方案

技术编号:37863713 阅读:18 留言:0更新日期:2023-06-15 20:53
本发明专利技术公开了面向音乐领域的实体关系抽取方法及系统;其中方法包括:获取待处理文本;对待处理文本进行句子过滤,得到候选句子;候选句子中包括至少两个音乐命名实体;对候选句子,进行降噪处理;将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。使用自然语言处理技术来对文本中所包含的信息进行整理,通过关系抽取对一段音乐文本中的实体进行关系的提取,构造面向音乐领域的知识图谱,通过知识图谱将数据资源中的信息以及链接关系聚集成知识,使信息资源更易于计算、理解以及评价。理解以及评价。理解以及评价。

【技术实现步骤摘要】
面向音乐领域的实体关系抽取方法及系统


[0001]本专利技术涉及文本实体关系抽取
,特别是涉及面向音乐领域的实体关系抽取方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着信息的爆炸式增长,人们很难从海量信息中找到真实需要的信息。搜索引擎正是在这种情况下应运而生。然而由于HTML形式的网页缺乏语义,难以被计算机所理解,因此在它们在搜索准确度方面有着明显的缺陷。此外,随着社会由信息化向知识型转变,计算机应用也离不开学科专业知识支撑,音乐知识领域也是如此。如何快速、准确地从网络上海量的音乐信息获得自己想要的内容是值得研究的。
[0004]音乐是用组织音构成的听觉意象,来表达人们的思想感情与社会现实生活的一种艺术形式。面向音乐领域的知识图谱被广泛用于音乐检索、个性化音乐推荐以及音乐领域的智能问答系统等等。目前,随着音乐产业的不断蓬勃发展,积累了大量的音乐文本数据,而这些数据中蕴含了规模庞大、结构复杂且语义关联丰富的音乐领域相关知识,怎样获取知识、组织知识本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.面向音乐领域的实体关系抽取方法,其特征是,包括:获取待处理文本;对待处理文本进行句子过滤,得到候选句子;所述候选句子中包括至少两个音乐命名实体;对候选句子,进行降噪处理;将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系;其中,所述训练后的实体关系抽取模型,是采用已标注实体关系的音乐文本进行训练得到的。2.如权利要求1所述的面向音乐领域的实体关系抽取方法,其特征是,对待处理文本进行句子过滤,得到候选句子,具体包括:对待处理文本进行分句、分词和词性标注处理;对获得的句子进行过滤,对于包含至少两个音乐命名实体的句子进行保留,剩余句子予以删除;对候选句子,进行降噪处理,具体包括:对候选句子,去除停用词、删除特殊符号以及空格。3.如权利要求1所述的面向音乐领域的实体关系抽取方法,其特征是,将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,实体关系抽取模型,包括:依次连接的词嵌入层、神经网络层、注意力机制层和输出层。4.如权利要求3所述的面向音乐领域的实体关系抽取方法,其特征是,将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,训练后的实体关系抽取模型,工作过程包括:将降噪处理后的候选句子输入到词嵌入层的BERT模型中,词嵌入层的BERT模型对输入的候选句子进行编码生成词向量;神经网络层的BiGRU模型对词向量进行处理,得到带有时序信息的文本表示;注意力机制层,通过键值对计算序列中文本表示与关系类别的相关性,得到注意力权重,采用注意力权重对带有时序信息的文本表示进行加权求和,得到句子级的文本表示;输出层,通过分类器对句子级的文本表示进行分类,输出最终的音乐实体关系类别。5.如权利要求1所述的面向音乐领域的实体关系抽取方法,其特征是,将降噪处理后的候选句子,输入到训练后的实体关系抽取模型中,输出候选句子中包含的音乐实体关系,其中,训练后的实体关系抽取模型,模型训练过程包括:构建数据集,将数据集按照设定比例划分为训练集和测试集;将训练集输入到时态关系抽取模型中,对模型进行训练,当模型的损失函数值不再下降时,或者训练迭代次数超过设定次数时,停止训练,得到初步训练后的实体关系抽取模型;再对初步训练后的实体关系抽取模型,采用测试集进行测试,如果测试的准确度超过设定阈值,则得到训练后的实体关系抽取模型,如果测试的准确度低于设定阈值,则更换训练集,对模型再次进行训练。6.如权利要求5所述的面向音乐领域的实体关系抽取方法,其特征是,所述构建数据集,具体包括:对语料进行分句、分词和词性标注处理;对获得的句子进行过滤,对于包含至少两个音乐命名实体的句子作为候选句子进行保留,剩余句子予以删除;对候选句子进行降噪处理;定义音乐实体的类型以及音乐实体关系的类别,为音乐实体关系类别生成标签索引编
号;形成音乐领域的数据集。7.如权利要求6所述的面向音乐领域的实体关系抽取方法,其特征是,定义音乐实体的类型以及音乐实体关系的类别,其中,所述音乐实体的类型,包括:人物、音乐、专辑、影视、机构、时间、游戏和别名;所述人物,包括:歌手、组合、乐队、作词家、作曲家、编曲家;所述音乐,是指中文歌曲;所述专辑,是指音乐专辑;所述影视,是指电影、电视剧和动漫;所...

【专利技术属性】
技术研发人员:闫伟王朝国张亮
申请(专利权)人:济南弦动微电子有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1