一种基于深度学习的歌曲文本命名实体识别方法技术

技术编号：21714508 阅读：52 留言：0更新日期：2019-07-27 19:14

本发明专利技术公开了一种基于深度学习的歌曲文本命名实体识别方法，利用Bi‑LSTM‑CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典，同时实现主动学习并对歌者词典进行自动更新，最后依据更新的词库反复训练模型提高其识别的准确率，将深度学习的方法应用到音乐领域，当输入一段文本时能够对文本中的歌者信息进行提取，同时采用了机器学习中自学习模式对提取的信息在词典中进行查找，实现动态地对词典进行更新，提出了一种训练准确率更高的模型。

A Named Entity Recognition Method for Song Text Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的歌曲文本命名实体识别方法
本专利技术属于计算机自然语言处理
，具体涉及一种基于歌曲歌者文本命名实体识别方法。
技术介绍
从计算机来到这个世界，语言已经不仅仅是人与人之间的工具，同时也是人与机器之间对话的基础。自然语言理解就是如何让计算机能够正确处理人类语言，并据此作出人们期待的各种正确响应。命名实体识别作为自然语言处理的一部分，它是正确理解文本的基础，其进行识别的主要任务就是识别出待处理文本中的人名、地名、机构名等专有名词。这就意味着有效的命名实体识别方法对于在海量数据中快速地理解文本中信息，高效、精确地获取并分析信息知识显得越来越重要。将命名实体识别应用到音乐领域就是对音乐领域中非结构化文本进行结构化处理的重要基础，通过其抽取的信息可以自动化分析歌者、歌曲等信息，从而构建音乐领域相关的搜索引擎和智能问答系统。目前关于对文本中的实体抽取方法目前主要存在三类分别是：基于规则和词典的方法、基于统计的方法、混合方法。面对着信息时代信息的不断扩充，命名实体识别技术将迎来自己的黄金期。
技术实现思路
本专利技术的目的是提供一种基于深度学习的歌曲文本命名实体识别方法，利用Bi-LSTM-CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典，同时实现主动学习并对歌者词典进行自动更新，最后依据更新的词库反复训练模型提高其识别的准确率。本专利技术所采用的技术方案是，一种深度学习的歌曲文本命名实体识别方法，具体操作步骤如下：步骤1，使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取，生成歌者词典并用MySQL进行存储；步骤2，获取歌者信息的相...

【技术保护点】
1.一种基于深度学习的歌曲文本命名实体识别方法，其特征在于，具体操作步骤如下：步骤1，使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取，生成歌者词典并用MySQL进行存储；步骤2，获取歌者信息的相关语料，并将其分为歌者训练集及歌者测试集，其中歌者训练集是用来训练生成歌者信息识别模型，歌者测试集用来更新歌者词典；步骤3，对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注；步骤4，使用Bi‑LSTM‑CRF算法对步骤3中带标注的歌者训练集进行训练，生成歌者信息识别模型，该模型可以实现对音乐领域中的歌者信息进行提取；步骤5，对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息，识别模型将实现对语料中的歌者信息进行提取；步骤6，对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合，实现对数据的融合，得到歌者信息识别的初步结果；步骤7，对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中；步骤8，获取步骤7中的文件1.txt，将文件中的歌者信息与歌者词典中的歌者信息进行比较，检测判断是否出现歌者词典中未记载的歌者信息，如果出现未记载的...

【技术特征摘要】
1.一种基于深度学习的歌曲文本命名实体识别方法，其特征在于，具体操作步骤如下：步骤1，使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取，生成歌者词典并用MySQL进行存储；步骤2，获取歌者信息的相关语料，并将其分为歌者训练集及歌者测试集，其中歌者训练集是用来训练生成歌者信息识别模型，歌者测试集用来更新歌者词典；步骤3，对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注；步骤4，使用Bi-LSTM-CRF算法对步骤3中带标注的歌者训练集进行训练，生成歌者信息识别模型，该模型可以实现对音乐领域中的歌者信息进行提取；步骤5，对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息，识别模型将实现对语料中的歌者信息进行提取；步骤6，对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合，实现对数据的融合，得到歌者信息识别的初步结果；步骤7，对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中；步骤8，获取步骤7中的文件1.txt，将文件中的歌者信息与歌者词典中的歌者信息进行比较，检测判断是否出现歌者词典中未记载的歌者信息，如果出现未记载的信息，则保存成为3.txt；若识别出的信息在歌者词典中存在，则保存成为2.txt；步骤9，对步骤8中3.txt文件中的未记载信息进行自动化检验判断，获取正确的歌者信息并将其存储到4.txt文件中；步骤10，对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合，形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt，并将其作为输出结果显示出来；步骤11，对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新；步骤12，定期重复步骤3、4，重新训练模型，提高歌者信息识别准确率。2.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法，其特征在于，步骤1中构建歌者词典采用树形结构对歌者信息进行保存，并采用hash编码对保存的树形节点进行映射形成信息索引，最后将带有索引的树形的歌者词典保存到数据库中。3.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法，其特征在于，步骤3中采用基于深度学习的方法建立歌者信息进行识别模型...

【专利技术属性】
技术研发人员：孟海宁，石月开，朱磊，王一川，黑新宏，姬文江，陈毅，姚燕妮，方潇颖，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人