一种基于深度学习的歌曲文本命名实体识别方法技术

技术编号:21714508 阅读:52 留言:0更新日期:2019-07-27 19:14
本发明专利技术公开了一种基于深度学习的歌曲文本命名实体识别方法,利用Bi‑LSTM‑CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典,同时实现主动学习并对歌者词典进行自动更新,最后依据更新的词库反复训练模型提高其识别的准确率,将深度学习的方法应用到音乐领域,当输入一段文本时能够对文本中的歌者信息进行提取,同时采用了机器学习中自学习模式对提取的信息在词典中进行查找,实现动态地对词典进行更新,提出了一种训练准确率更高的模型。

A Named Entity Recognition Method for Song Text Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的歌曲文本命名实体识别方法
本专利技术属于计算机自然语言处理
,具体涉及一种基于歌曲歌者文本命名实体识别方法。
技术介绍
从计算机来到这个世界,语言已经不仅仅是人与人之间的工具,同时也是人与机器之间对话的基础。自然语言理解就是如何让计算机能够正确处理人类语言,并据此作出人们期待的各种正确响应。命名实体识别作为自然语言处理的一部分,它是正确理解文本的基础,其进行识别的主要任务就是识别出待处理文本中的人名、地名、机构名等专有名词。这就意味着有效的命名实体识别方法对于在海量数据中快速地理解文本中信息,高效、精确地获取并分析信息知识显得越来越重要。将命名实体识别应用到音乐领域就是对音乐领域中非结构化文本进行结构化处理的重要基础,通过其抽取的信息可以自动化分析歌者、歌曲等信息,从而构建音乐领域相关的搜索引擎和智能问答系统。目前关于对文本中的实体抽取方法目前主要存在三类分别是:基于规则和词典的方法、基于统计的方法、混合方法。面对着信息时代信息的不断扩充,命名实体识别技术将迎来自己的黄金期。
技术实现思路
本专利技术的目的是提供一种基于深度学习的歌曲文本命名实体识别方法,利用Bi-LSTM-CRF算法训练模型对输入的语料进行歌者信息的提取、生成歌者词典,同时实现主动学习并对歌者词典进行自动更新,最后依据更新的词库反复训练模型提高其识别的准确率。本专利技术所采用的技术方案是,一种深度学习的歌曲文本命名实体识别方法,具体操作步骤如下:步骤1,使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取,生成歌者词典并用MySQL进行存储;步骤2,获取歌者信息的相关语料,并将其分为歌者训练集及歌者测试集,其中歌者训练集是用来训练生成歌者信息识别模型,歌者测试集用来更新歌者词典;步骤3,对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注;步骤4,使用Bi-LSTM-CRF算法对步骤3中带标注的歌者训练集进行训练,生成歌者信息识别模型,该模型可以实现对音乐领域中的歌者信息进行提取;步骤5,对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息,识别模型将实现对语料中的歌者信息进行提取;步骤6,对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合,实现对数据的融合,得到歌者信息识别的初步结果;步骤7,对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中;步骤8,获取步骤7中的文件1.txt,将文件中的歌者信息与歌者词典中的歌者信息进行比较,检测判断是否出现歌者词典中未记载的歌者信息,如果出现未记载的信息,则保存成为3.txt;若识别出的信息在歌者词典中存在,则保存成为2.txt;步骤9,对步骤8中3.txt文件中的未记载信息进行自动化检验判断,获取正确的歌者信息并将其存储到4.txt文件中;步骤10,对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合,形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt,并将其作为输出结果显示出来;步骤11,对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新;步骤12,定期重复步骤3、4,重新训练模型,提高歌者信息识别准确率。本专利技术的特点还在于,步骤1中构建歌者词典采用树形结构对歌者信息进行保存,并采用hash编码对保存的树形节点进行映射形成信息索引,最后将带有索引的树形的歌者词典保存到数据库中。步骤3中采用基于深度学习的方法建立歌者信息识别模型,具体步骤如下:步骤3.1,对步骤2中歌者训练集中的语料以句号进行划分;步骤3.2,从歌者词典中查找歌者信息,对步骤3.1的每一句语料中的歌手姓名、歌曲、专辑等歌者信息进行提取;步骤3.3,对步骤3.2中提取的歌者信息进行特征化标注,其余非歌者信息标注为“O”;步骤3.4,将训练集中对文本标注的信息进行存储并形成一个新的文本1.txt;步骤3.5,使用深度学习中的Bi-LSTM-CRF算法,导入步骤3.4中标注好的文本1.txt进行模型训练;步骤3.6,生成能够在音乐领域中对歌者信息进行识别的模型。步骤8中能够对歌者信息是否存在于歌者词典中进行主动分类,具体步骤如下:步骤8.1,将步骤7中的文本1.txt中的每一项信息歌者信息通过hash映射在本地歌者词典库中进行查找;步骤8.2,根据步骤8.1中信息的查找结果进行分类,若在歌者词典中存在相关信息则将其保存到文本2.txt中;若在词典中不存在则将其保存到文本3.txt中。步骤9中对未记载的歌者信息进行自动化检验判断的具体步骤如下:步骤9.1:编写爬虫文件,对爬虫文件进行相关配置,使其定向到百度百科界面;步骤9.2:将含有未记载歌者信息的文件3.txt中的内容依据识别模型识别后产生的识别符号为间隔依次输入到爬虫文件中;步骤9.3:启动爬虫文件,抓取每一项未记载信息产生的新的网页;步骤9.4:对步骤9.3中抓取的网页进行内容识别,若内容中出现音乐领域的相关的触发词,我们便认为这一项未记载信息是正确的歌者信息,否则便将其视为无关信息进行丢弃;步骤9.5:将步骤9.4中通过内容识别后属于歌者信息的未记载信息存储到文件4.txt中。步骤11中使用DICDIFF算法对歌者词典进行动态更新具体步骤如下:步骤11.1,执行hash算法对歌者信息文本4.txt中的每一个歌者的姓名建立索引,执行DICDIFF算法对每一个歌者的相关信息建立增量包;步骤11.2,将步骤10.1中形成索引和与之对应的增量包添加到歌者词典中实现歌者词典的动态更新。本专利技术的有益效果是:本专利技术的一种深度学习的歌曲文本命名实体识别方法,根据网络中歌者信息构建歌者词典,通过词典对语料中歌者信息的标注,使用深度学习Bi-LSTM-CRF算法建立对歌者信息提取模型。当新语料输入,该方法将识别出语料中的歌者信息,同时对词典库中不存在的歌者进行更新,最后依据更新后的歌者词典重新训练准确率更高的模型。附图说明图1为本专利技术一种基于深度学习的歌曲文本命名实体识别方法的总流程图;图2为本专利技术深度学习算法Bi-LSTM-CRF建立歌者信息识别的模型流程图;图3为本专利技术步骤8系统信息自动分类的流程图;图4为本专利技术词库自动更新的流程图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术的目的是提供一种基于深度学习的歌曲文本命名实体识别方法,具体流程如图1所示,利用Bi-LSTM-CRF算法训练模型对输入的语料进行歌者信息的提取,同时实现主动学习对歌者词典进行自动更新,包括以下步骤:步骤1,使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取,生成歌者词典并用MySQL进行存储;步骤2,获取歌者信息的相关语料,并将其分为歌者训练集及歌者测试集,其中歌者训练集是用来训练生成歌者信息识别模型(如图2所示),歌者测试集可以用来更新歌者词典;步骤3,对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注;例如有这样一句语料:“我喜欢听周杰伦的菊花台。”,进行基于匹配的词性标注为:我O喜O欢O听O周B-SINGER杰I-SINGER伦I-SINGER的O菊B-SONG花I-SONG台I-本文档来自技高网...

【技术保护点】
1.一种基于深度学习的歌曲文本命名实体识别方法,其特征在于,具体操作步骤如下:步骤1,使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取,生成歌者词典并用MySQL进行存储;步骤2,获取歌者信息的相关语料,并将其分为歌者训练集及歌者测试集,其中歌者训练集是用来训练生成歌者信息识别模型,歌者测试集用来更新歌者词典;步骤3,对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注;步骤4,使用Bi‑LSTM‑CRF算法对步骤3中带标注的歌者训练集进行训练,生成歌者信息识别模型,该模型可以实现对音乐领域中的歌者信息进行提取;步骤5,对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息,识别模型将实现对语料中的歌者信息进行提取;步骤6,对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合,实现对数据的融合,得到歌者信息识别的初步结果;步骤7,对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中;步骤8,获取步骤7中的文件1.txt,将文件中的歌者信息与歌者词典中的歌者信息进行比较,检测判断是否出现歌者词典中未记载的歌者信息,如果出现未记载的信息,则保存成为3.txt;若识别出的信息在歌者词典中存在,则保存成为2.txt;步骤9,对步骤8中3.txt文件中的未记载信息进行自动化检验判断,获取正确的歌者信息并将其存储到4.txt文件中;步骤10,对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合,形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt,并将其作为输出结果显示出来;步骤11,对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新;步骤12,定期重复步骤3、4,重新训练模型,提高歌者信息识别准确率。...

【技术特征摘要】
1.一种基于深度学习的歌曲文本命名实体识别方法,其特征在于,具体操作步骤如下:步骤1,使用爬虫框架Scrapy对音乐领域中的歌者信息进行提取,生成歌者词典并用MySQL进行存储;步骤2,获取歌者信息的相关语料,并将其分为歌者训练集及歌者测试集,其中歌者训练集是用来训练生成歌者信息识别模型,歌者测试集用来更新歌者词典;步骤3,对步骤2中歌者训练集中的歌者信息依据现有的歌者词典进行基于匹配的词性标注;步骤4,使用Bi-LSTM-CRF算法对步骤3中带标注的歌者训练集进行训练,生成歌者信息识别模型,该模型可以实现对音乐领域中的歌者信息进行提取;步骤5,对步骤4中生成的歌者信息识别模型输入关于测试集或音乐领域中的语料信息,识别模型将实现对语料中的歌者信息进行提取;步骤6,对步骤5中识别模型提取的歌手、歌曲、专辑等信息按序分类整合,实现对数据的融合,得到歌者信息识别的初步结果;步骤7,对步骤6中得到的歌者信息识别的初步结果信息保存到文件1.txt中;步骤8,获取步骤7中的文件1.txt,将文件中的歌者信息与歌者词典中的歌者信息进行比较,检测判断是否出现歌者词典中未记载的歌者信息,如果出现未记载的信息,则保存成为3.txt;若识别出的信息在歌者词典中存在,则保存成为2.txt;步骤9,对步骤8中3.txt文件中的未记载信息进行自动化检验判断,获取正确的歌者信息并将其存储到4.txt文件中;步骤10,对步骤8中识别出的且歌者词典中存在的信息2.txt与步骤9中歌者词典中不存在但是正确的歌者信息4.txt进行数据的融合,形成在步骤5输入语料中含有歌者相关信息的文本文件5.txt,并将其作为输出结果显示出来;步骤11,对步骤9中4.txt文件中的歌者信息使用DICDIFF算法对歌者词典进行更新;步骤12,定期重复步骤3、4,重新训练模型,提高歌者信息识别准确率。2.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法,其特征在于,步骤1中构建歌者词典采用树形结构对歌者信息进行保存,并采用hash编码对保存的树形节点进行映射形成信息索引,最后将带有索引的树形的歌者词典保存到数据库中。3.根据权利要求1所述的基于一种深度学习的歌曲文本命名实体识别方法,其特征在于,步骤3中采用基于深度学习的方法建立歌者信息进行识别模型...

【专利技术属性】
技术研发人员:孟海宁石月开朱磊王一川黑新宏姬文江陈毅姚燕妮方潇颖
申请(专利权)人:西安理工大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1