基于神经网络的发音特征融合方法技术

技术编号:21914235 阅读:49 留言:0更新日期:2019-08-21 12:30
本发明专利技术揭示了一种基于神经网络的发音特征融合方法,包括如下步骤,S1、数据集采集步骤,获取文本数据;S2、数据预处理步骤,对文本数据进行预处理,去除文本数据中包含的噪声,随后将文本数据转换为音标或拼音文本;S3、文本向量化步骤,训练文本数据的文本词向量和发音向量,并将文本数据和对应的音标或拼音文本转换为向量化数据;S4、神经网络训练与融合步骤,将向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息,最后将学习到的文本词性特征信息和发音特征信息进行融合。本发明专利技术通过使用文本的发音特征并将其与文本词性特征相融合的方式,丰富了文本的表示,提高了自然语言处理任务的结果。

Articulation feature fusion method based on Neural Network

【技术实现步骤摘要】
基于神经网络的发音特征融合方法
本专利技术涉及一种特征融合方法,具体涉及一种基于神经网络的发音特征融合方法,属于自然语言处理领域。
技术介绍
随着互联网的蓬勃发展,尤其是近几年来,大量诸如微博、微信、电商的社交媒体的出现,互联网飞速地迈进了Web2.0时代,其自身也已经从“阅读式互联网”转变成了“交互式互联网”。网民们对互联网的认知已不仅仅是将其视为获取信息的渠道,更是将其作为传播信息、分享自己观点与情感的平台。每天,数以亿计的网民都会发布并传播指数级的信息,在这些海量的信息中,绝大多数都表达了发布者自身的观点以及喜好。在如今这个大数据的时代,这些观点无疑都是极其宝贵的财富,其中包含着不同的人对不同社会领域以及现象的主观性看法。基于此,无论是商家还是社会组织又或是个人都越来越重视网络上的文本信息,通过用户的评论来进行分析已经成为了自然语言处理领域一个极为重要的发展方向。在目前大多数的文本分析模型中,模型的输入仅仅是词语的语义表达,它们忽视了文本中包含的大量信息,无法准确地表示原始文本,因此仅仅使用单一特征进行自然语言处理的效果并不理想。而在语言中,发音往往也包含了文本的情感信息。因此,如果能够将发音特征进行收集处理,形成内容丰富的深层语义特征,那么必将提高自然语言处理的效果。综上所述,如何在现有技术的基础上提出一种发音特征的融合方法,从而充分地利用文本信息,也就成为了本领域内技术人员共同的研究目标。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种基于神经网络的发音特征融合方法,包括如下步骤:S1、数据集采集步骤,获取文本数据;S2、数据预处理步骤,对所采集的文本数据进行预处理,去除文本数据中包含的噪声,随后将所得到的文本数据转换为音标文本或拼音文本;S3、文本向量化步骤,训练文本数据的文本词向量和发音向量,并将前序步骤中所得到的文本数据和对应的音标文本或拼音文本转换为向量化数据;S4、神经网络训练与融合步骤,将前序步骤中得到的向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息,最后将学习到的文本词性特征信息和发音特征信息进行融合。优选地,S1所述数据集采集步骤,具体包括:下载公有数据集或使用爬虫爬取网络文本,以所下载或所爬取的数据为基础形成多个数据集,并汇总全部数据集,形成文本数据。优选地,S2所述数据预处理步骤,具体包括:S21、从文本数据中选取待处理数据集、并执行后序步骤;S22、判断待处理数据集中的文本数据为中文文本还是英文文本,若为中文文本,则执行S23,若为英文数据,则跳转执行S26;S23、对待处理数据集内的中文文本进行噪声去除处理,所述噪声去除处理包括格式标准化、去除特殊符号及标点符号;S24、对已完成噪声去除处理的中文文本进行分词和去停用词处理;S25、对已完成分词和去停用词处理的中文文本进行拼音标注,得到原始文本数据的拼音文本;S26、对待处理数据集内的英文文本进行噪声去除处理,所述噪声去除处理包括格式标准化、去除特殊符号及标点符号;S27、对已完成噪声去除处理的英文文本进行词性还原处理;S28、对已完成词性还原处理的英文文本进行音标标注,得到原始文本数据的音标文本。优选地,在进行S24中所述分词处理时,分词工具为结巴分词、SnowNLP或THULAC;在进行S24中所述去停用词处理时,停用词表为哈工大停用词表、百度停用词表或四川大学机器智能实验室停用词库。优选地,在进行S28中所述音标标注时,使用英文字典进行匹配法标注或使用爬虫利用网络英文词典进行标注。优选地,S3所述文本向量化步骤,具体包括:S31、选择经过预处理后的文本数据;S32、训练文本词向量和发音向量;S33、利用S32中得到的文本词向量和发音向量,将S31中所选择的经过预处理后的文本数据和对应的音标文本或拼音文本转换为矩阵形式的数据,所述矩阵形式的数据包括文本词向量矩阵和发音向量矩阵。优选地,S32中所述文本词向量为网络上共有的文本词向量资源,或使用下载的大规模语料集配合实验数据集、利用Word2Vec或GloVe训练所得的文本词向量;S32中所述发音向量使用Word2Vec或GloVe进行训练;所述文本词向量与所述发音向量二者的维度相同。优选地,S4所述神经网络训练与融合步骤,具体包括:S41、读取文本数据的文本词向量矩阵,并将读取到的文本词向量矩阵输入到神经网络中进行训练;S42、读取文本数据的发音向量矩阵,并将读取到的发音向量矩阵输入到神经网络中进行训练;S43、对S41及S42中经过两个神经网络训练得到的文本词性特征信息和发音特征信息进行融合处理。优选地,S41及S42中所使用的神经网络为RNN、CNN、LSTM或Bi-LSTM;S41及S42中所使用的神经网络二者的参数相同。优选地,S43中所述融合处理,融合方式为拼接、相加或者平均融合。与现有技术相比,本专利技术的优点主要体现在以下几个方面:本专利技术的基于神经网络的发音特征融合方法,通过使用文本的发音特征并将其与文本词性特征相融合的方式,丰富了文本的表示,提高了包括文本分类和自然语言分析在内的多种自然语言处理任务的结果。同时,本专利技术也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于自然语言处理方面的其他相关技术方案中,具有十分广阔的应用前景。以下便结合实施例附图,对本专利技术的具体实施方式作进一步的详述,以使本专利技术技术方案更易于理解、掌握。附图说明图1为本专利技术方法的整体流程示意图;图2为本专利技术中数据预处理步骤的流程示意图;图3为本专利技术中文本向量化步骤的流程示意图;图4为本专利技术中神经网络训练与融合步骤的流程示意图。具体实施方式本专利技术针对目前大多数文本分析模型中输入仅仅使用词性特征的,忽略了文本中包含的其他信息这一问题,提出了一种基于神经网络的发音特征融合方法,本专利技术在使用语义词向量的同时加入了发音特征并用向量来表示,充分利用了文本的信息,形成了融合有文本词向量和发音向量的深层语义特征。以下便结合附图对本专利技术的方法进行说明。如图1所示,一种基于神经网络的发音特征融合方法,包括如下步骤:S1、数据集采集步骤,获取文本数据。S2、数据预处理步骤,对所采集的文本数据进行预处理,去除文本数据中包含的噪声,随后将所得到的文本数据转换为音标文本或拼音文本。S3、文本向量化步骤,训练文本数据的文本词向量和发音向量,并将前序步骤中所得到的文本数据和对应的音标文本或拼音文本转换为向量化数据。S4、神经网络训练与融合步骤,将前序步骤中得到的向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息,最后将学习到的文本词性特征信息和发音特征信息进行融合。S1所述数据集采集步骤,具体包括:下载公有数据集或使用爬虫爬取网络文本,以所下载或所爬取的数据为基础形成多个数据集,并汇总全部数据集,形成文本数据。如图2所示,S2所述数据预处理步骤,具体包括:S21、从文本数据中选取待处理数据集、并执行后序步骤。S22、判断待处理数据集中的文本数据为中文文本还是英文文本,若为中文文本,则执行S23;若为英文数据,则跳转执行S26。S23、对待处理数据集内的中文文本进行噪声去除处理,所述噪声去除处理包括格式标准化、去除特殊符号及标点符号等。S24、对已本文档来自技高网...

【技术保护点】
1.一种基于神经网络的发音特征融合方法,其特征在于,包括如下步骤:S1、数据集采集步骤,获取文本数据;S2、数据预处理步骤,对所采集的文本数据进行预处理,去除文本数据中包含的噪声,随后将所得到的文本数据转换为音标文本或拼音文本;S3、文本向量化步骤,训练文本数据的文本词向量和发音向量,并将前序步骤中所得到的文本数据和对应的音标文本或拼音文本转换为向量化数据;S4、神经网络训练与融合步骤,将前序步骤中得到的向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息,最后将学习到的文本词性特征信息和发音特征信息进行融合。

【技术特征摘要】
1.一种基于神经网络的发音特征融合方法,其特征在于,包括如下步骤:S1、数据集采集步骤,获取文本数据;S2、数据预处理步骤,对所采集的文本数据进行预处理,去除文本数据中包含的噪声,随后将所得到的文本数据转换为音标文本或拼音文本;S3、文本向量化步骤,训练文本数据的文本词向量和发音向量,并将前序步骤中所得到的文本数据和对应的音标文本或拼音文本转换为向量化数据;S4、神经网络训练与融合步骤,将前序步骤中得到的向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息,最后将学习到的文本词性特征信息和发音特征信息进行融合。2.根据权利要求1所述的基于神经网络的发音特征融合方法,其特征在于,S1所述数据集采集步骤,具体包括:下载公有数据集或使用爬虫爬取网络文本,以所下载或所爬取的数据为基础形成多个数据集,并汇总全部数据集,形成文本数据。3.根据权利要求2所述的基于神经网络的发音特征融合方法,其特征在于,S2所述数据预处理步骤,具体包括:S21、从文本数据中选取待处理数据集、并执行后序步骤;S22、判断待处理数据集中的文本数据为中文文本还是英文文本,若为中文文本,则执行S23,若为英文数据,则跳转执行S26;S23、对待处理数据集内的中文文本进行噪声去除处理,所述噪声去除处理包括格式标准化、去除特殊符号及标点符号;S24、对已完成噪声去除处理的中文文本进行分词和去停用词处理;S25、对已完成分词和去停用词处理的中文文本进行拼音标注,得到原始文本数据的拼音文本;S26、对待处理数据集内的英文文本进行噪声去除处理,所述噪声去除处理包括格式标准化、去除特殊符号及标点符号;S27、对已完成噪声去除处理的英文文本进行词性还原处理;S28、对已完成词性还原处理的英文文本进行音标标注,得到原始文本数据的音标文本。4.根据权利要求3所述的基于神经网络的发音特征融合方法,其特征在于:在进行S24中所述分词处理时,分词工具为结巴分词、SnowNLP或TH...

【专利技术属性】
技术研发人员:李华康王磊孔令军孙国梓
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1