基于神经网络的发音特征融合方法技术

技术编号：21914235 阅读：49 留言：0更新日期：2019-08-21 12:30

本发明专利技术揭示了一种基于神经网络的发音特征融合方法，包括如下步骤，S1、数据集采集步骤，获取文本数据；S2、数据预处理步骤，对文本数据进行预处理，去除文本数据中包含的噪声，随后将文本数据转换为音标或拼音文本；S3、文本向量化步骤，训练文本数据的文本词向量和发音向量，并将文本数据和对应的音标或拼音文本转换为向量化数据；S4、神经网络训练与融合步骤，将向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息，最后将学习到的文本词性特征信息和发音特征信息进行融合。本发明专利技术通过使用文本的发音特征并将其与文本词性特征相融合的方式，丰富了文本的表示，提高了自然语言处理任务的结果。

Articulation feature fusion method based on Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络的发音特征融合方法
本专利技术涉及一种特征融合方法，具体涉及一种基于神经网络的发音特征融合方法，属于自然语言处理领域。
技术介绍
随着互联网的蓬勃发展，尤其是近几年来，大量诸如微博、微信、电商的社交媒体的出现，互联网飞速地迈进了Web2.0时代，其自身也已经从“阅读式互联网”转变成了“交互式互联网”。网民们对互联网的认知已不仅仅是将其视为获取信息的渠道，更是将其作为传播信息、分享自己观点与情感的平台。每天，数以亿计的网民都会发布并传播指数级的信息，在这些海量的信息中，绝大多数都表达了发布者自身的观点以及喜好。在如今这个大数据的时代，这些观点无疑都是极其宝贵的财富，其中包含着不同的人对不同社会领域以及现象的主观性看法。基于此，无论是商家还是社会组织又或是个人都越来越重视网络上的文本信息，通过用户的评论来进行分析已经成为了自然语言处理领域一个极为重要的发展方向。在目前大多数的文本分析模型中，模型的输入仅仅是词语的语义表达，它们忽视了文本中包含的大量信息，无法准确地表示原始文本，因此仅仅使用单一特征进行自然语言处理的效果并不理想。而在语言中，发音往往也包含了文本的情感信息。因此，如果能够将发音特征进行收集处理，形成内容丰富的深层语义特征，那么必将提高自然语言处理的效果。综上所述，如何在现有技术的基础上提出一种发音特征的融合方法，从而充分地利用文本信息，也就成为了本领域内技术人员共同的研究目标。
技术实现思路
鉴于现有技术存在上述缺陷，本专利技术的目的是提出一种基于神经网络的发音特征融合方法，包括如下步骤：S1、数据集采集步骤，获取文本数据；S2、数据预处...

【技术保护点】
1.一种基于神经网络的发音特征融合方法，其特征在于，包括如下步骤：S1、数据集采集步骤，获取文本数据；S2、数据预处理步骤，对所采集的文本数据进行预处理，去除文本数据中包含的噪声，随后将所得到的文本数据转换为音标文本或拼音文本；S3、文本向量化步骤，训练文本数据的文本词向量和发音向量，并将前序步骤中所得到的文本数据和对应的音标文本或拼音文本转换为向量化数据；S4、神经网络训练与融合步骤，将前序步骤中得到的向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息，最后将学习到的文本词性特征信息和发音特征信息进行融合。

【技术特征摘要】
1.一种基于神经网络的发音特征融合方法，其特征在于，包括如下步骤：S1、数据集采集步骤，获取文本数据；S2、数据预处理步骤，对所采集的文本数据进行预处理，去除文本数据中包含的噪声，随后将所得到的文本数据转换为音标文本或拼音文本；S3、文本向量化步骤，训练文本数据的文本词向量和发音向量，并将前序步骤中所得到的文本数据和对应的音标文本或拼音文本转换为向量化数据；S4、神经网络训练与融合步骤，将前序步骤中得到的向量化数据输入到两个神经网络中进行训练、分别学习文本的序列信息，最后将学习到的文本词性特征信息和发音特征信息进行融合。2.根据权利要求1所述的基于神经网络的发音特征融合方法，其特征在于，S1所述数据集采集步骤，具体包括：下载公有数据集或使用爬虫爬取网络文本，以所下载或所爬取的数据为基础形成多个数据集，并汇总全部数据集，形成文本数据。3.根据权利要求2所述的基于神经网络的发音特征融合方法，其特征在于，S2所述数据预处理步骤，具体包括：S21、从文本数据中选取待处理数据集、并执行后序步骤；S22、判断待处理数据集中的文本数据为中文文本还是英文文本，若为中文文本，则执行S23，若为英文数据，则跳转执行S26；S23、对待处理数据集内的中文文本进行噪声去除处理，所述噪声去除处理包括格式标准化、去除特殊符号及标点符号；S24、对已完成噪声去除处理的中文文本进行分词和去停用词处理；S25、对已完成分词和去停用词处理的中文文本进行拼音标注，得到原始文本数据的拼音文本；S26、对待处理数据集内的英文文本进行噪声去除处理，所述噪声去除处理包括格式标准化、去除特殊符号及标点符号；S27、对已完成噪声去除处理的英文文本进行词性还原处理；S28、对已完成词性还原处理的英文文本进行音标标注，得到原始文本数据的音标文本。4.根据权利要求3所述的基于神经网络的发音特征融合方法，其特征在于：在进行S24中所述分词处理时，分词工具为结巴分词、SnowNLP或TH...

【专利技术属性】
技术研发人员：李华康，王磊，孔令军，孙国梓，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人