基于深度神经网络的社交文本依存句法分析系统,涉及计算机信息处理技术领域,针对现有技术中社交文本数据稀疏的问题,包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;所述预处理模块用于对获得的社交文本进行过滤处理,以及初始化词向量的生成;所述基双线性注意力模块用于利用正规文本进行预训练;所述栈式双线性注意力模块用于对社交文本进行预测;所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型训练。
【技术实现步骤摘要】
基于深度神经网络的社交文本依存句法分析系统
本专利技术涉及计算机信息处理
,具体为一种基于深度神经网络的社交文本依存句法分析系统。
技术介绍
依存分析是自然语言处理中基础且重要的任务,许多应用都需要对于句子进行依存分析,以提供句法结果给相应的任务。通过计算机强大的计算能力,把句子的依存句法结构标识出来。依存句法树按照结构大体分为两类:投射(Project)和非投射(Non-project)依存句法结构;按照解码算法来分:基于图(Graph-based)和基于转换(Transition-based)的依存算法。深度神经网络部分克服了传统神经网络的梯度弥散和爆炸,在近几年得到了迅猛的发展,且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于1、它是一种非参数模型,与任务的规模无关,只要指定了参数可以学习任何规模数据的任务;2、不像传统依存分析方法需要独立抽取特征,把特征抽取和依存分析器的训练放到一起来做,这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点;3、相对于传统方法,有更高的性能,且在很多任务上都使用。很多研究机构和科研院所已经把目光放在深度学习模型上。与传统的依存算法不同,社交文本的依存分析存在这样一些问题:如训练语料少,会出现特殊的词和依存关系等。
技术实现思路
本专利技术的目的是:针对现有技术中社交文本数据稀疏的问题,提出一种基于深度神经网络的社交文本依存句法分析系统。本专利技术为了解决上述技术问题采取的技术方案是:基于深度神经网络的社交文本依存句法分析系统,包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;所述预处理模块用于对获得的社交文本进行过滤处理,以及初始化词向量的生成;所述基双线性注意力模块用于利用正规文本进行预训练;所述栈式双线性注意力模块用于对社交文本进行预测;所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型训练。进一步的,所述社交文本爬取模块执行如下步骤:首先利用基于Python的Scrapy编写网页爬虫,并配置Scrapy,设定爬取时间间隔和代理,之后定位网页的相关文本内容进行抽取。进一步的,所述预处理模块中过滤的具体步骤为:首先使用英文正规文本Gigaword训练语料,然后利用语言模型工具KenLM训练语言模型,最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤。进一步的,所述预处理模块中初始化词向量的生成的具体步骤为:首先使用Glove工具对分好词的正规文本和社交文本进行训练,生成正规文本的句子词向量{e1,e2,…,eL}和社交文本的句子词向量{e'1,e'2,…,e'L},其中L表示需要进行依存分析的句子长度。进一步的,所述基双线性注意力模块执行如下步骤:首先使用双向长短时记忆模块对句子进行建模,然后使用自注意力模块生成其他词对于当前词的依存关系,之后使用多层感知器模块对生成的词特征向量进行提纯,最后使用基双线性注意力模块生成正规文本词间依存关系的目标函数进行训练。进一步的,所述栈式双线性注意力模块执行如下步骤:首先把基模型中经过提纯后的词特征向量作为一个部分输出到与基模型结构相同的堆叠神经网络中,然后预测社交文本的依存关系。进一步的,所述联合解码和训练模块执行如下步骤:首先把基双线性注意力模块和栈式双线性注意力模块进行联合,形成整个深度依存分析网络,然后利用束搜索算法进行解码,之后通过梯度的反向传播对模型进行训练,不断迭代直到收敛为止,最后利用GPU加速并行训练。本专利技术的有益效果是:本专利技术使用堆叠的神经网络结构,在基神经网络中使用正规文本进行预训练,以克服了社交文本数据稀疏的问题;使用全局目标函数进行训练和解码,更好的考虑到全局信息;在原来的双向LSTM的基础上增加了自注意力机制更好的对于词间的关系进行建模;计算堆叠后的神经网络时使用了基层和堆叠后的头和尾词特征向量更好的平衡两层学习结果。附图说明图1为本专利技术的系统框图;图2为正规文本上的基双线性注意力模块的结构示意图;图3为栈式双线性注意力模块的结构示意图;图4为社交文本句法分析树示例图。具体实施方式具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于深度神经网络的社交文本依存句法分析系统,包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;所述预处理模块用于对获得的社交文本进行过滤处理,以及初始化词向量的生成;所述基双线性注意力模块用于利用正规文本进行预训练;所述栈式双线性注意力模块用于对社交文本进行预测;所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型训练。A、社交文本爬取步骤:对于Twitter网站上的网页进行下载获得网页源代码,使用抽取算法抽取其中的文本,作为本专利技术的进一步说明,所述的步骤A包含以下步骤:A1、网页获取步骤:使用基于Python的Scrapy编写网页爬虫,其中涉及到设置爬虫,爬取主模块,存储数据;A2、文本提取步骤:使用基于Python的Goose提取网页中的相关内容;B、预处理步骤:使用过滤算法进行过滤,对于过滤好的文本进行分词,使用词向量训练工具生成初始化的词向量,作为本专利技术的进一步说明,所述的步骤B包含以下步骤:B1、文本过滤步骤:使用语言模型工具对于社交文本进行过滤;B2、分词和训练词向量步骤:对于选好的文本进行分词并训练初始词向量;C、基双线性注意力步骤:使用双向长短时记忆(LSTM)模块对于序列建模,使用自注意力(Self-attention)模块生成其他词对于当前词的影响,使用多层感知器模块对生成的词特征向量进行提纯,最后使用双线性注意力(Bi-linearattention)生成正规文本词间的依存关系的目标函数进行训练,基双线性注意力模块如图2所示,作为本专利技术的进一步说明,所述的步骤C包含以下步骤:C1、双向长短时记忆步骤:在每个与词相关的单元中,记忆或忘记当前词或是历史的信息,可以对于长期和短期记忆进行处理;C2、自注意力步骤:使用自注意机制对于词间的软对齐进行建模,弥补了双向长短时记忆只考虑语境信息的影响,更好的刻画词间关系;C3、多层感知器步骤:通过多层非线性变换生成当前词作为头和尾的依存向量,反应了当前词作为头和尾的特征描述;C4、双线性注意力步骤:通过双线性注意力机本文档来自技高网...
【技术保护点】
1.基于深度神经网络的社交文本依存句法分析系统,其特征在于包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;/n所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;/n所述预处理模块用于对爬取的社交文本进行过滤,以及初始化词向量的生成;/n所述基双线性注意力模块用于利用正规文本进行预训练;/n所述栈式双线性注意力模块用于对社交文本进行预测;/n所述联合解码和训练模块用于对基双线性注意力模块和栈式双线性注意力模块进行联合解码训练,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型解码训练。/n
【技术特征摘要】
1.基于深度神经网络的社交文本依存句法分析系统,其特征在于包括:社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块;
所述社交文本爬取模块用于从社交媒体网站上爬取社交文本;
所述预处理模块用于对爬取的社交文本进行过滤,以及初始化词向量的生成;
所述基双线性注意力模块用于利用正规文本进行预训练;
所述栈式双线性注意力模块用于对社交文本进行预测;
所述联合解码和训练模块用于对基双线性注意力模块和栈式双线性注意力模块进行联合解码训练,并进行反向传播梯度调节参数,拟合训练函数,最后利用GPU并行计算加速模型解码训练。
2.根据权利要求1所述的基于深度神经网络的社交文本依存句法分析系统,其特征在于所述社交文本爬取模块执行如下步骤:
首先利用基于Python的Scrapy编写网页爬虫,并配置Scrapy,设定爬取时间间隔和代理,之后定位网页的相关文本内容进行抽取。
3.根据权利要求2所述的基于深度神经网络的社交文本依存句法分析系统,其特征在于所述预处理模块中过滤的具体步骤为:
首先使用英文正规文本Gigaword训练语料,然后利用语言模型工具KenLM训练语言模型,最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤。
4.根据权利要求2所述的基于深度神经网络的社交文本依存句法分...
【专利技术属性】
技术研发人员:刘宇鹏,张晓晨,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。