基于深度神经网络的社交文本依存句法分析系统技术方案

技术编号：24889415 阅读：21 留言：0更新日期：2020-07-14 18:16

基于深度神经网络的社交文本依存句法分析系统，涉及计算机信息处理技术领域，针对现有技术中社交文本数据稀疏的问题，包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；所述社交文本爬取模块用于从社交媒体网站上爬取社交文本；所述预处理模块用于对获得的社交文本进行过滤处理，以及初始化词向量的生成；所述基双线性注意力模块用于利用正规文本进行预训练；所述栈式双线性注意力模块用于对社交文本进行预测；所述联合解码和训练模块用于对栈式双线性注意力模块进行计算经验风险函数，并进行反向传播梯度调节参数，拟合训练函数，最后利用GPU并行计算加速模型训练。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的社交文本依存句法分析系统
本专利技术涉及计算机信息处理
，具体为一种基于深度神经网络的社交文本依存句法分析系统。
技术介绍
依存分析是自然语言处理中基础且重要的任务，许多应用都需要对于句子进行依存分析，以提供句法结果给相应的任务。通过计算机强大的计算能力，把句子的依存句法结构标识出来。依存句法树按照结构大体分为两类：投射(Project)和非投射(Non-project)依存句法结构；按照解码算法来分：基于图(Graph-based)和基于转换(Transition-based)的依存算法。深度神经网络部分克服了传统神经网络的梯度弥散和爆炸，在近几年得到了迅猛的发展，且在自然语言各个应用领域都取得了很大进步。深度神经翻译方法的好处在于1、它是一种非参数模型，与任务的规模无关，只要指定了参数可以学习任何规模数据的任务；2、不像传统依存分析方法需要独立抽取特征，把特征抽取和依存分析器的训练放到一起来做，这种联合(Joint)模型的方法克服了传统管道(Pipeline)模型的错误传播缺点；3、相对于传统方法，有更高的性能，且在很多任务上都使用。很多研究机构和科研院所已经把目光放在深度学习模型上。与传统的依存算法不同，社交文本的依存分析存在这样一些问题：如训练语料少，会出现特殊的词和依存关系等。
技术实现思路
本专利技术的目的是：针对现有技术中社交文本数据稀疏的问题，提出一种基于深度神经网络的社交文本依存句法分析系统。本专利技术为了解决上述技术问题采取的技术方案是：...

【技术保护点】
1.基于深度神经网络的社交文本依存句法分析系统，其特征在于包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；/n所述社交文本爬取模块用于从社交媒体网站上爬取社交文本；/n所述预处理模块用于对爬取的社交文本进行过滤，以及初始化词向量的生成；/n所述基双线性注意力模块用于利用正规文本进行预训练；/n所述栈式双线性注意力模块用于对社交文本进行预测；/n所述联合解码和训练模块用于对基双线性注意力模块和栈式双线性注意力模块进行联合解码训练，并进行反向传播梯度调节参数，拟合训练函数，最后利用GPU并行计算加速模型解码训练。/n

【技术特征摘要】
1.基于深度神经网络的社交文本依存句法分析系统，其特征在于包括：社交文本爬取模块、预处理模块、基双线性注意力模块、栈式双线性注意力模块和联合解码和训练模块；
所述社交文本爬取模块用于从社交媒体网站上爬取社交文本；
所述预处理模块用于对爬取的社交文本进行过滤，以及初始化词向量的生成；
所述基双线性注意力模块用于利用正规文本进行预训练；
所述栈式双线性注意力模块用于对社交文本进行预测；
所述联合解码和训练模块用于对基双线性注意力模块和栈式双线性注意力模块进行联合解码训练，并进行反向传播梯度调节参数，拟合训练函数，最后利用GPU并行计算加速模型解码训练。

2.根据权利要求1所述的基于深度神经网络的社交文本依存句法分析系统，其特征在于所述社交文本爬取模块执行如下步骤：
首先利用基于Python的Scrapy编写网页爬虫，并配置Scrapy，设定爬取时间间隔和代理，之后定位网页的相关文本内容进行抽取。

3.根据权利要求2所述的基于深度神经网络的社交文本依存句法分析系统，其特征在于所述预处理模块中过滤的具体步骤为：
首先使用英文正规文本Gigaword训练语料，然后利用语言模型工具KenLM训练语言模型，最后使用语言模型对下载下来的社交文本计算分数并使用阈值进行过滤。

4.根据权利要求2所述的基于深度神经网络的社交文本依存句法分...

【专利技术属性】
技术研发人员：刘宇鹏，张晓晨，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人