一种基于文法网络获取深度学习训练数据的方法技术

技术编号：16755906 阅读：25 留言：0更新日期：2017-12-09 02:16

本发明专利技术公开了一种基于文法网络获取深度学习训练数据的方法，通过逆向文法网络与爬虫爬取数据生成大量语言数据，首先利用垂直领域网络爬虫抓取符合该需求的数据并保存，然后根据需求编写文法网络规则语句，通过文法网络规则语句可以获得语言数据和对应的标签数据，通过文法网络语句扩展或与爬取数据相结合的方式可以生成大量的语言数据，生成的语言数据和与其对应的标签数据可分别作为深度学习模型训练输入和输出。本发明专利技术通过逆向使用文法网络规则获得大量的、可以直接用于深度学习模型训练的数据，该语言数据不仅更为通顺，数量巨大，同时还可获得该语句的标签语句，非常适用于深度学习的模型训练。

A method of acquiring depth learning and training data based on grammar network

The invention discloses a network access method for deep learning grammar based on training data, and through the network crawler crawling data to generate a large number of reverse grammar language data, the vertical field of network crawler meets the demand and save the data, and then according to the demand of writing rules of grammar rules grammar network statement, through the network can obtain the label statement the language data and the corresponding data, through the network expansion and grammar statements or crawling data combination can generate large amounts of linguistic data, language data generation and the corresponding tag data can be used as deep learning model training input and output. The present invention used by reverse network access to a large number of grammar rules, can be directly used for deep learning model training data, the language data is not only more than a huge number, but can also get the label statement of the statement, is very suitable to the deep learning training model.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文法网络获取深度学习训练数据的方法
本专利技术涉及自然语言处理
，尤其涉及一种基于文法网络获取深度学习训练数据的方法。
技术介绍
随着人工智能的兴起，自然语言处理作为人工智能领域的一个重要方向，主要研究人与计算机通过自然语言进行通信的理论和方法，而神经网络是模拟人类神经功能和结构的数学模型，并在人工智能的图像识别和语音识别领域中取得了突破性的进展,深度学习源于人工神经网络研究，是机器学习的一种表征数据的方法,也是自然语言处理中的一个重要方法。在近些年中深度学习在英文自然语言处理有了很多突破性的成果，基于深度学习的神经网络正是解决这些问题的主要手段。而深度学习需要大量所需领域的有效数据训练模型，如何快速获得准确有效的数据成为提高系统性能和效率的关键。目前，现有的深度学习受训练数据的制约，具有很大的局限性，众所周知，深度学习的训练数据分为两个部分，一是输入的语句，另一部分则是输出的标签语句，训练数据的数量和如何获得标签语句一直是困难人们的难题，常规输入语句和标签语句的获取方法为简单的语句拼接，或手工编写，其结果是要么语句不通顺，要么数量太少，制约了深度学习的推广和应用。文法网络作为一种常规的语言处理规则，只是通过正向使用做一些简单的语言处理工作，用来让机器理解人的语言。
技术实现思路
针对现有技术存在的不足之处，本专利技术的目的在于提供一种基于文法网络获取深度学习训练数据的方法，通过逆向使用文法网络规则获得大量的、可以直接用于深度学习模型训练的数据，该语言数据不仅更为通顺，数量巨大，同时还可获得该语句的标签语句，非常适用于深度学习的模型训练。本专利技...
一种基于文法网络获取深度学习训练数据的方法

【技术保护点】
一种基于文法网络获取深度学习训练数据的方法，其特征在于：其方法步骤如下：A、依靠网络爬虫定向爬取所需领域的基础数据，采用垂直领域分布式爬虫获取基础数据；B、对步骤A中的基础数据编写文法网络规则语句；C、根据爬取的基础数据与步骤B的文法网络规则语句相结合，并通过逆向文法网络程序生成所输出的语言数据；D、根据获取文法网络规则语句的子规则名称生成输出语句所对应的标签语句；E、通过文法网络规则语句与爬取的基础数据相结合的方式生成大量语言数据，步骤C所生成的语言数据和与其步骤D所对应的标签数据分别作为深度学习模型训练输入数据和输出数据。

【技术特征摘要】
1.一种基于文法网络获取深度学习训练数据的方法，其特征在于：其方法步骤如下：A、依靠网络爬虫定向爬取所需领域的基础数据，采用垂直领域分布式爬虫获取基础数据；B、对步骤A中的基础数据编写文法网络规则语句；C、根据爬取的基础数据与步骤B的文法网络规则语句相结合，并通过逆向...

【专利技术属性】
技术研发人员：张超，周红，刘楚雄，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人