一种基于文法网络获取深度学习训练数据的方法技术

技术编号:16755906 阅读:25 留言:0更新日期:2017-12-09 02:16
本发明专利技术公开了一种基于文法网络获取深度学习训练数据的方法,通过逆向文法网络与爬虫爬取数据生成大量语言数据,首先利用垂直领域网络爬虫抓取符合该需求的数据并保存,然后根据需求编写文法网络规则语句,通过文法网络规则语句可以获得语言数据和对应的标签数据,通过文法网络语句扩展或与爬取数据相结合的方式可以生成大量的语言数据,生成的语言数据和与其对应的标签数据可分别作为深度学习模型训练输入和输出。本发明专利技术通过逆向使用文法网络规则获得大量的、可以直接用于深度学习模型训练的数据,该语言数据不仅更为通顺,数量巨大,同时还可获得该语句的标签语句,非常适用于深度学习的模型训练。

A method of acquiring depth learning and training data based on grammar network

The invention discloses a network access method for deep learning grammar based on training data, and through the network crawler crawling data to generate a large number of reverse grammar language data, the vertical field of network crawler meets the demand and save the data, and then according to the demand of writing rules of grammar rules grammar network statement, through the network can obtain the label statement the language data and the corresponding data, through the network expansion and grammar statements or crawling data combination can generate large amounts of linguistic data, language data generation and the corresponding tag data can be used as deep learning model training input and output. The present invention used by reverse network access to a large number of grammar rules, can be directly used for deep learning model training data, the language data is not only more than a huge number, but can also get the label statement of the statement, is very suitable to the deep learning training model.

【技术实现步骤摘要】
一种基于文法网络获取深度学习训练数据的方法
本专利技术涉及自然语言处理
,尤其涉及一种基于文法网络获取深度学习训练数据的方法。
技术介绍
随着人工智能的兴起,自然语言处理作为人工智能领域的一个重要方向,主要研究人与计算机通过自然语言进行通信的理论和方法,而神经网络是模拟人类神经功能和结构的数学模型,并在人工智能的图像识别和语音识别领域中取得了突破性的进展,深度学习源于人工神经网络研究,是机器学习的一种表征数据的方法,也是自然语言处理中的一个重要方法。在近些年中深度学习在英文自然语言处理有了很多突破性的成果,基于深度学习的神经网络正是解决这些问题的主要手段。而深度学习需要大量所需领域的有效数据训练模型,如何快速获得准确有效的数据成为提高系统性能和效率的关键。目前,现有的深度学习受训练数据的制约,具有很大的局限性,众所周知,深度学习的训练数据分为两个部分,一是输入的语句,另一部分则是输出的标签语句,训练数据的数量和如何获得标签语句一直是困难人们的难题,常规输入语句和标签语句的获取方法为简单的语句拼接,或手工编写,其结果是要么语句不通顺,要么数量太少,制约了深度学习的推广和应用。文法网络作为一种常规的语言处理规则,只是通过正向使用做一些简单的语言处理工作,用来让机器理解人的语言。
技术实现思路
针对现有技术存在的不足之处,本专利技术的目的在于提供一种基于文法网络获取深度学习训练数据的方法,通过逆向使用文法网络规则获得大量的、可以直接用于深度学习模型训练的数据,该语言数据不仅更为通顺,数量巨大,同时还可获得该语句的标签语句,非常适用于深度学习的模型训练。本专利技术的目的通过下述技术方案实现:一种基于文法网络获取深度学习训练数据的方法,其方法步骤如下:A、依靠网络爬虫定向爬取所需领域的基础数据,采用垂直领域分布式爬虫获取基础数据;B、对步骤A中的基础数据编写文法网络规则语句;C、根据爬取的基础数据与步骤B的文法网络规则语句相结合,并通过逆向文法网络程序生成所输出的语言数据;D、根据获取文法网络规则语句的子规则名称生成输出语句所对应的标签语句;E、通过文法网络规则语句与爬取的基础数据相结合的方式生成大量语言数据,步骤C所生成的语言数据和与其步骤D所对应的标签数据分别作为深度学习模型训练输入数据和输出数据。本专利技术基于网络爬虫、逆向文法网络得到大量深度学习训练的输入语句和输出语句,包括以下步骤:a.首先使用网络爬虫技术获得所需领域内的基础数据,并将该数据作为逆向文法规则的子规则;以影视领域为例:1)首先利用网络爬虫获取到影视相关的信息并保存,如电影名称,明星等,将明星数据定义为y_celebrity,作为文法语句的子规则,y_celebrity作为子规则的名称,该子规则的内容为具体明星名称,如“刘德华”。2)使用网络爬虫爬取的数据前需要对数据清洗,因为数据中如果包含特殊符号可能会影响数据的使用。b.根据需要编写的逆向文法网络的规则语句,其中逆向文法网络的规则语句是子规则构成的,子规则包括规则名称和规则内容两部分。以影视领域为例:input=(n_pron)(n_inent)(y_v)(y_celebrity)(n_d)(y_movie)作为编写的逆向文法网络的规则语句,input为该条语句的规则名,“=”右边则为构成该条语句的子规则,如下:“=”左边和右边分别为子规则的名称以及内容:n_pron=我n_inent=想y_v=看y_celebrity=刘德华n_d=的y_movie=电影其中y_celebrity该条子规则语句的内容是网络爬虫所抓取的明星名称,此时该子语句的内容为“刘德华”。通过运行逆向文法网络程序,就会输出“我想看刘德华的电影”该条语句,同时,逆向文法网络程序可以提取出规则语句中的每一条子规则语句的规则名,通过子规则名则可以得到该输出语句的标签语句,如当前语句的标签可以表示为“nnvcelebritynmovie”,那么此时就通过逆向文法网络得到了一条语言数据和对应的标签数据,可以分别作为深度学习的输入和输出。c.我们将编写的文法网络规则语句和一个电影明星相结合只能生成一条数据,但是通过扩展文法规则就可以生成大量的数据。如文法规则句法:input=(n_pron)(n_inent)(y_v)(y_celebrity)(n_d)(y_movie),其中的“y_celebrity”可以通过网络爬虫爬取的明星数据进行替换,从而生成不同的语言数据,也可以扩展文法规则语句产生不同的句式,从而解决深度学习数据量不足的问题。本专利技术较现有技术相比,具有以下优点及有益效果:本专利技术通过逆向使用文法网络规则获得大量的、可以直接用于深度学习模型训练的数据,该语言数据不仅更为通顺,数量巨大,同时还可获得该语句的标签语句,非常适用于深度学习的模型训练。附图说明图1为本专利技术的流程示意图。具体实施方式下面结合实施例对本专利技术作进一步地详细说明:实施例如图1所示,一种基于文法网络获取深度学习训练数据的方法,其方法步骤如下:A、依靠网络爬虫定向爬取所需领域的基础数据,采用垂直领域分布式爬虫获取基础数据;B、对步骤A中的基础数据编写文法网络规则语句;C、根据爬取的基础数据与步骤B的文法网络规则语句相结合,并通过逆向文法网络程序生成所输出的语言数据;D、根据获取文法网络规则语句的子规则名称生成输出语句所对应的标签语句;E、通过文法网络规则语句与爬取的基础数据相结合的方式生成大量语言数据,步骤C所生成的语言数据和与其步骤D所对应的标签数据分别作为深度学习模型训练输入数据和输出数据(即逆向文法网络生成训练数据)。本专利技术是通过逆向文法网络与爬虫爬取数据生成大量语言数据,首先利用垂直领域网络爬虫抓取符合该需求的数据并保存,然后根据需求编写文法网络规则语句,通过文法网络规则语句可以获得语言数据和对应的标签数据,通过文法网络语句扩展或与爬取数据相结合的方式可以生成大量的语言数据,生成的语言数据和与其对应的标签数据可分别作为深度学习模型训练输入和输出。本专利技术的逆向文法网络生成训练数据包括:网络爬虫爬取所需数据、编写文法网络规则语句、获得文法规则语句的标签语句、通过文法规则语句扩展或爬取数据相结合的方式生成大量语言数据这几个部分,其具体工作流程如下:a)依靠网络爬虫定向爬取所需领域数据,并保存。网络爬虫是一种按照一定规则编写的程序或者脚本,可以根据需要抓取网络信息;通常网络爬虫分为垂直领域爬虫和水平领域爬虫,本申请采用垂直领域爬虫获取数据,垂直领域分布式网络爬虫则是指按照一定主题对网络信息进行爬取,由该种爬虫爬取的数据符合所需主题,具有很高的准确性,同时可以快速大量获取到该类数据。b)根据需要编写文法网络规则语句,如下:input=[“查”][“看”]“火车票”该规则则会生成以下语句:“查火车票”、“看火车票”、“查看火车票”和“火车票”,那么可以针对不同的需要编写不同的文法网络规则,使用逆向文法网络规则语句就会规则对应的语言数据。c)根据文法网络规则语句获得其对应的标签语句,如下:input=[check][view]database该句文法网络规则是由多个子规则组合成的,如:check、view和database这些均为子规则的名称,其内容如下:ch本文档来自技高网...
一种基于文法网络获取深度学习训练数据的方法

【技术保护点】
一种基于文法网络获取深度学习训练数据的方法,其特征在于:其方法步骤如下:A、依靠网络爬虫定向爬取所需领域的基础数据,采用垂直领域分布式爬虫获取基础数据;B、对步骤A中的基础数据编写文法网络规则语句;C、根据爬取的基础数据与步骤B的文法网络规则语句相结合,并通过逆向文法网络程序生成所输出的语言数据;D、根据获取文法网络规则语句的子规则名称生成输出语句所对应的标签语句;E、通过文法网络规则语句与爬取的基础数据相结合的方式生成大量语言数据,步骤C所生成的语言数据和与其步骤D所对应的标签数据分别作为深度学习模型训练输入数据和输出数据。

【技术特征摘要】
1.一种基于文法网络获取深度学习训练数据的方法,其特征在于:其方法步骤如下:A、依靠网络爬虫定向爬取所需领域的基础数据,采用垂直领域分布式爬虫获取基础数据;B、对步骤A中的基础数据编写文法网络规则语句;C、根据爬取的基础数据与步骤B的文法网络规则语句相结合,并通过逆向...

【专利技术属性】
技术研发人员:张超周红刘楚雄
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1