一种训练数据的方法、装置及存储介质制造方法及图纸

技术编号:21628898 阅读:27 留言:0更新日期:2019-07-17 11:04
一种训练数据的方法、装置及存储介质,该方法包括获取待处理的语料集合;从语料集合中提取实体集合,从实体集合中提取候选上位词集合;将实体集合中的实体分别与候选上位词集合中的各上位词组合,得到候选对集合,候选对集合包括多个候选对,候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。通过采用该方案,能够提高训练数据的效率。

A Method, Device and Storage Media for Training Data

【技术实现步骤摘要】
一种训练数据的方法、装置及存储介质
本申请涉及大数据处理
,尤其涉及一种训练数据的方法、装置及存储介质。
技术介绍
在时间递归神经网络
,一般采用长短期记忆人工神经网络(英文全称:long-shorttermmemory,英文简称:LSTM)处理、预测时间序列中间隔长、延迟长的重要事件。在使用LSTM预测之前,需要从语料集合中挖掘上位词,并将问题转换成分类问题,即给定一个候选实体-上位词对,预测该候选实体-上位词对是不是真正的实体-上位词对。在预测方法上,一般都是分词处理、提取特征,然后使用传统分类器来对候选实体-上位词进行分类。但这种方式对领域知识要求较高,且最终分类的的结果可能不具有泛化性,其所能预测的范围较小。目前主要基于深度学习的方法对候选实体-上位词进行分类,自动从语料集合中提取特征和生成批量的训练数据,基于批量的训练数据进行预测,能够提高分类的性能,但是由于深度网络很复杂,外加命名实体数量的增加,需要生成更多的训练数据,生成大量的训练数据所耗费时间较长,并且效率较低。
技术实现思路
本申请提供了一种训练数据的方法、装置及存储介质,能够解决现有技术中训练数据的效率较低的问题。本申请第一方面提供一种训练数据的方法,所述方法包括:获取待处理的语料集合;从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。本申请第二方面提供一种用于训练数据的装置,具有实现对应于上述第一方面提供的训练数据的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。一种可能的设计中,所述装置包括:获取模块,用于获取待处理的语料集合;处理模块,用于从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。本申请又一方面提供了一种用于训练数据的装置,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。相较于现有技术,本申请提供的方案中,提取实体集合和候选上位词集合后,将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合,通过泛化层处理能够降低数据的数量级,进而在少量的预测数据基础上进行快速收敛,进而降低用于训练和预测所需的参数数量,从而提高训练数据的效率。附图说明图1为本申请实施例中一种训练数据的方法的一种流程示意图;图2为本申请实施例中一种训练数据的方法的一种流程示意图;图3为本申请实施例中LSTM网络结构示意图;图4为本申请实施例中在LSTM的char层转换word的一种示意图;图5为本申请实施例中在LSTM的hash层转换word的一种示意图;图6为本申请实施例中一种用于训练数据的装置的一种结构示意图;图7为本申请实施例中一种用于训练数据的装置的另一种结构示意图;图8为本申请实施例中终端设备的一种结构示意图;图9为本申请实施例中服务器的一种结构示意图。具体实施方式本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。本申请供了一种训练数据的方法、装置及存储介质,用于人工神经网络,人工神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。其是一种运算模型,其由大量的节点(或称神经元或处理单元)相互联接构成的非线性、自适应信息处理系统。其中,每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,相当于人工神经网络的记忆。人工神经网络的输出则依人工神经网络的连接方式,权重值和激励函数的不同而不同。而人工神经网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。人工神经网络能够依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。人工神经网络具有自学习功能、联想存储功能、高速寻找优化解的运算能力、自组织、自适应、实时学习的能力。其中,需要特别说明的是,本申请涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(英文全称:radioaccessnetwork,英文简称:RAN)与一个或多个核心网进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装本文档来自技高网...

【技术保护点】
1.一种训练数据的方法,其特征在于,所述方法包括:获取待处理的语料集合;从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。

【技术特征摘要】
1.一种训练数据的方法,其特征在于,所述方法包括:获取待处理的语料集合;从所述语料集合中提取实体集合,所述实体集合包括多个命名的实体;从所述实体集合中提取候选上位词集合;将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合,得到候选对集合,所述候选对集合包括多个候选对,所述候选对是指具备关联关系的实体与上位词的组合;将候选对、每个与候选对关联的语句分别构造为一份预测数据,以及对预测数据中与候选对关联的语句进行泛化处理;对各候选对所关联的语句分别进行分词处理,得到词语集合;对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合;根据所述预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。2.根据权利要求1所述的方法,其特征在于,所述泛化处理层包括字符层和哈希hash层,所述对所述词语集合中的各词语输入泛化处理层进行转换,得到转换后的所述词语集合,包括:将所述词语集合中的各词语分别输入所述字符层,在所述字符层将输入所述字符层的词语分别转换为词语向量,得到词语向量集合;将所述词语集合中的各词语分别输入所述hash层,在所述hash层将输入所述hash层的词语分别转换为hash向量,得到hash向量集合;根据所述词语向量集合和所述hash向量集合得到所述向量集合。3.根据权利要求2所述的方法,其特征在于,所述词语集合包括N个词语,所述将所述词语集合中的各词语分别输入所述字符层,在所述字符层将输入所述字符层的词语分别转换为词语向量,得到所述词语向量集合,包括:对第一词语与字符查找表中的字符进行匹配,得到n个字符对应的n个向量,根据双相LSTM将所述n个向量与所述第一词语,生成词语向量,所述第一词语是指所述词语集合中待训练和预测的词语。4.根据权利要求2或3所述的方法,其特征在于,所述将所述词语集合中的各词语分别输入所述hash层,在所述hash层将输入所述hash层的词语分别转换为hash向量,得到hash向量集合,包括:使用哈希hash函数将所述N个词语分别映射到K个hash桶中,分别在每个hash桶中对所述N个词语进行压缩,得到K个hash向量,每个hash向量对应所述N个词语,其中N和K均为正整数,N>K。5.根据权利要求4所述的方法,其特征在于,所述根据所述词语向量集合和所述hash向量集合得到所述向量集合,包括:将所述词语向量和所述K个hash向量拼接,得到所述向量集合。6.根据权利要求5所述的方法,其特征在于,所述对所述词语集合中的各词语输入泛化处理层进行转换,得到向量集合后,所述语料集合中的第一语句对应得到一个第一矩阵,所述第一矩阵根据所述第一语句分词后对应的词语数量、经由所述字符层泛化处理后输出的向量维度、以及经由hash层泛化处理时所设置的向量维度得到;所述候选对集合中的第一候选对对应得到一个第二矩阵,所述第二矩阵根据所述候选对分词后对应的词语数量、经由所述字符层泛化处理后...

【专利技术属性】
技术研发人员:李潇郑孙聪
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1