一种训练数据的方法、装置及存储介质制造方法及图纸

技术编号：21628898 阅读：27 留言：0更新日期：2019-07-17 11:04

一种训练数据的方法、装置及存储介质，该方法包括获取待处理的语料集合；从语料集合中提取实体集合，从实体集合中提取候选上位词集合；将实体集合中的实体分别与候选上位词集合中的各上位词组合，得到候选对集合，候选对集合包括多个候选对，候选对是指具备关联关系的实体与上位词的组合；将候选对、每个与候选对关联的语句分别构造为一份预测数据，以及对预测数据中与候选对关联的语句进行泛化处理；对各候选对所关联的语句分别进行分词处理，得到词语集合；对词语集合中的各词语输入泛化处理层进行转换，得到向量集合；根据预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。通过采用该方案，能够提高训练数据的效率。

A Method, Device and Storage Media for Training Data

全部详细技术资料下载

【技术实现步骤摘要】
一种训练数据的方法、装置及存储介质
本申请涉及大数据处理
，尤其涉及一种训练数据的方法、装置及存储介质。
技术介绍
在时间递归神经网络
，一般采用长短期记忆人工神经网络(英文全称：long-shorttermmemory，英文简称：LSTM)处理、预测时间序列中间隔长、延迟长的重要事件。在使用LSTM预测之前，需要从语料集合中挖掘上位词，并将问题转换成分类问题，即给定一个候选实体-上位词对，预测该候选实体-上位词对是不是真正的实体-上位词对。在预测方法上，一般都是分词处理、提取特征，然后使用传统分类器来对候选实体-上位词进行分类。但这种方式对领域知识要求较高，且最终分类的的结果可能不具有泛化性，其所能预测的范围较小。目前主要基于深度学习的方法对候选实体-上位词进行分类，自动从语料集合中提取特征和生成批量的训练数据，基于批量的训练数据进行预测，能够提高分类的性能，但是由于深度网络很复杂，外加命名实体数量的增加，需要生成更多的训练数据，生成大量的训练数据所耗费时间较长，并且效率较低。
技术实现思路
本申请提供了一种训练数据的方法、装置及存储介质，能够解决现有技术中训练数据的效率较低的问题。本申请第一方面提供一种训练数据的方法，所述方法包括：获取待处理的语料集合；从所述语料集合中提取实体集合，所述实体集合包括多个命名的实体；从所述实体集合中提取候选上位词集合；将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合，得到候选对集合，所述候选对集合包括多个候选对，所述候选对是指具备关联关系的实体与上位词的组合；将候选对、每个与候选对关联的语句分别构造...

【技术保护点】
1.一种训练数据的方法，其特征在于，所述方法包括：获取待处理的语料集合；从所述语料集合中提取实体集合，所述实体集合包括多个命名的实体；从所述实体集合中提取候选上位词集合；将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合，得到候选对集合，所述候选对集合包括多个候选对，所述候选对是指具备关联关系的实体与上位词的组合；将候选对、每个与候选对关联的语句分别构造为一份预测数据，以及对预测数据中与候选对关联的语句进行泛化处理；对各候选对所关联的语句分别进行分词处理，得到词语集合；对所述词语集合中的各词语输入泛化处理层进行转换，得到向量集合；根据所述预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。

【技术特征摘要】
1.一种训练数据的方法，其特征在于，所述方法包括：获取待处理的语料集合；从所述语料集合中提取实体集合，所述实体集合包括多个命名的实体；从所述实体集合中提取候选上位词集合；将所述实体集合中的实体分别与所述候选上位词集合中的各上位词组合，得到候选对集合，所述候选对集合包括多个候选对，所述候选对是指具备关联关系的实体与上位词的组合；将候选对、每个与候选对关联的语句分别构造为一份预测数据，以及对预测数据中与候选对关联的语句进行泛化处理；对各候选对所关联的语句分别进行分词处理，得到词语集合；对所述词语集合中的各词语输入泛化处理层进行转换，得到向量集合；根据所述预测数据和长短期记忆人工神经网络LSTM对所述向量集合进行训练和预测。2.根据权利要求1所述的方法，其特征在于，所述泛化处理层包括字符层和哈希hash层，所述对所述词语集合中的各词语输入泛化处理层进行转换，得到转换后的所述词语集合，包括：将所述词语集合中的各词语分别输入所述字符层，在所述字符层将输入所述字符层的词语分别转换为词语向量，得到词语向量集合；将所述词语集合中的各词语分别输入所述hash层，在所述hash层将输入所述hash层的词语分别转换为hash向量，得到hash向量集合；根据所述词语向量集合和所述hash向量集合得到所述向量集合。3.根据权利要求2所述的方法，其特征在于，所述词语集合包括N个词语，所述将所述词语集合中的各词语分别输入所述字符层，在所述字符层将输入所述字符层的词语分别转换为词语向量，得到所述词语向量集合，包括：对第一词语与字符查找表中的字符进行匹配，得到n个字符对应的n个向量，根据双相LSTM将所述n个向量与所述第一词语，生成词语向量，所述第一词语是指所述词语集合中待训练和预测的词语。4.根据权利要求2或3所述的方法，其特征在于，所述将所述词语集合中的各词语分别输入所述hash层，在所述hash层将输入所述hash层的词语分别转换为hash向量，得到hash向量集合，包括：使用哈希hash函数将所述N个词语分别映射到K个hash桶中，分别在每个hash桶中对所述N个词语进行压缩，得到K个hash向量，每个hash向量对应所述N个词语，其中N和K均为正整数，N＞K。5.根据权利要求4所述的方法，其特征在于，所述根据所述词语向量集合和所述hash向量集合得到所述向量集合，包括：将所述词语向量和所述K个hash向量拼接，得到所述向量集合。6.根据权利要求5所述的方法，其特征在于，所述对所述词语集合中的各词语输入泛化处理层进行转换，得到向量集合后，所述语料集合中的第一语句对应得到一个第一矩阵，所述第一矩阵根据所述第一语句分词后对应的词语数量、经由所述字符层泛化处理后输出的向量维度、以及经由hash层泛化处理时所设置的向量维度得到；所述候选对集合中的第一候选对对应得到一个第二矩阵，所述第二矩阵根据所述候选对分词后对应的词语数量、经由所述字符层泛化处理后...

【专利技术属性】
技术研发人员：李潇，郑孙聪，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人