一种多类型实体识别的多任务深度学习模型的训练方法及装置制造方法及图纸

技术编号:19634981 阅读:145 留言:0更新日期:2018-12-01 15:43
本发明专利技术适用于数据抽取技术领域,提供一种多类型实体识别的多任务深度学习模型的训练方法及装置,所述方法包括:数据预处理;建立skip‑gram神经网络模型将预处理后的文本语料数据转为向量;根据要识别和提取的实体类型构建样本数据集;构建样本数据的分词特征;建立多类型实体识别的多任务深度学习模型。本发明专利技术中,相关类型的实体采用参数共享的方式实现共同特征的提取,又使用独立的模型完成实体的标注,使得模型对于一个文本数据的多种实体识别和提取有更好的泛化能力,即实体识别的整体正确性得到提升;另外,本发明专利技术只训练一个模型,在一次迭代过程中共同特征只用训练一次,可以极大的缩减训练时间。

A Training Method and Device of Multi-task Deep Learning Model for Multi-type Entity Recognition

The present invention is applicable to the field of data extraction technology, and provides a training method and device of a multi-task in-depth learning model for multi-type entity recognition. The methods include: data preprocessing; skip gram neural network model is established to convert the pre-processed text corpus data into vectors; and entity types to be recognized and extracted according to the entity types to be identified and extracted. Construct the sample data set; construct the word segmentation features of the sample data; establish a multi-task in-depth learning model for multi-type entity recognition. In the present invention, the related entities share parameters to extract common features, and use independent models to complete entity labeling, so that the model has better generalization ability for multiple entity recognition and extraction of a text data, that is, the overall correctness of entity recognition is improved. If only one model is trained and the common features are trained only once in an iteration process, the training time can be greatly reduced.

【技术实现步骤摘要】
一种多类型实体识别的多任务深度学习模型的训练方法及装置
本专利技术属于数据抽取
,尤其涉及一种多类型实体识别的多任务深度学习模型的训练方法及装置。
技术介绍
实体识别和抽取是指从文本中识别和抽取具有特定意义的文字,主要包括人名、地名、机构名、专有名词等;不同类型的实体有两种情况,一种情况是指上述人名、地名等因其特点不同而属于不同类型的实体,另一种情况是同为人名或者同为地名等,但是依其不同的含义而作为不同类型的实体,一般在一段文本数据中不同类型的实体是普遍存在的,但是常规的实体识别工具或者方法只能按照字典将人名、地名、机构名识别出来,并且不能按照不同的含义再进一步的识别实体,如现有方法将识别的机构名称都标注为机构实体,但是不能按照机构的性质或者作用再做区分。现有技术方案将提取实体作为结束条件,并且在同一个模型中同时提取所有类型的实体,在含有多种实体类型的文本数据中,尤其是含有近似或相关关系的实体类型的文本数据中,会导致在提取不同类型的实体时错误率增加。另外,现有的技术方案采用每个类型的实体分别建立模型的识别和提取,又必然会导致模型的训练时间加长,并且会产生提取结果交叉错误。目前广本文档来自技高网...

【技术保护点】
1.一种多类型实体识别的多任务深度学习模型的训练方法,其特征在于,所述方法包括下述步骤:步骤S1、数据预处理:将所有获取的文本语料数据按照需求进行数据清洗操作;步骤S2、建立skip‑gram神经网络模型将预处理后的文本语料数据转为向量;步骤S3、根据要识别和提取的实体类型构建样本数据集,所述样本数据集分为训练集、验证集、测试集;步骤S4、构建样本数据的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;步骤S5、建立多类型实体识别的多任务深度学习模型。

【技术特征摘要】
1.一种多类型实体识别的多任务深度学习模型的训练方法,其特征在于,所述方法包括下述步骤:步骤S1、数据预处理:将所有获取的文本语料数据按照需求进行数据清洗操作;步骤S2、建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;步骤S3、根据要识别和提取的实体类型构建样本数据集,所述样本数据集分为训练集、验证集、测试集;步骤S4、构建样本数据的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;步骤S5、建立多类型实体识别的多任务深度学习模型。2.如权利要求1所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S2具体过程如下:利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim。3.如权利要求2所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S3中具体过程如下:对于步骤S1中预处理后的语料数据按字符进行实体标注,并且对于不同类型的实体分别创建标注样本,假设有M种类型的实体,生成M份标注不同类型实体的标注样本,其中同一类型内的实体单元标注相同,标注完毕后按比例分割成训练集、验证集、测试集。4.如权利要求3所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S3中所述“按字符进行实体标注”具体过程如下:若一个文本字符串是一个实体,那么该文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”,若一个文本字符串是一个实体,但是只有一个字符,那么标注为“S-实体类型名”,语料中不是实体的字符全部标注为“O”。5.如权利要求4所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S4中所述分词特征,即对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”,若字符是所在分词的最后一个字符,标注为“E”,若字符是所在分词的中间字符,标注为“I”,若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。6.如权利要求5所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S5具体过程如下:步骤S5.1、建立输入层:训练样本中抽样选择n个样本,取字符长度最长的样本的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,那么输出到模型下一个层次的所...

【专利技术属性】
技术研发人员:吴杰杨曦沈满刘奕夫周游宇布恒
申请(专利权)人:武大吉奥信息技术有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1