一种实体识别模型生成方法、实体识别方法及装置、设备制造方法及图纸

技术编号:25480481 阅读:26 留言:0更新日期:2020-09-01 23:01
本申请实施例公开了一种实体识别模型生成方法、装置及设备以及一种实体识别方法、装置及设备,包括:利用标准文本数据训练得到分词与词向量的映射模型;对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。

【技术实现步骤摘要】
一种实体识别模型生成方法、实体识别方法及装置、设备
本申请涉及数据处理
,具体涉及一种实体识别模型生成方法、装置及设备,一种实体识别方法、装置及设备。
技术介绍
在利用命名实体识别技术构建实体识别模型的过程中,通常是采用有监督的模型训练方法,通过大量具有标签的训练数据进行训练,得到相应的实体识别模型。其中,训练数据的数量对于训练得到的实体识别模型的性能具有重要的影响。但是,在一些领域中,较难大量获取具有标签的训练数据,当训练数据较少,在数量上不能满足实体识别模型训练的需要时,会导致训练得到的实体识别模型的性能不佳,对待识别文本进行识别得到的实体识别结果不够准确。
技术实现思路
有鉴于此,本申请实施例提供一种实体识别模型生成方法、装置及设备,一种实体识别方法、装置及设备,能够在原有训练数据较少的情况下扩充训练数据,能够较为准确的识别实体以及实体类别。为解决上述问题,本申请实施例提供的技术方案如下:第一方面,提供一种实体识别模型生成方法,所述方法包括:利用标准文本数据训练得到分词与词向量的映射模型;对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。在第一方面的第一种可能的实现方式中,所述通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句,包括:将所述第一分词输入所述分词与词向量的映射模型,得到所述第一分词的词向量;通过所述分词与词向量的映射模型查找与所述第一分词的词向量在相似度上满足预设条件的词向量作为第一近似词向量,将所述第一近似词向量对应的分词确定为所述第一分词对应的近似词;将所述第一训练文本中的第一分词替换为该第一分词对应的近似词,生成所述第一训练文本对应的近似句。在第一方面的第二种可能的实现方式中,所述获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示,包括:利用所述第一训练文本训练字向量模型;将所述第一训练文本输入所述字向量模型,得到所述第一训练文本中各个字符的字向量作为所述第一训练文本中各个字符的特征表示;将所述第一训练文本对应的近似句输入所述字向量模型,得到所述第一训练文本对应的近似句中各个字符的字向量作为所述第一训练文本对应的近似句中各个字符的特征表示。在第一方面的第三种可能的实现方式中,所述获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示,包括:确定所述第一训练文本中各个字符的分词特征向量,所述分词特征向量用于表征字符所属分词的长度以及字符在所属分词中的位置;将所述第一训练文本中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本中各个字符的特征表示;确定所述第一训练文本对应的近似句中各个字符的分词特征向量;将所述第一训练文本对应的近似句中各个字符的字向量与分词特征向量进行拼接,作为所述第一训练文本对应的近似句中各个字符的特征表示。在第一方面的第四种可能的实现方式中,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:将所述第一训练文本中各个字符的实体类别标签、字符序列标签添加为所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签;将所述第一训练文本中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第一训练数据;所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的实体类别标签、字符序列标签作为第二训练数据;利用所述第一训练数据以及所述第二训练数据,共同训练生成实体识别模型。在第一方面的第五种可能的实现方式中,所述实体识别模型由双向长短期记忆网络Bi-LSTM层、全连接层以及条件随机场CRF层组成;或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。在第一方面的第六种可能的实现方式中,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:将所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据;利用所述第三训练数据,以最小化目标函数为训练目标训练生成实体识别模型,所述目标函数为各个目标训练数据对应的组合函数之和取负,所述目标训练数据分别为所述第三训练数据中的每一条;所述组合函数为似然函数与正则项之差;所述似然函数由所述目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到;所述正则项表征所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和;所述标签组合由所述实体类别标签、所述字符序列标签进行组合后生成;所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本中各个字符的特征表示输入所述实体识别模型得到,所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入所述实体识别模型得到。在第一方面的第七种可能的实现方式中,所述实体识别模型由Bi-LSTM层、全连接层以及CRF层组成;或者,所述实体识别模型由Bi-LSTM层、注意力机制层、全连接层以及CRF层组成。第二方面,提供一种实体识别方法,所述方法包括:获取待识别文本中各个字符的特征表示;将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据上述第一方面、第一方面的第一种至第五种可能的实现方式中的任一种所述的实体识别模型生成方法生成的;根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含本文档来自技高网...

【技术保护点】
1.一种实体识别模型生成方法,其特征在于,所述方法包括:/n利用标准文本数据训练得到分词与词向量的映射模型;/n对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;/n通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;/n获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;/n利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。/n

【技术特征摘要】
1.一种实体识别模型生成方法,其特征在于,所述方法包括:
利用标准文本数据训练得到分词与词向量的映射模型;
对第一训练文本进行分词,得到所述第一训练文本包括的第一分词;
通过所述分词与词向量的映射模型确定所述第一分词的近似词,由所述第一分词的近似词生成所述第一训练文本对应的近似句;
获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示;
利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。


2.根据权利要求1所述的方法,其特征在于,所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型,包括:
将所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据;
利用所述第三训练数据,以最小化目标函数为训练目标训练生成实体识别模型,所述目标函数为各个目标训练数据对应的组合函数之和取负,所述目标训练数据分别为所述第三训练数据中的每一条;
所述组合函数为似然函数与正则项之差;所述似然函数由所述目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到;所述正则项表征所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和;所述标签组合由所述实体类别标签、所述字符序列标签进行组合后生成;
所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本中各个字符的特征表示输入所述实体识别模型得到,所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入所述实体识别模型得到。


3.一种实体识别方法,其特征在于,所述方法包括:
获取待识别文本中各个字符的特征表示;
将所述待识别文本中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据权利要求1所述的实体识别模型生成方法生成的;
根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体,根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。


4.一种实体识别方法,其特征在于,所述方法包括:
对待识别文本进行分词,得到所述待识别文本包括的第二分词;
通过分词与词向量的映射模型确定所述第二分词的近似词,由所述第二分词的近似词生成所述待识别文本对应的近似句;所述分词与词向量的映射模型是利用标准文本数据训练得到的;
获取所述待识别文本中各个字符的特征表示以及所述待识别训练文本对应的近似句中各个字符的特征表示;
将所述待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示输入实体识别模型,得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签;所述实体识别模型是根据权利要求2所述的实体识别模型生成方法生成的;
根据所述待识别文本中各个字符对应的字符序列标签...

【专利技术属性】
技术研发人员:杨贺羽李晓东付博
申请(专利权)人:沈阳东软熙康医疗系统有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1