一种实体识别模型生成方法、实体识别方法及装置、设备制造方法及图纸

技术编号：25480481 阅读：26 留言：0更新日期：2020-09-01 23:01

本申请实施例公开了一种实体识别模型生成方法、装置及设备以及一种实体识别方法、装置及设备，包括：利用标准文本数据训练得到分词与词向量的映射模型；对第一训练文本进行分词，得到所述第一训练文本包括的第一分词；通过所述分词与词向量的映射模型确定所述第一分词的近似词，由所述第一分词的近似词生成所述第一训练文本对应的近似句；获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示；利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种实体识别模型生成方法、实体识别方法及装置、设备
本申请涉及数据处理
，具体涉及一种实体识别模型生成方法、装置及设备，一种实体识别方法、装置及设备。
技术介绍
在利用命名实体识别技术构建实体识别模型的过程中，通常是采用有监督的模型训练方法，通过大量具有标签的训练数据进行训练，得到相应的实体识别模型。其中，训练数据的数量对于训练得到的实体识别模型的性能具有重要的影响。但是，在一些领域中，较难大量获取具有标签的训练数据，当训练数据较少，在数量上不能满足实体识别模型训练的需要时，会导致训练得到的实体识别模型的性能不佳，对待识别文本进行识别得到的实体识别结果不够准确。
技术实现思路
有鉴于此，本申请实施例提供一种实体识别模型生成方法、装置及设备，一种实体识别方法、装置及设备，能够在原有训练数据较少的情况下扩充训练数据，能够较为准确的识别实体以及实体类别。为解决上述问题，本申请实施例提供的技术方案如下：第一方面，提供一种实体识别模型生成方法，所述方法包括：利用标准文本数据训练得到分词与词向量的映射模型；对第一训练文本进行分词，得到所述第一训练文本包括的第一分词；通过所述分词与词向量的映射模型确定所述第一分词的近似词，由所述第一分词的近似词生成所述第一训练文本对应的近似句；获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示；利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各...

【技术保护点】
1.一种实体识别模型生成方法，其特征在于，所述方法包括：/n利用标准文本数据训练得到分词与词向量的映射模型；/n对第一训练文本进行分词，得到所述第一训练文本包括的第一分词；/n通过所述分词与词向量的映射模型确定所述第一分词的近似词，由所述第一分词的近似词生成所述第一训练文本对应的近似句；/n获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示；/n利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。/n

【技术特征摘要】
1.一种实体识别模型生成方法，其特征在于，所述方法包括：
利用标准文本数据训练得到分词与词向量的映射模型；
对第一训练文本进行分词，得到所述第一训练文本包括的第一分词；
通过所述分词与词向量的映射模型确定所述第一分词的近似词，由所述第一分词的近似词生成所述第一训练文本对应的近似句；
获取所述第一训练文本中各个字符的特征表示以及所述第一训练文本对应的近似句中各个字符的特征表示；
利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签训练生成实体识别模型，包括：
将所述第一训练文本中各个字符的特征表示、所述第一训练文本对应的近似句中各个字符的特征表示以及所述第一训练文本中各个字符的实体类别标签、字符序列标签作为第三训练数据；
利用所述第三训练数据，以最小化目标函数为训练目标训练生成实体识别模型，所述目标函数为各个目标训练数据对应的组合函数之和取负，所述目标训练数据分别为所述第三训练数据中的每一条；
所述组合函数为似然函数与正则项之差；所述似然函数由所述目标训练数据中的第一训练文本中各个字符的特征表示以及第一训练文本中各个字符的实体类别标签、字符序列标签得到；所述正则项表征所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值与所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值的相对熵之和；所述标签组合由所述实体类别标签、所述字符序列标签进行组合后生成；
所述目标训练数据中的第一训练文本中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本中各个字符的特征表示输入所述实体识别模型得到，所述目标训练数据中的第一训练文本对应的近似句中各个字符的各个标签组合概率值由所述目标训练数据中的第一训练文本对应的近似句中各个字符的特征表示输入所述实体识别模型得到。

3.一种实体识别方法，其特征在于，所述方法包括：
获取待识别文本中各个字符的特征表示；
将所述待识别文本中各个字符的特征表示输入实体识别模型，得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签；所述实体识别模型是根据权利要求1所述的实体识别模型生成方法生成的；
根据所述待识别文本中各个字符对应的字符序列标签确定所述待识别文本中包含的实体，根据所述待识别文本中各个字符对应的实体类别标签确定所述待识别文本中包含的实体对应的实体类别标签。

4.一种实体识别方法，其特征在于，所述方法包括：
对待识别文本进行分词，得到所述待识别文本包括的第二分词；
通过分词与词向量的映射模型确定所述第二分词的近似词，由所述第二分词的近似词生成所述待识别文本对应的近似句；所述分词与词向量的映射模型是利用标准文本数据训练得到的；
获取所述待识别文本中各个字符的特征表示以及所述待识别训练文本对应的近似句中各个字符的特征表示；
将所述待识别文本中各个字符的特征表示以及待识别训练文本对应的近似句中各个字符的特征表示输入实体识别模型，得到所述实体识别模型输出的所述待识别文本中各个字符对应的字符序列标签和/或实体类别标签；所述实体识别模型是根据权利要求2所述的实体识别模型生成方法生成的；
根据所述待识别文本中各个字符对应的字符序列标签...

【专利技术属性】
技术研发人员：杨贺羽，李晓东，付博，
申请(专利权)人：沈阳东软熙康医疗系统有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人