一种基于ALBERT的武器装备实体抽取方法、系统及存储介质技术方案

技术编号:28872616 阅读:27 留言:0更新日期:2021-06-15 23:05
本发明专利技术公开了一种基于ALBERT的武器装备实体抽取方法,包括以下步骤:使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one‑hot编码得到对照结果向量特征;将对照结果向量特征输入BiLSTM‑CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM‑CRF网络模型收敛后得到网络模型;输入待识别语句至ALBERT模型,通过ALBERT模型表示为句向量,并作为特征输入到网络模型中;通过网络模型计算得到预测结果;将预测结果通过反one‑hot编码得到结果序列,识别结果序列得到实体名称和实体位置;将实体名称和实体位置作为最终结果输出。本发明专利技术能够有效地识别文本中的武器装备领域实体。

【技术实现步骤摘要】
一种基于ALBERT的武器装备实体抽取方法、系统及存储介质
本专利技术属于自然语言处理
,具体涉及一种基于ALBERT的武器装备实体抽取方法、系统及存储介质。
技术介绍
命名实体识别(NER)是信息抽取的一个子任务,指在自然语言文本中,抽取出特定实体的位置和分类,是文本理解的基础。目前命名实体识别能在有限的领域和有限的实体类型中取得了较好的成绩,如新闻领域中的人名、地名、结构名等。但这些由特定语料训练而来的模型无法直接迁移到其它领域,如军事和医疗领域等。一方面,不同领域的数据具有不同的领域特性,当模型对一个领域数据拟合后,就无法在其它领域很好的工作。另一方面,不同领域的数据资源层次不齐,有些领域的语料资源非常匮乏,导致模型训练和测试都很难展开。命名实体识别的另一个难点在于语言差异,英文单词之间都有空格分隔,实体边界明显,无论是基于字还是基于词作标注,都能取得较好的效果。而中文场景更加复杂,主要的难点如下:1.中文词语之间没有英文词语之间明确的分隔符,尤其是一些专业领域词汇,普通分词工具无法胜任。2.中文文本中还存在本文档来自技高网...

【技术保护点】
1.一种基于ALBERT的武器装备实体抽取方法,其特征在于,包括以下步骤:/nS1、使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;/nS2、将对照结果向量特征输入BiLSTM-CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;/nS3、输入待识别语句至ALBERT模型,通过ALBERT模型表示为句向量,并作为特征输入到网络模型中;/nS4、通过网络模型计算得到预测结果;/nS5、将预测结果通过反one-hot编码得到...

【技术特征摘要】
1.一种基于ALBERT的武器装备实体抽取方法,其特征在于,包括以下步骤:
S1、使用ALBERT模型作为语句表征模型来表示句向量,将预设的训练集语句统合为多维向量特征作为神经网络输入,并将训练集语句对应的实体标记通过one-hot编码得到对照结果向量特征;
S2、将对照结果向量特征输入BiLSTM-CRF网络模型,对对照结果向量特征进行交叉训练,等待BiLSTM-CRF网络模型收敛后得到网络模型;
S3、输入待识别语句至ALBERT模型,通过ALBERT模型表示为句向量,并作为特征输入到网络模型中;
S4、通过网络模型计算得到预测结果;
S5、将预测结果通过反one-hot编码得到结果序列,识别结果序列得到实体名称和实体位置;
S6、将实体名称和实体位置作为最终结果输出。


2.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法,其特征在于,所述S1具体为:
S1.1、规定进入ALBERT模型的待识别语句长度为80,如果待识别语句长度小于80,使用0作为填充至待识别语句长度为80;如果待识别语句长度大于80,则将该待识别语句截断至待识别语句长度为80;
S1.2、以字符为单位将待识别语句分开,每个字符作为一个token,将各待识别语句输入ALBERT模型中并转化为句向量;
S1.3、将训练集中的每一条训练集语句均按照S1.1、S1.2的步骤处理得到多维向量特征;
S1.4、使用one-hot编码对每一条训练集语句对应的实体标记进行编码,得到对照结果向量特征。


3.根据权利要求1所述的一种基于ALBERT的武器装备领域实体抽取方法,其特征在于,所述S2中交叉训练的具体方法为:
S2.1、通过Pytorch神经网络框架实现双向长短时序网络和条件随机场,即BiLSTM-CRF网络模型;
S2.2、设置神经网络相关参数,将对照结果向量特征输入BiLSTM-CRF网络模型进行迭代训练;
S2.3、随着迭代次数增加,当loss值小于阈值时停止训练,得到网络模型参数并存储。


4.根据权利要求1所述的一种基于ALBERT的武器装备实体抽取方法,其特征在于,所述S5具体为:
S5.1、将预测结果标准化,即将预测结果中的小数进行四舍五入取整;
S5.2、将标准化后的预测结果通过反one-hot编码得到实体名称和实体位置,即将结果中的数字映射到实体名称。


5.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:高佩东赵彤洲
申请(专利权)人:武汉工程大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1