基于BERT并融合N-gram特征的实体抽取方法技术

技术编号：35432107 阅读：11 留言：0更新日期：2022-11-03 11:37

本发明专利技术涉及基于BERT并融合N

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT并融合N
‑
gram特征的实体抽取方法

[0001]本专利技术涉及信息抽取
，特别涉及一种基于BERT并融合N
‑
gram特征的实体抽取方法。

技术介绍

[0002]为了自动从大量的文本信息中抽取出所需要的实体信息，目前的实体抽取方法使用的基本都是BERT+CRF模型的方法，在BERT预训练模型的基础下进行微调，然后进行实体的抽取。
[0003]使用BERT+CRF模型进行实体抽取的能力主要取决于模型对文本信息特征的提取，其中BERT预训练模型的输入都是以单字为基础，经过多个Transformer encode模块，提取文本信息的高维特征，然后根据提取的文本特征对每个字进行实体类别分类。提取出的高维特征中蕴含的信息越丰富，则进行实体抽取时准确率越高。
[0004]但是中文的汉字之间都是会有一些联系的，割裂来看其中的文字是不能准确得到其中信息的。BERT预训练模型的结构中虽然有Self
‑
Attention层的存在，能够一定程度上使单个汉字与其他汉字产生联系，但是这种联系是远远不够的。这就使得最终提取出来的高维特征中蕴含的信息不够丰富，影响对最终实体抽取的准确率。

技术实现思路

[0005]本专利技术的目的在于充分发挥文本数据的上下文信息，基于BERT预训练模型与N
‑
gram特征进行融合后，能够较大程度的挖掘文本的信息，提高实体抽取的准确性，提供一种基于BERT并融合N
‑
gra...

【技术保护点】

【技术特征摘要】
1.基于BERT并融合N
‑
gram特征的实体抽取方法，其特征在于：包括以下步骤：步骤S1，将语料文本输入BERT预训练模型转换为字向量；步骤S2，基于语料文本构建N
‑
gram特征向量，所述N
‑
gram特征向量的维度与字向量的维度相同；步骤S3，将字向量和N
‑
gram特征向量进行融合，得到融合后的高维向量；步骤S4，将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码，得到语料文本中每个字符是否属于某一实体的概率分布。2.根据权利要求1所述的基于BERT并融合N
‑
gram特征的实体抽取方法，其特征在于：所述将语料文本输入BERT预训练模型转换为字向量的步骤，包括：将语料文本划分为若干条目标语句，使用BIO标注方法对每条目标语句中的实体部分和非实体部分进行标注，其中B表示实体的开始字符，I表示实体的非开始字符，O表示非实体字符；将标注后的目标语句按照BERT预训练模型的词库字典转换为序列ID，并在目标语句的开始位置插入特殊字符CLS，在目标语句的结束位置插入特殊字符SEP，以及对每条目标语句配置segment embedding，segment embedding为与目标语句维度相同的全零矩阵；将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型中，BERT预训练模型根据序列ID在embedding层中进行查表，获得字向量。3.根据权利要求1所述的基于BERT并融合N
‑

【专利技术属性】
技术研发人员：石文翔，李光林，李军，
申请(专利权)人：北京道达天际科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人