【技术实现步骤摘要】
一种多特征双向门控领域专家实体抽取方法及系统
本专利技术属于自然语言处理和信息抽取
,具体涉及一种多特征双向门控领域专家实体抽取方法及系统。
技术介绍
传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果,以及专家简介中大量专业新词无法识别等问题。段大高、赵宁、韩忠明等人提出了一种基于规则模型的实体抽取与关系挖掘构建知识图谱的方法(中国专利ZL201710006826.2),通过将文本信息转换成词向量数学信息,然后进行向量相似度比较,并根据数字间的关系,来标注实体间的关系,但这种方法过度依赖人工标注的结果;张力文、程国艮等人提出了一种面向中文专利文本的实体抽取方法和系统(中国专利公开号CN109101538A),该方法和系统依据词性规则模板,无需人工标注便可对专利文本中的实体自动进行提取,克服了现有技术严重依赖大规模标注语料的缺陷,节省了标注的人力成本,却依赖于现有规则的制订,对新词提取无法识别;牛志超、马语菡、南海涛等人提出了一种基于BERT算法模型的知识图谱构建系统(中国专利公开号CN110866125A), ...
【技术保护点】
1.一种多特征双向门控领域专家实体抽取方法,其特征在于:包括以下步骤:/n步骤1:获取领域专家语料库D1∈{d
【技术特征摘要】
1.一种多特征双向门控领域专家实体抽取方法,其特征在于:包括以下步骤:
步骤1:获取领域专家语料库D1∈{d1,d2,...,dN},其中,d为单条领域专家文本,N为语料大小,对领域专家语料库D1中的语料进行标记,包括将领域关键词实体标记为Key;对标记后的语料库依次进行字符级切分和标记,完成全分词标注语料库D2的构建;
步骤2:定位全分词标注语料库D2中标记为Key的领域关键词实体,获取领域关键词实体的前后向特征,通过前后向特征生成二元共现词汇组,并利用二元共现词汇组构建边界特征向量矩阵E1;将全分词标注语料库D2中的语料通过边界特征向量矩阵E1映射至向量空间,得到边界特征;
步骤3:对领域专家语料库D1进行预处理,并采用预处理后的数据对BERT语言模型进行训练,得到训练好的BERT语言模型BERT_Model,循环遍历领域专家语料库D1中每条领域专家文本,通过BERT_Model得到融合全文语义信息的字特征;
步骤4:拼接边界特征和字特征,得到基于多特征融合的向量数据集D3;基于双向门控神经网络和注意力机制,构建中文领域专家实体抽取模型Model,采用向量数据集D3对中文领域专家实体抽取模型Model进行训练,得到最终可用的中文领域专家实体抽取模型Model;
步骤5:将待抽取领域专家文本输入至最终可用的中文领域专家实体抽取模型Model,得到领域专家实体识别结果。
2.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:在所述步骤1中,需对领域专家语料库进行预处理,所述预处理包括去重和去掉特殊字符;
在步骤1中,所述的对领域专家语料库D1中的语料进行标记,包括:
使用领域专业术语词汇与领域专家语料库D1中的领域关键词实体进行匹配,并标记为Key;
采用YEDDA工具,对领域专家语料库D1中的其他实体进行补充标记,标记类型记为type。
3.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述全分词标注语料库D2由字符对(context,label)构成,其中,context表示切分后的单个字符,label:{offset-type}表示实体的标记,offset表示实体起始到结束的标识,表示为{B,M,E,S},B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词,type表示非领域关键词实体的其他实体的标记类型。
4.根据权利要求1所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述步骤2具体包括:
S201:定位全分词标注语料库D2中标记为Key的领域关键词实体;
S202:设定滑动窗口宽度width,滑动窗口,获取领域关键词实体在滑动窗口宽度width内所有边界的前后向特征;
S203:将前后向特征生成二元共现词汇组,统计各二元共现词汇组以前后顺序同时出现的频率,记为共现频次w;
S204:基于下式计算得到二元共现词汇组出现的概率f:
式中,fi表示第i组二元共现词汇组出现的概率,wi表示第i组二元共现词汇组的共现频次;
S205:构建边界特征矩阵E1=(prev,next,w,f),其中,prev表示二元共现词汇组中的前一个词汇,next表示二元共现词汇组中的后一个词汇,w为二元共现词汇组的共现频次,f为二元共现词汇组出现的概率;
S206:将全分词标注语料库D2中所有单条文本通过边界特征向量矩阵E1,映射至向量空间,得到文本中的边界特征
5.根据权利要求4所述的一种多特征双向门控领域专家实体抽取方法,其特征在于:所述S206具体包括以下步骤:
统计文本边界特征数,并根据下式计算文本中每个字符作为边界特征的可信度P(ci):
其中,ci代表在全分词标注语料库D2中的第i个字符,表示字符ci作为边界的二元概率,表示字符ci在全...
【专利技术属性】
技术研发人员:李翔,张柯文,朱全银,马甲林,王媛媛,方强强,丁行硕,成洁怡,沈天宇,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。