基于食品文献数据的多维度特征命名实体识别方法及系统技术方案

技术编号:30699940 阅读:30 留言:0更新日期:2021-11-06 09:35
本发明专利技术涉及一种基于食品文献数据的多维度特征命名实体识别方法及系统,其方法包括:S1:获得食品领域文献的语料;S2:获取食品领域文献的字偏旁和字拼音,分别输入BiLSTM模型,获得字偏旁特征向量S和字拼音特征向量P;S3:对Bert模型进行预训练,得到训练好的预训练模型;把S1得到语料输入训练好的预训练模型,得到字维度的特征向量;S4:将字维度的特征向量、字偏旁特征向量和字拼音特征向量输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;S5:将融合全文语义信息的特征向量输入CRF模型,最后得到命名实体识别结果。本发明专利技术通过将字的偏旁特征、拼音特征加入字维度向量表示中,提高了面向食品领域的文献数据的命名实体识别的准确性。命名实体识别的准确性。命名实体识别的准确性。

【技术实现步骤摘要】
基于食品文献数据的多维度特征命名实体识别方法及系统


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于食品文献数据的多维度特征命名实体识别方法及系统。

技术介绍

[0002]随着人们对食品领域的重视,与食品相关的文献资源迅速增长。面向食品领域的文献是展示科研成果的主要方式之一,内容包括研究目的、研究方法、实验过程、研究结果、研究意义等。学术文献是具有高度专业价值的知识资源类型,是一种较为规范的文本形式,食品领域的学术文献包含了专业术语、概念,以及权威数据。这些文本内容以非结构化方式存在,包含大量食品专业领域的实体。通过对食品领域的文献数据信息建模,自动抽取文献中的关键实体,提取出有效的语义知识,该研究成果可应用在实体关系抽取、自动问答、语义网标注、知识图谱等食品研究领域,成为更好研究自然语言处理方向的基石。
[0003]早期用来命名实体识别的方法主要是基于规则的方法和基于字典的方法,但随着语料的增加制定的规则也将越来越繁琐,使用基于规则的方法和基于字典的方法就会过于费时费力。随着大数据时代的到来,如HMM、SVM和CRF等传统本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于食品文献数据的多维度特征命名实体识别方法,其特征在于,包括:步骤S1:利用爬虫技术在网络上获取食品领域文献摘要,通过人工与算法结合的方式对所述食品领域文献摘要进行数据处理工作,获得食品领域文献的语料;步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P;步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把所述食品领域文献的语料输入所述训练好的预训练模型中进行增量训练,得到字维度的特征向量Z;步骤S4:将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量;步骤S5:将所述融合全文语义信息的特征向量输入CRF模型,计算标签结果,最后得到命名实体识别结果。2.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S2:利用爬虫技术在网络上获取食品领域文献的字偏旁和字拼音,分别将其输入到BiLSTM模型中进行编码,获得字偏旁特征向量S和字拼音特征向量P,具体包括:获取所述字偏旁特征向量S=[s1,s2,s3...s
n
]是利用中文偏旁能间接代表中文字的含义,获取与食物有关的字偏旁,其中,s
i
是与食物有关的字偏旁向量;获取所述字拼音特征向量P=[p1,p2,p3...p
m
]是利用汉语拼音中包含字词语义的有效信息,其中,p
i
是与食物有关的字拼音向量。3.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S3:利用开放领域语料对Bert模型进行预训练,得到训练好的预训练模型;把所述食品领域文献的数据库中的数据输入所述训练好的Bert模型中进行增量训练,得到字维度的特征向量Z,具体包括:步骤S31:利用开放领域的语料对Bert模型进行预训练,得到“Bert

Base

Uncased”预训练模型;步骤S32:利用步骤S1中所述食品领域文献的语料对所述预训练模型进行增量训练,加入额外的中文食品领域特征,得到基于Bert模型的食品领域文献语料的字维度的特征向量Z=[z1,z2,z3...z
k
]。4.根据权利要求1所述的基于食品文献数据的多维度特征命名实体识别方法,其特征在于,所述步骤S4:将所述字维度的特征向量Z、所述字偏旁特征向量S和所述字拼音特征向量P输入基于BiLSTM的神经网络模型,得到融合全文语义信息的特征向量,具体包括:将所述字维度向量表示Z、所述字偏旁特征向量S和所述字拼音特征向量P进行拼接,得到X=concatenate(Z,S,P),将X输入如下述公式(1)~公式(6)所示BiLSTM的神经网络模型:i
t
=σ(W
xi
x
t
+W
hi
h
t
‑1+W
ci
c
t
‑1+b
i
)
ꢀꢀꢀꢀ
(1)f
t
=σ(W
xf
x
t
+W
hf
h
t
‑1+W
cf
c
t
‑1+b
f
)
ꢀꢀ
(2)g
t
=tanh(W
xc
x
t
+W
hc
h

【专利技术属性】
技术研发人员:雷雪方德英张青川蔡圆媛
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1