一种基于领域词典的中文农业命名实体识别方法技术

技术编号:34852625 阅读:32 留言:0更新日期:2022-09-08 07:53
本发明专利技术提供了一种基于领域词典的中文农业命名实体识别方法,包括:步骤一,原始中文农业文本标注;步骤二,原始中文农业文本向量化;步骤三,农业领域词集构建;步骤四,农业领域词典构建;步骤五,字符向量加强;步骤六,序列编码;步骤七,序列编码增强;步骤八,利用CRF对序列编码增强结果进行解码处理,预测出每个字符对应的标签,从而实现中文农业命名实体识别。本发明专利技术对分词工具进行加强后构造农业领域词典,并通过字符向量加强层,将词汇信息融入字符向量中,可以让模型充分利用字符信息与词汇信息,此外本发明专利技术基于通道注意力机制提出序列编码增强模块,进一步提高模型的特征提取能力。力。力。

【技术实现步骤摘要】
一种基于领域词典的中文农业命名实体识别方法


[0001]本专利技术属于农学
,涉及信息抽取,具体涉及一种基于领域词典的中文农业命名实体识别方法。

技术介绍

[0002]命名实体识别是关系抽取等其它自然语言处理任务的基础和关键任务。它将具有特定意义的实体从非结构文本中提取出来,并将其归入预定类别。在中文农业领域,中文农业命名实体识别旨在从非结构化中文农业文本中识别农业相关实体的边界与类型,如病害、虫害、农药等实体。是从海量中文农业文本中自动挖掘知识的关键技术,同样也是构建农业知识图谱、构建农业智能问答系统等下游任务的基础。
[0003]中文农业命名实体识别任务的传统方法可以分为基于规则的、基于字典匹配、基于机器学习等方法。虽然这些方法可以取得不错的效果,但是他们严重依赖于耗费时间与精力的模式匹配与特征工程,而且泛化性不理想。随着深度学习在命名实体识别领域的深入应用,中文农业命名实体识别发展到了基于深度学习阶段。
[0004]对于基于深度学习的模型,在模型中引入分词信息对实体边界的识别有积极作用,有利于模型学到更多农业文本特征。由于中文农业文本中专业词汇多、领域特征强等特点,致使分词工具处理农业文本时易产生分词错误,因此目前基于深度学习的研究多为了避免在模型中引入分词错误而采用基于字符的模型。因此,如何改善分词工具对农业文本不敏感问题并构建领域词典,在模型中融入农业词汇信息进而准确识别农业相关命名实体,构造具备更强特征提取能力的模型,是本领域技术人员亟需解决的技术问题。

技术实现思路

>[0005]针对现有技术存在的不足,本专利技术的目的在于,提供一种基于领域词典的中文农业命名实体识别方法,解决现有技术中的识别方法的特征提取能力有待进一步提升的技术问题。
[0006]为了解决上述技术问题,本专利技术采用如下技术方案予以实现:
[0007]一种基于领域词典的中文农业命名实体识别方法,该方法按照以下步骤进行:
[0008]步骤一,原始中文农业文本标注:
[0009]选择BMESO标签对原始中文农业文本进行实体标注,同时在B、M、E和S后跟实体类别;
[0010]所述的BMESO标签中,B表示实体词的开始(Begin),M表示实体词的中间(Middle),E表示实体词的结束(End),S表示单个字为一个实体词(Single),O表示其它的词(Other);
[0011]所述的实体类别包含了农药、虫害、病害和作物;
[0012]步骤二,原始中文农业文本向量化:
[0013]用词嵌入技术Word2Vec将中文农业文本训练为字符向量,得到给定长度为n的输入序列X=(x1,x2,x3,
……
,x
n
)∈V
c
,V
c
是字符,每个字符都用经过训练的稠密向量来表示:
其中e
c
表示字符嵌入查找表;
[0014]步骤三,农业领域词集构建:
[0015]首先通过N

Gram切词方法将原始中文农业文本切分为字符串,得到候选词;然后根据字符串的词频、互信息和邻接熵三个统计量依次过滤垃圾字符串得到新词集合;将新词集合补充到结巴分词工具内置词典中进行加强,用加强后的结巴分词工具对原始中文农业文本进行分词,得到农业领域词集;
[0016]步骤四,农业领域词典构建:
[0017]对步骤三得到的农业领域词集进行词嵌入操作后得到农业领域词典;
[0018]步骤五,字符向量加强:
[0019]对步骤四构造的农业领域词典加以应用,对模型输入序列S=(x1,x2,x3,
……
,x
n
)∈V
c
中每个字符进行词典匹配,并将匹配到的农业领域词典对应的步骤四得到的词汇向量融入到字符对应的步骤二得到的字符向量中,以实现字符向量加强;
[0020]步骤六,序列编码:
[0021]采用BiLSTM做序列编码层,将步骤五得到的加强后的字符向量输入序列编码层中进行序列编码,得到序列编码结果,即得到特征图H∈R
C
×
W

[0022]步骤七,序列编码增强:
[0023]构造通道注意力模块,基于通道注意力模块对特征图H∈R
C
×
W
进行序列编码增强,得到序列编码结果K∈R
C
×
W

[0024]步骤八,利用CRF对序列编码结果K∈R
C
×
W
进行解码处理,CRF可以根据步骤一中原始中文农业文本标注的结果,对序列编码结果K∈R
C
×
W
中每个字符对应的BMESO标签进行概率计算,并通过标准Viterbi算法求解最大概率,得到每个字符的标签,实现中文农业命名实体识别。
[0025]本专利技术还具有如下技术特征:
[0026]步骤三中具体包括以下步骤:
[0027]步骤3.1,N

gram切词:
[0028]N

gram切词的具体过程为:将原始中文农业文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列,每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表;
[0029]步骤3.2,统计量计算:
[0030]对候选词进行词频、互信息和左右邻接熵计算,形成基于词频、互信息、左邻接熵和右邻接熵的候选词过滤体系;
[0031]步骤3.3,候选词筛选:
[0032]对每一个候选词进行词频、互信息和邻接熵计算后,依次设置相应阈值进行候选词过滤,将最后的过滤结果定为新词集合,并加入到基于词典的结巴分词工具的内置词典中,对结巴分词工具进行加强,以提高分词工具对农业文本的适应性;
[0033]步骤3.4,农业领域词集构建:
[0034]用加强后的结巴分词工具对原始中文农业文本进行分词,得到农业领域词集。
[0035]步骤四中,具体过程为:采用与步骤二相同的方法,用Word2Vec将农业领域词集中的每个词汇训练成词向量,得到给定长度为n的输入序列X=(x1,x2,x3,
……
,x
n
)∈V
c
,V
c

领域词集,x是词集合中的词,每个词都用经过训练的稠密向量来表示:其中e
c
表示词嵌入查找表;农业领域词集合中的词汇训练成向量后,构成农业领域词典。
[0036]步骤五中,具体过程为:
[0037]步骤501,模型输入序列中每个字符进行词汇匹配;
[0038]步骤501中具体包括:从步骤四构造的农业领域词典中匹配到包含该字符的词汇,为了保留所有字符信息以及其匹配到的词汇信息,依据模型输入序本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于领域词典的中文农业命名实体识别方法,其特征在于,该方法按照以下步骤进行:步骤一,原始中文农业文本标注:选择BMESO标签对原始中文农业文本进行实体标注,同时在B、M、E和S后跟实体类别;所述的BMESO标签中,B表示实体词的开始,M表示实体词的中间,E表示实体词的结束,S表示单个字为一个实体词,O表示其它的词;所述的实体类别包含了农药、虫害、病害和作物;步骤二,原始中文农业文本向量化:用词嵌入技术Word2Vec将中文农业文本训练为字符向量,得到给定长度为n的输入序列X=(x1,x2,x3,
……
,x
n
)∈V
c
,V
c
是字符,每个字符都用经过训练的稠密向量来表示:x
ic
=e
c
(x
i
),其中e
c
表示字符嵌入查找表;步骤三,农业领域词集构建:首先通过N

Gram切词方法将原始中文农业文本切分为字符串,得到候选词;然后根据字符串的词频、互信息和邻接熵三个统计量依次过滤垃圾字符串得到新词集合;将新词集合补充到结巴分词工具内置词典中进行加强,用加强后的结巴分词工具对原始中文农业文本进行分词,得到农业领域词集;步骤四,农业领域词典构建:对步骤三得到的农业领域词集进行词嵌入操作后得到农业领域词典;步骤五,字符向量加强:对步骤四构造的农业领域词典加以应用,对模型输入序列S=(x1,x2,x3,
……
,x
n
)∈V
c
中每个字符进行词典匹配,并将匹配到的农业领域词典对应的步骤四得到的词汇向量融入到字符对应的步骤二得到的字符向量中,以实现字符向量加强;步骤六,序列编码:采用BiLSTM做序列编码层,将步骤五得到的加强后的字符向量输入序列编码层中进行序列编码,得到序列编码结果,即得到特征图H∈R
C
×
W
;步骤七,序列编码增强:构造通道注意力模块,基于通道注意力模块对特征图H∈R
C
×
W
进行序列编码增强,得到序列编码结果K∈R
C
×
W
;步骤八,利用CRF对序列编码结果K∈R
C
×
W
进行解码处理,CRF可以根据步骤一中原始中文农业文本标注的结果,对序列编码结果K∈R
C
×
W
中每个字符对应的BMESO标签进行概率计算,并通过标准Viterbi算法求解最大概率,得到每个字符的标签,实现中文农业命名实体识别。2.如权利要求1所述的基于领域词典的中文农业命名实体识别方法,其特征在于,步骤三中具体包括以下步骤:步骤3.1,N

gram切词:N

gram切词的具体过程为:将原始中文农业文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列,每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表;步骤3.2,统计量计算:
对候选词进行词频、互信息和左右邻接熵计算,形成基于词频、互信息、左邻接熵和右邻接熵的候选词过滤体系;步骤3.3,候选词筛选:对每一个候选词进行词频、互信息和邻接熵计算后,依次设置相应阈值进行候选词过滤,将最后的过滤结果定为新词集合,并加入到基于词典的结巴分词工具的内置词典中,对结巴分词工具进行加强,以提高分词工具对农业文本的适应性;步骤3.4,农业领域词集构建:用加强后的结巴分词工具对原始中文农业文本进行分词,得到农业领域词集。3.如权利要求1所述的基于领域词典的中文农业命名实体识别方法,其特征在于,步骤四中,具体过程为:采用与步骤二相同的方法,用Word2Vec将农业领域词集中的每个词汇训练成词向量,得到给定长度为n的输入序列X=(x1,x2,x3,
……
,x
n
)∈V
c
,V
c
是领域词集,x是词集合中的词,每个词都用经过训练的稠密向量来表示:x
ic
=e
c
(x
i
),其中e
c
表示词嵌入查找表;农业领域词集合中的词汇训练成向量后,构成农业领域词典。4.如权利要求1所述的基于领域词典的中文农业命名实体识别方法,其特征在于,步骤五中,具体过程为:步骤501,模型输入序列中每个字符进行词汇匹配;步骤501中具体包括:从步骤四构造的农业领域词典中匹配到包含该字符的词汇,为了保留所有字符信息以及其匹配到的词汇信息,依据模型输入序中每个字符x
...

【专利技术属性】
技术研发人员:张宏鸣张礼麟牛当当聂啸林吕志明宋荣杰朱珊娜蒲攀黄铝文
申请(专利权)人:西北农林科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1