基于自然语言理解的伤残等级鉴定及评定依据推演方法技术

技术编号:35471235 阅读:18 留言:0更新日期:2022-11-05 16:17
本发明专利技术提供的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法通过对劳动能力鉴定的病伤情描述文本进行分析,构建基于Bert文本分类的智能伤残等级鉴定模型和基于文本相似度的评定依据匹配模型。在数据预处理之后作为模型输入,得到伤残等级预测的分类结果,再通过降维与评定依据做文本相似度计算匹配到依据。采用本发明专利技术输出的结果作为辅助决策,减少了人工鉴定时间,加快鉴定效率,让申请保障人员尽快享受应有权益。保障人员尽快享受应有权益。保障人员尽快享受应有权益。

【技术实现步骤摘要】
基于自然语言理解的伤残等级鉴定及评定依据推演方法


[0001]本专利技术涉及一种通过自然语言理解辅助伤残等级的评定和评定依据推演的方法,属于智慧政务


技术介绍

[0002]劳动能力鉴定是劳动能力鉴定机构根据国家鉴定标准和有关政策,运用医学科学技术的方法、手段确定劳动者伤残程度和丧失劳动能力程度的一种综合评定,它是给予受伤害职工工伤保险待遇的基础和前提条件,对劳动能力的鉴定是一项复杂而困难的工作,它要求鉴定人员在鉴定过程中要实事求是、客观地做出鉴定。
[0003]人工智能在自然语言处理技术的研究和应用已经涉及到很多领域,人工智能可以在社会保障、普惠便民、科技适老等方面发挥作用,提高社会保障的服务水平和提升鉴定伤残等级的效率。

技术实现思路

[0004]本专利技术的目的是:将自然语言处理技术应用于劳动能力鉴定过程中的劳动者伤残等级鉴定环节,通过模型辅助进行鉴定。
[0005]为了达到上述目的,本专利技术的技术方案是提供了一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,包括以下步骤:
[0006]步骤1、通过文本输入层Input Layer对所输入的病伤情描述文本inputs进行处理,将输入表示为三个Embedding之和的形式:词的Embedding向量、位置的Embedding向量和Segment的Embedding向量,得到文本的输入表征x
in
,如下式所示:
[0007]x
in
=Embedding/>token
(inputs)+Embedding
segment
(inputs)+Embedding
position
(inputs)
[0008]步骤2、特征提取器得到文本语义表征,其中,特征提取器由多个有Transformer的Encoder结构堆栈起来得到,每个有Transformer的Encoder结构由一个多头注意力机制层和一个前馈网络组成,得到每个有Transformer的Encoder结构输出的文本表征为:
[0009]x
mid
=LayerNorm(x
in
+MultiHeadAttention(x
in
))
[0010]x
out
=LayerNorm(x
mid
+FFN(x
mid
))
[0011]式中:LayerNorm()为归一化操作;FFN()为全连接前向神经网络;x
mid
表示中间层输出;x
out
为有Transformer的Encoder结构的最终输出;MultiHeadAttention()为多头注意力机制;
[0012]步骤3、建立四分类模型以及八分类模型,同时在数据层面对数据进行处理:
[0013]在数据层面,将伤残一级到伤残八级所对应的数据整合为第一个等级,其余的伤残九级、伤残十级、未达等级作为另外三个等级,利用四个等级的数据对四分类模型进行训练;
[0014]再将第一个等级按照伤残一级到伤残八级分为八个等级,利用这八个等级的数据
对八分类模型进行训练
[0015]在四分类模型训练过程中,自定义带有权重的交叉熵损失函数以提高模型效果,针对四个等级设置相应的权重,设置的权重越高,则损失越大,则交叉熵损失函数公式为:
[0016][0017]其中,L
i
为第i个类别的损失,p
ij
为第j个样本属于第i个类别的样本真实标签,q
ij
为第j个样本属于第i个类别的预测输出,w
i
为第i个类别的权重;
[0018]步骤4、模型修正
[0019]对于包含“极重度智能损伤”、“小肠切除≥90%”、“重度非肢体瘫运动障碍”的样本数据,四分类模型直接输出等级为第一个等级;
[0020]步骤5、根据病伤情描述,构建评定依据匹配模型,评定依据匹配模型的目标是对于所给的病伤请描述检索得到评定依据的一个子集,根据之前四分类模型以及八分类模型得到的伤残等级,在子集中找到对应等级下相似度最高的评定依据,作为评定依据模型输出结果。
[0021]优选地,步骤2中,所述归一化操作包括以下步骤:
[0022]分别对输入的样本的n个特征求均值和方差,因此可以得到n个均值和方差,然后用这n个均值和方差对n个样本来做归一化,计算公式如下:
[0023][0024][0025][0026]式中,μ
i
表示第i个样本的特征均值,x
ij
表示第i个样本的第j个特征,表示第i个样本的特征方差,表示归一化操作输出的第i个样本的第j个特征归一化值。
[0027]优选地,步骤2中,所述全连接前向神经网络的公式表示为:
[0028]FFN(x)=max(0,W1x+b1)W2+b2[0029]式中,W1、W2为权重参数矩阵,b1、b2为偏置项参数。
[0030]优选地,步骤2中,所述多头注意力机制由多个自注意力机制拼接得到,每个自注意力机制的具体操作步骤如下:
[0031]步骤2.1、依据得到输入表征x
in
,分别乘三个不同权值的参数矩阵W
Q
、W
K
、W
V
,分别得到Query向量Q、Key向量K和Value向量V;
[0032]步骤2.2、为向量计算得分score,score=QK
T
[0033]步骤2.3、为了梯度稳定,将得分score除以从而将得分score归一化,d
k
表示K的长度;
[0034]步骤2.4、对归一化后的得分score施以softmax激活函数;
[0035]步骤2.5、softmax后点乘V,得到加权的每个输入表征x
in
的评分V,即对于每个输入
表征x
in
,每个自注意力机制的输出为:
[0036][0037]式中,Attention(Q,K,V)即为一个自注意力机制针对一个输入表征x
in
的输出;
[0038]将输入表征x
in
输入所有自注意力机制得到的评分V相加之后得到最终的多头注意力机制的输出结果Z,Z=∑V。
[0039]优选地,步骤2中,在对特征提取器进行训练时加入对抗训练,对抗训练统一写成如下格式:
[0040][0041]其中,D代表训练集,x代表输入,y代表标签,E
(x,y)~D
表示经验风险,θ是模型参数,L(x,y;θ)是单个样本的损失,Δx是对抗扰动,Ω是扰动空间。
[0042]优选地,所述步骤5包括以下步骤:
[0043]步骤5.1、学习病伤情描述和评定依据的向量表示,将二者分别映射到一个k维Em本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,包括以下步骤:步骤1、通过文本输入层Input Layer对所输入的病伤情描述文本inputs进行处理,将输入表示为三个Embedding之和的形式:词的Embedding向量、位置的Embedding向量和Segment的Embedding向量,得到文本的输入表征x
in
,如下式所示:x
in
=Embedding
token
(inputs)+Embedding
segment
(inputs)+Embedding
position
(inputs)步骤2、特征提取器得到文本语义表征,其中,特征提取器由多个有Transformer的Encoder结构堆栈起来得到,每个有Transformer的Encoder结构由一个多头注意力机制层和一个前馈网络组成,得到每个有Transformer的Encoder结构输出的文本表征为:x
mid
=LayerNorm(x
in
+MultiHeadAttention(x
in
))x
out
=LayerNorm(x
mid
+FFN(x
mid
))式中:LayerNorm()为归一化操作;FFN()为全连接前向神经网络;x
mid
表示中间层输出;x
out
为有Transformer的Encoder结构的最终输出;MultiHeadAttention()为多头注意力机制;步骤3、建立四分类模型以及八分类模型,同时在数据层面对数据进行处理:在数据层面,将伤残一级到伤残八级所对应的数据整合为第一个等级,其余的伤残九级、伤残十级、未达等级作为另外三个等级,利用四个等级的数据对四分类模型进行训练;再将第一个等级按照伤残一级到伤残八级分为八个等级,利用这八个等级的数据对八分类模型进行训练在四分类模型训练过程中,自定义带有权重的交叉熵损失函数以提高模型效果,针对四个等级设置相应的权重,设置的权重越高,则损失越大,则交叉熵损失函数公式为:其中,L
i
为第i个类别的损失,p
ij
为第j个样本属于第i个类别的样本真实标签,q
ij
为第j个样本属于第i个类别的预测输出,w
i
为第i个类别的权重;步骤4、模型修正对于包含“极重度智能损伤”、“小肠切除≧90%”、“重度非肢体瘫运动障碍”的样本数据,四分类模型直接输出等级为第一个等级;步骤5、根据病伤情描述,构建评定依据匹配模型,评定依据匹配模型的目标是对于所给的病伤请描述检索得到评定依据的一个子集,根据之前四分类模型以及八分类模型得到的伤残等级,在子集中找到对应等级下相似度最高的评定依据,作为评定依据模型输出结果。2.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,所述归一化操作包括以下步骤:分别对输入的样本的n个特征求均值和方差,因此可以得到n个均值和方差,然后用这n个均值和方差对n个样本来做归一化,计算公式如下:
式中,μ
i
表示第i个样本的特征均值,x
ij
表示第i个样本的第j个特征,表示第i个样本的特征方差,表示归一化操作输出的第i个样本的第j个特征归一化值。3.如权利要求1所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,所述全连接前向神经网络的公式表示为:FFN(x)=max(0,W1x+b1)W2+b2式中,W1、W2为权重参数矩阵,b1、b2为偏置项参数。4.如权利要求3所述的一种基于自然语言理解的伤残等级鉴定及评定依据推演方法,其特征在于,步骤2中,所述多头注意力机制由多个自注意力机制拼接得到,每个自注意力机制的具体操作步骤如下:步骤2.1、依据得到输入表征x
in
,分别乘三个不同权值的参数矩阵W
Q
、W
K
、W
V
,分别得到Query向量Q、Key向量K和Value向量V;步骤2.2、为向量计算得分score,score=QK
T
步骤2.3、为了梯度稳定,将得分s...

【专利技术属性】
技术研发人员:李明魏秋月张帅尹向华姜荣强李军焘顾帅栾涌涛矫专本寻延虎
申请(专利权)人:青岛市人力资源发展研究与促进中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1