【技术实现步骤摘要】
一种面向涉税法律文本的命名实体识别依赖增强方法
[0001]本专利技术属于自然语言处理与税控
,特别涉及一种面向涉税法律文本的命名实体识别依赖增强方法。
技术介绍
[0002]各类的税收优惠对于享受主体的资格条件、减免方式、优惠额度等都有较多细节的规定,导致企业对政策了解度低,享受不充分等问题。因此,通过智能化技术帮助企业识别能享受到哪些政策、能享受到多少税额的优惠具有非常重大的意义,可以更好地帮助纳税人享受税收优惠,助力企业提高经营效益,因此有必要开展税收优惠匹配计算研究。
[0003]在税收优惠匹配计算研究中,享受主体的判定涉及税法命名实体识别,即涉税法律文本中具有特定信息的专有名词,例如纳税人、征税对象、税种和税收执行类型等。涉税法律命名实体识别是税收优惠匹配计算的关键技术,如果无法准确识别涉税法律文本中命名实体,将导致税收优惠匹配计算的结果错误,导致不应享受而享,应享而未享等问题。因此,如何利用自然语言处理技术对税法文本中表示特定信息的命名实体进行识别,已成为一个亟待解决的问题。
[0004]目前尚未有相关研究对面向税法文本的命名实体识别提出相应的解决方案。公开技术旨在建立面向涉税法律文本的命名实体识别方法,代表性的工作为:
[0005]文献1:基于深度神经网络的中文命名实体识别方法及系统(202210417839.X)
[0006]文献2:一种医疗领域中文命名实体识别方法(202210268640.5)
[0007]文献3:基于级联模型和数据增强的法律命名实体识 ...
【技术保护点】
【技术特征摘要】
1.一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,包括:首先,执行跨度枚举生成与实体检测,将税务命名实体识别视为跨度分类任务,通过滑动窗口在输入文本上采样,枚举产生大量跨度,并通过特征拼接方法生成每个跨度的深度表示;其次,进行高重叠跨度对比关系挖掘,引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系,增强模型对高度重叠的不同类型实体的区分度;再次,进行跨度间交互依赖关系挖掘,采用了一种尺度变换机制实现跨度交互,从候选跨度的几何信息挖掘交互依赖特征并嵌入原生跨度表示中,增强原生的跨度表示;最后,基于实体检测损失、实体分类损失和对比学习损失,构造一个联合损失函数,对模型进行端到端联合训练。2.根据权利要求1所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,该方法具体包括以下实现步骤:1)跨度枚举生成与实体检测该方法面对的是涉税法律文本,首先需要进行文本表示,将自然语言描述的涉税法律文本转换为低维稠密实值向量;然后在文本上执行滑动窗口枚举,获取每一个跨度,作为实体候选,并将每一个实体候选转化为向量表示;获取实体候选之后,进行实体检测,判断一个候选跨度是否作为一个实体提及,实体提及即可作为实体的文本片段,但尚不知道其类型,实体类型的识别在后续步骤中进行;2)高重叠跨度对比关系挖掘对于高度重叠的跨度,引入跨度级监督对比学习目标;在实体检测标签的指导下,利用对比学习损失寻找同类样本之间的共性,拉进这些同类样本的语义距离,并使得这些样本与不同类的样本之间的语义距离越来越远,从而提高对高度重叠但不同类实体的识别能力;3)跨度间交互依赖关系挖掘挖掘跨度间交互依赖关系,并用这种交互依赖关系增强原生跨度表示;具体来说,将跨度的离散几何特征进行缩放变换,将其转换为相对位移和宽度比,利用尺度变换机制将这种变换嵌入到高维空间,通过自注意力机制与原生跨度表示融合,达到增强原生跨度表示的目的;4)端到端联合训练基于前述步骤获取的前向传播结果,通过联合损失,训练税务命名实体识别多分类器,实现税务命名实体的识别。3.根据权利要求2所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤1)中,跨度枚举生成与实体检测具体包括以下步骤:Step1.联合嵌入文本表示文本表示是指对涉税法律文本进行向量化的操作,将自然语言形态的文本转化为低维稠密实值向量,才能输入模型中执行运算;Step2.候选跨度生成首先,根据预定义的长度L,枚举文本中长度小于或等于L的所有跨度;所有候选跨度形成一个集合:s
set
={s1,s2,...,s
m
},其中s
i
=(start,end)表示第i个候选跨度;其次,通过计算候选跨度和真实实体之间的交并比I
o
U,交并比满足预定义阈值的跨度被视为训练样
本;IoU用于衡量跨度之间的重叠程度,定义为其中A和B是两个跨度;如果真实实体和多个跨度之间的IoU都满足预定义的阈值,则选择这些跨度中IoU最大的跨度作为训练样本;对于这样的训练样本,为它分配和相关联的真实实体相同的标签并计算它们之间的边界偏移量其他跨度被丢弃,不参与训练;Step3.实体检测首先是对跨度进行表示,将跨度转换为分布式表示,对于跨度样本s
i
=(start,end),其中start和end指的是跨度起止字符的索引,拼接边界字符表示与跨度内部字符的最大池化表征,以获得跨度表示[S1,S2,...,S
m
];然后,基于一个多层感知机MLP进行跨度检测:Inner
pool
=MaxPooling(h
start
,
…
,h
end
)其中表示拼接操作,MLP
det
表示执行跨度检测的MLP分类器。4.根据权利要求3所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤1)的Step1中,具体的实施步骤为:首先,使用BERT语言模型作为文本编码器来获得上下文嵌入;为了增强上下文嵌入,将单词嵌入、词性嵌入和字符级嵌入拼接到上下文嵌入后,获得组合嵌入,最后,组合嵌入输入Bi
‑
LSTM以获得最终的文本表示;单词嵌入、词性嵌入和字符级嵌入均从预发布的第三方持久化向量文件中获取。5.根据权利要求3所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤2)中,高重叠跨度对比关系挖掘,具体包括以下步骤:Step1.构造正负样本对在跨度级表示上引入了有监督对比学习损失SCL,以增强模型识别高度重叠跨度的能力;具体而言,SCL损失在跨度检测标签的指导下,寻找阳性样本之间的共性,并将其与阴性样本之间的距离拉远;其中阳性样本指的是被检测为实体提...
【专利技术属性】
技术研发人员:郑庆华,武乐飞,董博,王凯,师斌,赵锐,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。