一种面向涉税法律文本的命名实体识别依赖增强方法技术

技术编号:37468373 阅读:9 留言:0更新日期:2023-05-06 09:45
本发明专利技术公开了一种面向涉税法律文本的命名实体识别依赖增强方法,包括:将税务命名实体识别视为跨度分类任务,通过滑动窗口从输入文本中枚举大量跨度,并通过特征拼接方法生成每个跨度的深度表示;引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系;采用尺度变换机制实现跨度交互,将每一个候选跨度的几何信息嵌入原生跨度表示中,以编码跨度之间的交互依赖关系。本发明专利技术将税务命名实体识别转换为跨度分类任务,并充分挖掘了实体间交互依赖关系,实现强推断关系,并引入对比学习提高了高重叠实体间不同类型的区分度,可以更加准确、合理地针对税务法律文本中的命名实体进行识别,为税收优惠等下游任务奠定基础。为税收优惠等下游任务奠定基础。为税收优惠等下游任务奠定基础。

【技术实现步骤摘要】
一种面向涉税法律文本的命名实体识别依赖增强方法


[0001]本专利技术属于自然语言处理与税控
,特别涉及一种面向涉税法律文本的命名实体识别依赖增强方法。

技术介绍

[0002]各类的税收优惠对于享受主体的资格条件、减免方式、优惠额度等都有较多细节的规定,导致企业对政策了解度低,享受不充分等问题。因此,通过智能化技术帮助企业识别能享受到哪些政策、能享受到多少税额的优惠具有非常重大的意义,可以更好地帮助纳税人享受税收优惠,助力企业提高经营效益,因此有必要开展税收优惠匹配计算研究。
[0003]在税收优惠匹配计算研究中,享受主体的判定涉及税法命名实体识别,即涉税法律文本中具有特定信息的专有名词,例如纳税人、征税对象、税种和税收执行类型等。涉税法律命名实体识别是税收优惠匹配计算的关键技术,如果无法准确识别涉税法律文本中命名实体,将导致税收优惠匹配计算的结果错误,导致不应享受而享,应享而未享等问题。因此,如何利用自然语言处理技术对税法文本中表示特定信息的命名实体进行识别,已成为一个亟待解决的问题。
[0004]目前尚未有相关研究对面向税法文本的命名实体识别提出相应的解决方案。公开技术旨在建立面向涉税法律文本的命名实体识别方法,代表性的工作为:
[0005]文献1:基于深度神经网络的中文命名实体识别方法及系统(202210417839.X)
[0006]文献2:一种医疗领域中文命名实体识别方法(202210268640.5)
[0007]文献3:基于级联模型和数据增强的法律命名实体识别方法及系统(202110828255.7)
[0008]文献1设计了一种基于深度神经网络的中文命名实体识别方法及系统,通过双向长短词记忆模型BiLSTM网络获取和基于自注意力机制对其进行依赖关系的计算,得到基于依赖关系的特征向量,并通过条件随机场进行标签预测。
[0009]文献2设计了一种医疗领域中文命名实体识别方法,采用BBCPR模型和MCBERT编码器,通过BiLSTM层对融合嵌入进行编码,得到输入序列的最终隐含表示,最后基于CRF层对BiLSTM层的输出进行解码,得到标签序列并输出。
[0010]文献3设计了一种基于级联模型和数据增强的法律命名实体识别方法,通过数据增强并构建了一个级联模型,使用BiLSTM双向长短记忆神经网络对融合字词特征的向量表示进行处理,提取文本的深层特征,并采用两个CRF条件随机场解码,得到实体序列和属性序列并拼接,得到最后的标签表示,进行判断并输出法律文书中的法律实体。
[0011]上述传统方法虽然可以解决特定领域的命名实体识别问题,但是很难直接拓展至涉税法律文本中的命名实体识别上,原因在于税务领域文本中的命名实体的具有嵌套的特点,且相互之间存在强推断关系。
[0012]其一,税务领域文本中的命名实体是相互嵌套的,嵌套实体是指一个实体内部包含另外至少一个实体的现象,比如“节能服务公司实施符合条件的合同能源项目,暂免征收
增值税”,其中“节能服务公司”被定义为“纳税人”类型的实体,而同时“节能服务”被定义为“行业”类型的实体,这两个实体所能提供的语义信息各有侧重,指示了一个涉税法条中不同的涉税要素,即该条法文涉及什么样的纳税人,以及纳税人从事的什么行业,忽略任一个都导致优惠政策匹配失准。上述三个文献都只是针对常规命名实体识别的方法,顾名思义,即不考虑嵌套情况的实体,当实体出现嵌套时,强制删除内部或外部实体,以丢失实体包含的部分语义信息为代价,降低识别难度。这样带来的后果是:丢失了一部分具有明显助益的实体及他们包含的语义信息,破坏了信息抽取的完整度,不利于优惠匹配等下游任务,甚至导致执行优惠匹配时产生错误,对于精确度要求较高的税务领域来说,是不能被接收的。
[0013]其二,税务领域文本中,相互嵌套的命名实体之间存在强推断关系。文本中的不同实体并不是独立存在的,即实体间存在交互依赖关系,这种依赖关系在嵌套实体间更加明显。比如“节能服务公司实施符合条件的合同能源项目,暂免征收增值税”,其中“节能服务公司”和“节能服务”都是命名实体,当前者为“纳税人”类型,后者大概率是“行业”类型,而不太可能是“税种”类型,这是由文本语义决定的。从另一个角度理解,当嵌套结构的一个实体被识别后,该实体可以辅助识别另一个实体,即嵌套实体之间存在某种交互依赖关系。上述三个文献均没有对实体间交互依赖关系提供有效的技术方案,这会损害涉税法律文本中命名实体的识别效果。
[0014]其三,如前所述,税务领域文本中,实体会出现嵌套情况,当实体嵌套时会面临类别混淆问题。在一个嵌套结构(包含数个互相嵌套实体及其所出现的文本段落)中,不同类型的实体共享相同的上下文,即使是不同类型的多个实体,他们的特征会非常相似,这会导致模型识别这种实体变得困难,直接结果是,将“节能服务公司”识别为“行业类型”,而将“节能服务”则被视为“纳税人”类型。同样,上述文献没有对这种问题提供有效的技术方案。
[0015]综上所述,涉税法律文本中的命名实体具有嵌套结构、相互之间存在强推断关系且同类型嵌套实体区分度低的特点,这些问题已成为涉税法律文本实体识别中亟待解决的问题。

技术实现思路

[0016]本专利技术旨在提供一种面向涉税法律文本的命名实体识别依赖增强方法,即基于跨度交互和表征对比的税务命名实体识别方法,将税务命名实体识别建模为跨度分类,提出尺度变换机制挖掘实体间交互依赖关系,并引入有监督跨度对比学习方法,从高度重叠的跨度中挖掘对比关系,构建税务命名实体识别模型。
[0017]本专利技术采用如下技术方案来实现的:
[0018]一种面向涉税法律文本的命名实体识别依赖增强方法,包括:
[0019]首先,执行跨度枚举生成与实体检测,将税务命名实体识别视为跨度分类任务,通过滑动窗口在输入文本上采样,枚举产生大量跨度,并通过特征拼接方法生成每个跨度的深度表示;其次,进行高重叠跨度对比关系挖掘,引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系,增强模型对高度重叠的不同类型实体的区分度;再次,进行跨度间交互依赖关系挖掘,采用了一种尺度变换机制实现跨度交互,从候选跨度的几何信息挖掘交互依赖特征并嵌入原生跨度表示中,增强原生的跨度表示;最后,基于实体检测损失、实体分类损失和对比学习损失,构造一个联合损失函数,对模型进行端到端联合训练。
[0020]本专利技术进一步的改进在于,该方法具体包括以下实现步骤:
[0021]1)跨度枚举生成与实体检测
[0022]该方法面对的是涉税法律文本,首先需要进行文本表示,将自然语言描述的涉税法律文本转换为低维稠密实值向量;然后在文本上执行滑动窗口枚举,获取每一个跨度,作为实体候选,并将每一个实体候选转化为向量表示;获取实体候选之后,进行实体检测,判断一个候选跨度是否作为一个实体提及,实体提及即可作为实体的文本片段,但尚不知道其类型,实体类型的识别在后续步骤中进行;
[0023]2)高重叠跨度对比关系挖掘
[0024本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,包括:首先,执行跨度枚举生成与实体检测,将税务命名实体识别视为跨度分类任务,通过滑动窗口在输入文本上采样,枚举产生大量跨度,并通过特征拼接方法生成每个跨度的深度表示;其次,进行高重叠跨度对比关系挖掘,引入一个对比学习损失,从高度重叠的跨度中挖掘对比关系,增强模型对高度重叠的不同类型实体的区分度;再次,进行跨度间交互依赖关系挖掘,采用了一种尺度变换机制实现跨度交互,从候选跨度的几何信息挖掘交互依赖特征并嵌入原生跨度表示中,增强原生的跨度表示;最后,基于实体检测损失、实体分类损失和对比学习损失,构造一个联合损失函数,对模型进行端到端联合训练。2.根据权利要求1所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,该方法具体包括以下实现步骤:1)跨度枚举生成与实体检测该方法面对的是涉税法律文本,首先需要进行文本表示,将自然语言描述的涉税法律文本转换为低维稠密实值向量;然后在文本上执行滑动窗口枚举,获取每一个跨度,作为实体候选,并将每一个实体候选转化为向量表示;获取实体候选之后,进行实体检测,判断一个候选跨度是否作为一个实体提及,实体提及即可作为实体的文本片段,但尚不知道其类型,实体类型的识别在后续步骤中进行;2)高重叠跨度对比关系挖掘对于高度重叠的跨度,引入跨度级监督对比学习目标;在实体检测标签的指导下,利用对比学习损失寻找同类样本之间的共性,拉进这些同类样本的语义距离,并使得这些样本与不同类的样本之间的语义距离越来越远,从而提高对高度重叠但不同类实体的识别能力;3)跨度间交互依赖关系挖掘挖掘跨度间交互依赖关系,并用这种交互依赖关系增强原生跨度表示;具体来说,将跨度的离散几何特征进行缩放变换,将其转换为相对位移和宽度比,利用尺度变换机制将这种变换嵌入到高维空间,通过自注意力机制与原生跨度表示融合,达到增强原生跨度表示的目的;4)端到端联合训练基于前述步骤获取的前向传播结果,通过联合损失,训练税务命名实体识别多分类器,实现税务命名实体的识别。3.根据权利要求2所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤1)中,跨度枚举生成与实体检测具体包括以下步骤:Step1.联合嵌入文本表示文本表示是指对涉税法律文本进行向量化的操作,将自然语言形态的文本转化为低维稠密实值向量,才能输入模型中执行运算;Step2.候选跨度生成首先,根据预定义的长度L,枚举文本中长度小于或等于L的所有跨度;所有候选跨度形成一个集合:s
set
={s1,s2,...,s
m
},其中s
i
=(start,end)表示第i个候选跨度;其次,通过计算候选跨度和真实实体之间的交并比I
o
U,交并比满足预定义阈值的跨度被视为训练样
本;IoU用于衡量跨度之间的重叠程度,定义为其中A和B是两个跨度;如果真实实体和多个跨度之间的IoU都满足预定义的阈值,则选择这些跨度中IoU最大的跨度作为训练样本;对于这样的训练样本,为它分配和相关联的真实实体相同的标签并计算它们之间的边界偏移量其他跨度被丢弃,不参与训练;Step3.实体检测首先是对跨度进行表示,将跨度转换为分布式表示,对于跨度样本s
i
=(start,end),其中start和end指的是跨度起止字符的索引,拼接边界字符表示与跨度内部字符的最大池化表征,以获得跨度表示[S1,S2,...,S
m
];然后,基于一个多层感知机MLP进行跨度检测:Inner
pool
=MaxPooling(h
start
,

,h
end
)其中表示拼接操作,MLP
det
表示执行跨度检测的MLP分类器。4.根据权利要求3所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤1)的Step1中,具体的实施步骤为:首先,使用BERT语言模型作为文本编码器来获得上下文嵌入;为了增强上下文嵌入,将单词嵌入、词性嵌入和字符级嵌入拼接到上下文嵌入后,获得组合嵌入,最后,组合嵌入输入Bi

LSTM以获得最终的文本表示;单词嵌入、词性嵌入和字符级嵌入均从预发布的第三方持久化向量文件中获取。5.根据权利要求3所述的一种面向涉税法律文本的命名实体识别依赖增强方法,其特征在于,步骤2)中,高重叠跨度对比关系挖掘,具体包括以下步骤:Step1.构造正负样本对在跨度级表示上引入了有监督对比学习损失SCL,以增强模型识别高度重叠跨度的能力;具体而言,SCL损失在跨度检测标签的指导下,寻找阳性样本之间的共性,并将其与阴性样本之间的距离拉远;其中阳性样本指的是被检测为实体提...

【专利技术属性】
技术研发人员:郑庆华武乐飞董博王凯师斌赵锐
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1