一种案件笔录要素抽取方法技术

技术编号:33376292 阅读:14 留言:0更新日期:2022-05-11 22:44
本发明专利技术公开了一种案件笔录要素抽取方法,首先利用现有案件的人工笔录要素数据,构建序列标注数据集;对序列标注数据集内每条文本进行数据预处理后,用于对文本要素提取模型进行训练,获得用于对案件笔录要素提取的文本要素提取模型;最后在预测阶段,笔录文本预处理后输入已完成训练的文本要素提取模型,将文本数据进行序列标注后,对目标要素进行提取,完成案件笔录要素抽取。利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关,完成进行结果校验。该方法能够自动提取案件笔录文本中的要素,辅助用户实现智能化数据分析。智能化数据分析。智能化数据分析。

【技术实现步骤摘要】
一种案件笔录要素抽取方法


[0001]本专利技术属于计算机应用领域,具体涉及一种案件笔录要素抽取方法。

技术介绍

[0002]案件笔录文本的要素提取目的是将笔录文本进行结构化,将笔录数据中被关注的要素进行抽取。目前,由于笔录文本数据结构复杂,信息量大,目前没有成熟的解决方案能够对笔录实现全文的自动要素提取分析,主流的算法是采用关键词库匹配、正则表达式、LSTM+CRF模型等方式针对一小段案件文本片段进行要素提取。
[0003]随着大规模自然语言处理模型的发展与落地,BERT等NLP模型已取代了传统的神经网络,实现了机器模型对文本数据的深层理解。上亿级别的模型参数量能够拟合人理解文本的过程,学习到文本内在的逻辑与表达。在要素提取任务上,BERT+CRF模型能获得最优的效果,以BERT模型产生的词向量能够精确地表征文本的含义,优于传统的词向量生成模式。

技术实现思路

[0004]专利技术目的:本专利技术的目的在于提供一种案件笔录要素抽取方法。
[0005]技术方案:本专利技术所述的一种案件笔录要素抽取方法,该方法包括步骤如下:
[0006](1)利用现有案件的人工笔录要素数据,构建序列标注数据集;
[0007](2)对序列标注数据集内每条文本进行数据预处理后,用于对文本要素提取模型进行训练,获得用于对案件笔录要素提取的文本要素提取模型;
[0008](3)在预测阶段,笔录文本预处理后输入已完成训练的文本要素提取模型,将文本数据进行序列标注后,对目标要素进行提取,完成案件笔录要素抽取。
[0009]优选的,步骤(1)中获取现有案件每条笔录文本对应的待抽取要素,并标记每种要素的类型,将每条笔录文本与其对应的要素文本进行匹配,利用BIO 标注模式将笔录文本每一个字符打上对应的要素标签。
[0010]优选的,当笔录文本与其对应的要素文本进行匹配时,若存在若干要素文本与同一笔录文本匹配,则选取字符长度最长的要素文本与笔录文本完成匹配。
[0011]优选的,步骤(2)中文本要素提取模型包括Longformer模型,预处理后的序列标注数据集内的笔录文本输入随机参数初始化的Longformer模型中对模型进行预训练,用于使Longformer模型学习笔录文本数据内的语言逻辑。
[0012]优选的,预训后的Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层连接,形成用于判别每个位置要素类别的文本要素提取模型,将预处理后的要素标注数据输入文本要素提取模型对Longformer 模型参数进行微调,直至模型损失满足设定要求。
[0013]优选的,对序列标注数据集内每条文本进行Token编码处理,并对每一句文本进行截断和补零处理直至每一句文本的长度相同。
[0014]优选的,案件笔录文本包括若干问答文本结构,训练完成的文本要素提取模型对案件笔录要素进行抽取后,利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关,完成进行结果校验。
[0015]优选的,关联模型采用BERT预训练模型,所述的BERT预训练模型的训练步骤如下:
[0016](a)针对数据集中的每篇笔录文本按照问和答的相关关键字进行分割,形成问题文本与回答文本集合,将每个回答文本中的要素文本进行抽取,判断对应的要素类型,形成要素类型集合,将要素类型与对应的问题文本组合拼接,形成标签为1的训练正样本;
[0017](b)将每一个要素类型分别与两个随机问题文本配对拼接,去除其中的正样本,形成标签为0的训练负样本;
[0018](c)将训练正样本与训练负样本随机乱序,输入BERT预训练模型中进行微调训练,训练过程中,将BERT预训练模型的输出叠加全连接网络,经过softmax 函数,输出标签为1或标签为0的分值,与真实的标签计算loss误差,利用梯度下降算法,更新模型权重,得到训练完成的BERT预训练模型。
[0019]优选的,训练完成的BERT预训练模型用于对文本要素提取模型的结果集进行校验,将抽取得到的各要素文本的要素类型与所在问句文本进行文本拼接,输入BERT预训练模型,若BERT预训练模型输出的匹配分值小于设定值,则在结果集中删除该要素文本。
[0020]进一步的,首先获取海量案件笔录文本,用于对LongFormer模型进行训练,案件笔录要素提取是一种序列标注任务,首先抽取每条现有笔录文本对应的地点、角色姓名、身份证号、住址、户籍地等待抽取要素,分别用英文字母标记每种要素的类型,例如将某一角色的姓名标记为“XYR_NAME”;再将笔录文本与要素文本进行匹配,用“BIO标注”的方式,将笔录文本每一个字符打上对应的要素标签,若有两个要素文本都与同一段笔录文本匹配重合,采用最长字符匹配策略,以字符长度较长的要素文本为准。
[0021]进一步的,Longformer模型预训练过程中,将笔录文本数据放入随机参数初始化的Longformer模型中,进行Mask LM和Next Sentence Prediction两类任务的训练,对模型进行预训练,目的是让Longformer模型学习到笔录数据的内在语言逻辑和表达。Longformer模型采用的注意力头个数为12、隐层神经元维度为768,注意力窗口尺寸为512,transformer层数为12,最大句子长度为4096 个字符;通过滑动窗口注意力机制结合全局空洞注意力机制,能够有效地对笔录类长文本进行整体模型训练,克服传统的预训练模型的长度限制,能够契合笔录文本的业务场景。
[0022]将要素标注数据输入文本要素提取模型对Longformer模型参数进行微调过程中,对之前Longformer模型预训练得到的参数进行fine

tune微调,模型以交叉熵作为损失函数,学习率随时间动态递减,利用反向梯度下降算法优化模型中的参数,所述的要素标注数据为完成要素标注的文本数据,而预训练过程中的文本数据为单纯的笔录文本。
[0023]文本要素提取模型中Longformer模型用于提取长文本序列的语义特征,将每一个token进行语义embedding处理;CRF模型用于将每一个字符的embedding 向量转化为对每一个序列标签类型的预测,softmax层用于将模型对标签的预测多分类结果以概率的形式展现出来。
[0024]训练好的文本要素提取模型在预测阶段,将待提取要素的案件笔录文本输入文本要素提取模型进行序列标注,将打上“B_”开头标签的字符以及后面连续的“I_”开头标签的
字符进行抽取拼接,形成机器预测的笔录要素文本。
[0025]进一步的,针对案件笔录文本为一问一答的文本结构,考虑到问题文本与回答文本之间的关联性,利用问题文本与要素文本之间关联性,对文本要素提取模型的输出结果进行验证,利用训练好的BERT预训练模型对问题文本与要素文本之间关联性进行预测。
[0026]在训练BERT预训练模型时,问和答的相关关键字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种案件笔录要素抽取方法,其特征在于:该方法包括步骤如下:(1)利用现有案件的人工笔录要素数据,构建序列标注数据集;(2)对序列标注数据集内每条文本进行数据预处理后,用于对文本要素提取模型进行训练,获得用于对案件笔录要素提取的文本要素提取模型;(3)在预测阶段,笔录文本预处理后输入已完成训练的文本要素提取模型,将文本数据进行序列标注后,对目标要素进行提取,完成案件笔录要素抽取。2.根据权利要求1所述的一种案件笔录要素抽取方法,其特征在于:所述的步骤(1)中获取现有案件每条笔录文本对应的待抽取要素,并标记每种要素的类型,将每条笔录文本与其对应的要素文本进行匹配,利用BIO标注模式将笔录文本每一个字符打上对应的要素标签。3.根据权利要求2所述的一种案件笔录要素抽取方法,其特征在于:当笔录文本与其对应的要素文本进行匹配时,若存在若干要素文本与同一笔录文本匹配,则选取字符长度最长的要素文本与笔录文本完成匹配。4.根据权利要求2所述的一种案件笔录要素抽取方法,其特征在于:所述的步骤(2)中文本要素提取模型包括Longformer模型,预处理后的序列标注数据集内的笔录文本输入随机参数初始化的Longformer模型中对模型进行预训练,用于使Longformer模型学习笔录文本数据内的语言逻辑。5.根据权利要求4所述的一种案件笔录要素抽取方法,其特征在于:预训后的Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层连接,形成用于判别每个位置要素类别的文本要素提取模型,将预处理后的要素标注数据输入文本要素提取模型对Longformer模型参数进行微调,直至模型损失满足设定要求。6.根据权利要求4所述的一种...

【专利技术属性】
技术研发人员:叶恺翔吕晓宝王元兵王海荣
申请(专利权)人:中科曙光南京研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1