一种案件笔录要素抽取方法技术

技术编号：33376292 阅读：14 留言：0更新日期：2022-05-11 22:44

本发明专利技术公开了一种案件笔录要素抽取方法，首先利用现有案件的人工笔录要素数据，构建序列标注数据集；对序列标注数据集内每条文本进行数据预处理后，用于对文本要素提取模型进行训练，获得用于对案件笔录要素提取的文本要素提取模型；最后在预测阶段，笔录文本预处理后输入已完成训练的文本要素提取模型，将文本数据进行序列标注后，对目标要素进行提取，完成案件笔录要素抽取。利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关，完成进行结果校验。该方法能够自动提取案件笔录文本中的要素，辅助用户实现智能化数据分析。智能化数据分析。智能化数据分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种案件笔录要素抽取方法

[0001]本专利技术属于计算机应用领域，具体涉及一种案件笔录要素抽取方法。

技术介绍

[0002]案件笔录文本的要素提取目的是将笔录文本进行结构化，将笔录数据中被关注的要素进行抽取。目前，由于笔录文本数据结构复杂，信息量大，目前没有成熟的解决方案能够对笔录实现全文的自动要素提取分析，主流的算法是采用关键词库匹配、正则表达式、LSTM+CRF模型等方式针对一小段案件文本片段进行要素提取。
[0003]随着大规模自然语言处理模型的发展与落地，BERT等NLP模型已取代了传统的神经网络，实现了机器模型对文本数据的深层理解。上亿级别的模型参数量能够拟合人理解文本的过程，学习到文本内在的逻辑与表达。在要素提取任务上，BERT+CRF模型能获得最优的效果，以BERT模型产生的词向量能够精确地表征文本的含义，优于传统的词向量生成模式。

技术实现思路

[0004]专利技术目的：本专利技术的目的在于提供一种案件笔录要素抽取方法。
[0005]技术方案：本专利技术所述的一种案件笔录要素抽取方法，该方法包括步骤如下：
[0006](1)利用现有案件的人工笔录要素数据，构建序列标注数据集；
[0007](2)对序列标注数据集内每条文本进行数据预处理后，用于对文本要素提取模型进行训练，获得用于对案件笔录要素提取的文本要素提取模型；
[0008](3)在预测阶段，笔录文本预处理后输入已完成训练的文本要素提取模型，将文本数据进行序列标注后，对目标要素进行提取，完成...

【技术保护点】

【技术特征摘要】
1.一种案件笔录要素抽取方法，其特征在于：该方法包括步骤如下：(1)利用现有案件的人工笔录要素数据，构建序列标注数据集；(2)对序列标注数据集内每条文本进行数据预处理后，用于对文本要素提取模型进行训练，获得用于对案件笔录要素提取的文本要素提取模型；(3)在预测阶段，笔录文本预处理后输入已完成训练的文本要素提取模型，将文本数据进行序列标注后，对目标要素进行提取，完成案件笔录要素抽取。2.根据权利要求1所述的一种案件笔录要素抽取方法，其特征在于：所述的步骤(1)中获取现有案件每条笔录文本对应的待抽取要素，并标记每种要素的类型，将每条笔录文本与其对应的要素文本进行匹配，利用BIO标注模式将笔录文本每一个字符打上对应的要素标签。3.根据权利要求2所述的一种案件笔录要素抽取方法，其特征在于：当笔录文本与其对应的要素文本进行匹配时，若存在若干要素文本与同一笔录文本匹配，则选取字符长度最长的要素文本与笔录文本完成匹配。4.根据权利要求2所述的一种案件笔录要素抽取方法，其特征在于：所述的步骤(2)中文本要素提取模型包括Longformer模型，预处理后的序列标注数据集内的笔录文本输入随机参数初始化的Longformer模型中对模型进行预训练，用于使Longformer模型学习笔录文本数据内的语言逻辑。5.根据权利要求4所述的一种案件笔录要素抽取方法，其特征在于：预训后的Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层连接，形成用于判别每个位置要素类别的文本要素提取模型，将预处理后的要素标注数据输入文本要素提取模型对Longformer模型参数进行微调，直至模型损失满足设定要求。6.根据权利要求4所述的一种...

【专利技术属性】
技术研发人员：叶恺翔，吕晓宝，王元兵，王海荣，
申请(专利权)人：中科曙光南京研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人