当前位置: 首页 > 专利查询>暨南大学专利>正文

裁判文书答案信息提取方法、装置、提取器、介质和设备制造方法及图纸

技术编号:23162009 阅读:30 留言:0更新日期:2020-01-21 22:02
本发明专利技术公开了一种裁判文书答案信息提取方法、装置、提取器、介质和设备,首先针对于训练样本集中的数据包括裁判文书、问题以及参考答案进行以中文词汇为粒度的分词处理,然后针对于分词获取到的各词块进行编码,得到各词块的文本特征;然后通过各训练样本中各词块的文本特征对ERNIE模型进行训练,得到预测模型;通过训练样本针对深度神经网络进行训练,得到答案验证模型;在进行测试时,将裁判文书和问题进行分词和编码处理后均输入到预测模型中得到预测答案,将预测答案输入到答案验证模型进行验证,在验证通过的情况下,将预测答案作为最终答案,否则判定无解。本发明专利技术大大提高了裁判文书答案信息提取的准确度。

Method, device, extractor, medium and equipment for extracting answer information of referee document

【技术实现步骤摘要】
裁判文书答案信息提取方法、装置、提取器、介质和设备
本专利技术涉及裁判文书信息处理
,特别涉及一种裁判文书答案信息提取方法、装置、提取器、介质和设备。
技术介绍
随着我国法制建设不断发展和完善,海量的中文法律裁判文书(涉及隐私和国家机密,商业秘密除外)被公开,为司法、执法乃至相关法律研究积累了大量的参考素材。法律裁判文书中含有十分丰富的案件关键信息,比如时间、地点、人物关系等等,因此长期以来,法官、律师及其他法律人员会人工地阅读相关中文裁判文书,来获取相关信息。然而人工阅读裁判文书有如下不足:(1)裁判文书的数量巨大,需要花费较多的时间与精力进行检索筛选,这会影响信息获取的效率。(2)在检索到了相关裁判文书后,仍需要人工地排除并非阅读者所需的冗余信息,从而找到有用信息。(3)裁判文书包含相对于非法律专业人士而言晦涩的术语,不利于大多数群众进行直接的阅读理解。因此,机器智能化提取法律文书信息的研究,具有重要的意义。该技术的目的是:使用自然语言处理的模型对裁判文书进行挖掘,在使用者提出问题时,利用机器阅读理解裁判文书,从中提取出相应的回答信息,即答案,从而提高了工作效率。现有可用于文本信息提取的相关技术包括:(1)Hochreiter等人提出的LSTM(Longshort-termmemory长短期记忆)模型,该模型在可以接收并处理不同长度的语句序列,并捕捉出其中的文本特征,但不适用于进行并行计算。(2)Kim提出的CNN模型也可用于裁判文书文本信息提取,该模型更加支持并行计算,但其局部和实体之间的负相关会对模型有影响,在经过几层池化之后,词的位置特征也会丢失,预测结果也受不利影响。(3)BERT模型,该模型利用大量数据集来进行无监督学习的预训练,预训练后的调优是利用特定的数据集来训练以适用于特性场景。许多场景下BERT能取得比LSTM和CNN更好的效果,但它并未引进只是图谱机制,不适用于知识驱动型的NLP任务,经过实验证明其在裁判文书信息提取方面不如基于知识增强的网络模型。综上所述,目前工作成果主要利用文本特征提取信息,没有考虑到文本中语义知识实体的识别、上下文关联的文本特征提取、以及文本语义推理等问题,因此对于裁判文书所提出问题给出的回答信息,现有技术中的几种方法都不够准确。
技术实现思路
本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种裁判文书答案信息提取方法,该方法结合了语义知识实体文本信息提取、知识增强模型和语义推理检验实现裁判文书答案信息的提取,大大提高了裁判文书答案信息提取的准确度。本专利技术的第二目的在于提供一种裁判文书答案信息的提取装置。本专利技术的第三目的在于提供一种裁判文书答案信息提取器本专利技术的第四目的在于提供一种存储介质。本专利技术的第五目的在于提供一种计算设备。本专利技术的第一目的通过下述技术方案实现:一种裁判文书答案信息提取方法,步骤如下:获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参考答案,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到训练样本中裁判文书、问题、参考答案的各词块对应的文本特征;将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入,将训练样本中参考答案的各词块对应的文本特征作为标签对ERNIE模型进行训练,得到预测模型;针对于各训练样本,根据训练样本中裁判文书对应问题的参考答案确定训练样本中裁判文书对应问题是否具备可答性;将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参考答案作为假设均输入到深度神经网络中,将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出,对深度神经网络进行训练,得到答案验证模型;针对于要提取答案的裁判文书,将该裁判文书针对其所提出的问题作为测试样本;针对于测试样本中的裁判文书和问题,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到测试样本中裁判文书和问题中各词块对应的文本特征;将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中,通过预测模型输出测试样本对应的预测答案;将测试样本中裁判文书和问题的连结整体作为前提,将测试样本对应的预测答案作为假设,均输入到答案验证模型,通过答案验证模型得到测试样本对应的预测答案是否具备可答性;若是,则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案;若否,则判定针对于裁判文书所提出的问题是无解的。优选的,训练得到答案验证模型的深度神经网络为长短期记忆网络LSTM或BiLSTM。优选的,针对于训练样本和测试样本中裁判文书和问题的各词块进行编码,生成分词向量、句对向量和位置向量,作为训练样本和测试样本中裁判文书和问题中各词块对应的文本特征;针对于训练样本中裁判文书对应问题的参考答案的各词块进行编码,生成分词向量、句对向量和位置向量,作为训练样本中的参考答案的各词块的文本特征。更进一步的,在得到训练样本和测试样本中裁判文书和问题各词块的分词向量、句对向量和位置向量后,将裁判文书所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量;将问题所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量;在得到训练样本中裁判文书对应问题的参考答案的各词块对应的分词向量、句对向量和位置向量后,将参考答案所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量;在对ERNIE模型进行训练时,将训练样本下得到的第一张量、第二张量作为ERNIE模型的输入,第三张量作为ERNIE模型的标签对ERNIE模型进行训练;在针对测试样本进行测试时,将测试样本下得到的第一张量和第二张量输入到预测模型中。优选的,针对于训练样本和测试样本中裁判文书和问题以及训练样本中裁判文书对应问题的参考答案,分词器利用中文全词覆盖模型处理裁判文书和问题,以词汇为粒度进行分词,得到词语的词块,然后针对各词块进行编码得到各词块对应的分词向量、句对向量和位置向量。优选的,裁判文书和问题的连结指的是:将问题对应的字符串接在裁判文书对应的字符后面。本专利技术的第二目的通过下述技术方案实现:一种裁判文书答案信息提取装置,包括:训练样本获取模块,用于获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;第一分词模块,用于针对于各训练样本中的裁判文书、问题以及各训练样本中裁判文书对应问题的参考答案,以词汇为粒度进行分词;第一编码模块,用于针对于第一分词模块得到的各词块进行编码,得到训练样本中裁判文书、问题和参考答案的各词块对应的文本特征;预测模型构建模块,用于将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入,将各训练本文档来自技高网
...

【技术保护点】
1.一种裁判文书答案信息提取方法,其特征在于,步骤如下:/n获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;/n针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参考答案,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到训练样本中裁判文书、问题、参考答案的各词块对应的文本特征;/n将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入,将训练样本中参考答案的各词块对应的文本特征作为标签对ERNIE模型进行训练,得到预测模型;/n针对于各训练样本,根据训练样本中裁判文书对应问题的参考答案确定训练样本中裁判文书对应问题是否具备可答性;将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参考答案作为假设均输入到深度神经网络中,将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出,对深度神经网络进行训练,得到答案验证模型;/n针对于要提取答案的裁判文书,将该裁判文书针对其所提出的问题作为测试样本;针对于测试样本中的裁判文书和问题,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到测试样本中裁判文书和问题中各词块对应的文本特征;/n将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中,通过预测模型输出测试样本对应的预测答案;/n将测试样本中裁判文书和问题的连结整体作为前提,将测试样本对应的预测答案作为假设,均输入到答案验证模型,通过答案验证模型得到测试样本对应的预测答案是否具备可答性;/n若是,则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案;/n若否,则判定针对于裁判文书所提出的问题是无解的。/n...

【技术特征摘要】
1.一种裁判文书答案信息提取方法,其特征在于,步骤如下:
获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;
针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参考答案,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到训练样本中裁判文书、问题、参考答案的各词块对应的文本特征;
将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入,将训练样本中参考答案的各词块对应的文本特征作为标签对ERNIE模型进行训练,得到预测模型;
针对于各训练样本,根据训练样本中裁判文书对应问题的参考答案确定训练样本中裁判文书对应问题是否具备可答性;将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参考答案作为假设均输入到深度神经网络中,将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出,对深度神经网络进行训练,得到答案验证模型;
针对于要提取答案的裁判文书,将该裁判文书针对其所提出的问题作为测试样本;针对于测试样本中的裁判文书和问题,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到测试样本中裁判文书和问题中各词块对应的文本特征;
将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中,通过预测模型输出测试样本对应的预测答案;
将测试样本中裁判文书和问题的连结整体作为前提,将测试样本对应的预测答案作为假设,均输入到答案验证模型,通过答案验证模型得到测试样本对应的预测答案是否具备可答性;
若是,则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案;
若否,则判定针对于裁判文书所提出的问题是无解的。


2.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,训练得到答案验证模型的深度神经网络为长短期记忆网络LSTM或BiLSTM。


3.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,针对于训练样本和测试样本中裁判文书和问题的各词块进行编码,生成分词向量、句对向量和位置向量,作为训练样本和测试样本中裁判文书和问题中各词块对应的文本特征;针对于训练样本中裁判文书对应问题的参考答案的各词块进行编码,生成分词向量、句对向量和位置向量,作为训练样本中的参考答案的各词块的文本特征。


4.根据权利要求3所述的裁判文书答案信息提取方法,其特征在于,在得到训练样本和测试样本中裁判文书和问题各词块的分词向量、句对向量和位置向量后,将裁判文书所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量;将问题所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量;在得到训练样本中裁判文书对应问题的参考答案的各词块对应的分词向量、句对向量和位置向量后,将参考答案所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量;
在对ERNIE模型进行训练时,将训练样本下得到的第一张量、第二张量作为ERNIE模型的输入,第三张量作为ERNIE模型的标签对ERNIE模型进行训练;在针对测试样本进行测试时,将测试样本下得到的第一张量和第二张量输入到预测模型中。


5.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,针对于训练样本和测试样本中裁判文书和问题以及训练样本中裁判文书对应问题的参考答案,利用中文全词覆盖模型处理裁判文书和问题,以词汇为粒度进行分词,得到词语的词块,然后针对各词块进行编码得到各词块对应的分词向量、句对向量和位置向量。


6.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,裁判文书和问题的连结指的是:将问题对应的字符串接在裁判文书对应的字符后面。


7.一种裁判文书答案信息提取装置,其特征在于,包括:
训练样本获取模块,用于获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;
第一分...

【专利技术属性】
技术研发人员:孙玉霞杨梓铭邝庆璇
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1