【技术实现步骤摘要】
裁判文书答案信息提取方法、装置、提取器、介质和设备
本专利技术涉及裁判文书信息处理
,特别涉及一种裁判文书答案信息提取方法、装置、提取器、介质和设备。
技术介绍
随着我国法制建设不断发展和完善,海量的中文法律裁判文书(涉及隐私和国家机密,商业秘密除外)被公开,为司法、执法乃至相关法律研究积累了大量的参考素材。法律裁判文书中含有十分丰富的案件关键信息,比如时间、地点、人物关系等等,因此长期以来,法官、律师及其他法律人员会人工地阅读相关中文裁判文书,来获取相关信息。然而人工阅读裁判文书有如下不足:(1)裁判文书的数量巨大,需要花费较多的时间与精力进行检索筛选,这会影响信息获取的效率。(2)在检索到了相关裁判文书后,仍需要人工地排除并非阅读者所需的冗余信息,从而找到有用信息。(3)裁判文书包含相对于非法律专业人士而言晦涩的术语,不利于大多数群众进行直接的阅读理解。因此,机器智能化提取法律文书信息的研究,具有重要的意义。该技术的目的是:使用自然语言处理的模型对裁判文书进行挖掘,在使用者提出问题时,利用机器阅读理解裁判文书,从中提取出相应的回答信息,即答案,从而提高了工作效率。现有可用于文本信息提取的相关技术包括:(1)Hochreiter等人提出的LSTM(Longshort-termmemory长短期记忆)模型,该模型在可以接收并处理不同长度的语句序列,并捕捉出其中的文本特征,但不适用于进行并行计算。(2)Kim提出的CNN模型也可用于裁判文书文本信息提取,该模型更加支持并行计 ...
【技术保护点】
1.一种裁判文书答案信息提取方法,其特征在于,步骤如下:/n获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;/n针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参考答案,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到训练样本中裁判文书、问题、参考答案的各词块对应的文本特征;/n将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入,将训练样本中参考答案的各词块对应的文本特征作为标签对ERNIE模型进行训练,得到预测模型;/n针对于各训练样本,根据训练样本中裁判文书对应问题的参考答案确定训练样本中裁判文书对应问题是否具备可答性;将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参考答案作为假设均输入到深度神经网络中,将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出,对深度神经网络进行训练,得到答案验证模型;/n针对于要提取答案的裁判文书,将该裁判文书针对其所提出的问题作为测试样本;针对于测试样本中的裁判文书和问题,以词汇为粒度进 ...
【技术特征摘要】
1.一种裁判文书答案信息提取方法,其特征在于,步骤如下:
获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;
针对于各训练样本中的裁判文书、问题以及训练样本中裁判文书对应问题的参考答案,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到训练样本中裁判文书、问题、参考答案的各词块对应的文本特征;
将各训练样本中裁判文书和问题的各词块对应的文本特征作为ERNIE模型的输入,将训练样本中参考答案的各词块对应的文本特征作为标签对ERNIE模型进行训练,得到预测模型;
针对于各训练样本,根据训练样本中裁判文书对应问题的参考答案确定训练样本中裁判文书对应问题是否具备可答性;将各训练样本的裁判文书和问题的连结整体作为前提、将各训练样本中裁判文书对应问题的参考答案作为假设均输入到深度神经网络中,将各训练样本中裁判文书对应问题是否具备可答性的结果作为深度神经网络输出,对深度神经网络进行训练,得到答案验证模型;
针对于要提取答案的裁判文书,将该裁判文书针对其所提出的问题作为测试样本;针对于测试样本中的裁判文书和问题,以词汇为粒度进行分词;然后针对于分词获取到的各词块进行编码,得到测试样本中裁判文书和问题中各词块对应的文本特征;
将测试样本中裁判文书和问题中各词块对应的文本特征输入到预测模型中,通过预测模型输出测试样本对应的预测答案;
将测试样本中裁判文书和问题的连结整体作为前提,将测试样本对应的预测答案作为假设,均输入到答案验证模型,通过答案验证模型得到测试样本对应的预测答案是否具备可答性;
若是,则将预测模型得到的预测答案作为测试样本中裁判文书提出问题的最终答案;
若否,则判定针对于裁判文书所提出的问题是无解的。
2.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,训练得到答案验证模型的深度神经网络为长短期记忆网络LSTM或BiLSTM。
3.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,针对于训练样本和测试样本中裁判文书和问题的各词块进行编码,生成分词向量、句对向量和位置向量,作为训练样本和测试样本中裁判文书和问题中各词块对应的文本特征;针对于训练样本中裁判文书对应问题的参考答案的各词块进行编码,生成分词向量、句对向量和位置向量,作为训练样本中的参考答案的各词块的文本特征。
4.根据权利要求3所述的裁判文书答案信息提取方法,其特征在于,在得到训练样本和测试样本中裁判文书和问题各词块的分词向量、句对向量和位置向量后,将裁判文书所有分词对应的分词向量、句对向量和位置向量进行融合得到第一张量;将问题所有分词对应的分词向量、句对向量和位置向量进行融合得到第二张量;在得到训练样本中裁判文书对应问题的参考答案的各词块对应的分词向量、句对向量和位置向量后,将参考答案所有分词对应的分词向量、句对向量和位置向量进行融合得到第三张量;
在对ERNIE模型进行训练时,将训练样本下得到的第一张量、第二张量作为ERNIE模型的输入,第三张量作为ERNIE模型的标签对ERNIE模型进行训练;在针对测试样本进行测试时,将测试样本下得到的第一张量和第二张量输入到预测模型中。
5.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,针对于训练样本和测试样本中裁判文书和问题以及训练样本中裁判文书对应问题的参考答案,利用中文全词覆盖模型处理裁判文书和问题,以词汇为粒度进行分词,得到词语的词块,然后针对各词块进行编码得到各词块对应的分词向量、句对向量和位置向量。
6.根据权利要求1所述的裁判文书答案信息提取方法,其特征在于,裁判文书和问题的连结指的是:将问题对应的字符串接在裁判文书对应的字符后面。
7.一种裁判文书答案信息提取装置,其特征在于,包括:
训练样本获取模块,用于获取多个裁判文书,各裁判文书对应各问题为已知参考答案的,将各裁判文书及其对应的一个问题作为各训练样本;
第一分...
【专利技术属性】
技术研发人员:孙玉霞,杨梓铭,邝庆璇,
申请(专利权)人:暨南大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。