基于答案类别和句法指导的案情阅读理解方法技术

技术编号:29157434 阅读:23 留言:0更新日期:2021-07-06 22:57
本发明专利技术涉及基于答案类别和句法指导的案情阅读理解方法。本发明专利技术首先对训练数据中无答案类、是类否类进行数据扩充;然后经过数据预处理将数据输入到词嵌入层,在词嵌入层对篇章和问题进行向量化;紧接着在表示编码层将文本的词嵌入、词性、命名实体、二进制特性、词注意力、字符注意力以及MT‑LSTM向量进行拼接综合文本的整体信息编码;通过两层GRU进行上下文语义理解;然后通过注意力及融合层进行重要信息提取同时做答案有无二分类;最终利用输出层获取答案的起始位置和答案三分类。本发明专利技术通过答案类别及句法信息,提升模型对案情文本的编码能力。与同类模型相比,所提出方法有效提升了案情阅读理解的EM值和F1值。

【技术实现步骤摘要】
基于答案类别和句法指导的案情阅读理解方法
本专利技术涉及基于答案类别和句法指导的案情阅读理解方法,属于自然语言处理

技术介绍
机器阅读理解在人工智能领域是一个挑战性的任务,而案情阅读理解是机器阅读理解在司法领域的重要应用,有望辅助相关工作人员以问答的方式获取案件信息。近年来,随着深度学习技术的发展,出现了许多基于神经网络的阅读理解方法。其中基于深度学习的抽取式阅读理解,普遍的模型是将问题和篇章编码共同输入到模型当中,最后输出答案片段。这些阅读理解模型,都是通过问题和篇章的语义编码,互注意力及自注意力机制获取篇章中与问题相关的信息,最后通过Pointer网络提取问题的答案。机器阅读理解在司法智能方面有着很多的应用,基于裁判文书的案情阅读理解就是重要的应用之一。案情阅读理解是通过计算机阅读用户指定的裁判文书案情,并回答用户提出的问题。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建模的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。但是在实际应用当中,用户提出的问题本文档来自技高网...

【技术保护点】
1.基于答案类别和句法指导的案情阅读理解方法,其特征在于:所述方法包括:/nStep1、首先对训练数据中无答案类、是类否类进行数据扩充;/nStep2、然后经过数据预处理将数据输入到词嵌入层,在词嵌入层对篇章和问题进行向量化;/nStep3、紧接着在表示编码层将文本的词嵌入、词性、命名实体、二进制特性、词注意力、字符注意力以及MT-LSTM向量进行拼接综合文本的整体信息编码;/nStep4、通过两层GRU进行上下文语义理解;/nStep5、然后通过注意力及融合层进行重要信息提取同时做答案有无二分类;/nStep6、最终利用输出层获取答案的起始位置和答案三分类。/n

【技术特征摘要】
1.基于答案类别和句法指导的案情阅读理解方法,其特征在于:所述方法包括:
Step1、首先对训练数据中无答案类、是类否类进行数据扩充;
Step2、然后经过数据预处理将数据输入到词嵌入层,在词嵌入层对篇章和问题进行向量化;
Step3、紧接着在表示编码层将文本的词嵌入、词性、命名实体、二进制特性、词注意力、字符注意力以及MT-LSTM向量进行拼接综合文本的整体信息编码;
Step4、通过两层GRU进行上下文语义理解;
Step5、然后通过注意力及融合层进行重要信息提取同时做答案有无二分类;
Step6、最终利用输出层获取答案的起始位置和答案三分类。


2.根据权利要求1所述的基于答案类别和句法指导的案情阅读理解方法,其特征在于:所述Step1中,具体是把有答案片段的问题对应的篇章中的答案片段删去和该问题一起作为无答案类来扩充无答案数据,把是否类问题中的实体换成对应实体的英文表示来扩充是否类数据。


3.根据权利要求1所述的基于答案类别和句法指导的案情阅读理解方法,其特征在于:所述Step1中,输入是裁判文书的案情描述和相关的问题,分别为和经数据扩充及Step2的数据预处理得到相应的分词序列:P={p0,p1,...,pn-1}和Q={q0,q1,...,qm-1}、分字序列表示:
P={{p11,...,p1l},...,{pi1,...,pil},...,{pn1,...,pnl}}和
Q={{q11,...,q1l},...,{qi1,...,qil},...,{qm1,...,qml}}。


4.根据权利要求3所述的基于答案类别和句法指导的案情阅读理解方法,其特征在于:所述Step2中,在词嵌入层将文本的分词序列及分字序列输入到词嵌入层分别得词嵌入和字符词嵌入;...

【专利技术属性】
技术研发人员:线岩团何正海相艳王红斌王蒙
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1