【技术实现步骤摘要】
一种基于机器阅读理解的起诉状信息抽取方法及系统
本专利技术涉及自然语言处理
,具体涉及一种基于机器阅读理解的起诉状信息抽取方法及系统。
技术介绍
起诉状,是当事人因自身合法权益遭受侵害向人民法院提起诉讼请求的文书。现行一般采用OCR识别技术将起诉状扫描件中的诉讼请求转换为可编辑的文字,再辅助于人民法院后续的审判工作。利用OCR将图片信息转换为文本信息后,采用基于正则与序列标注的模式抽取起诉状中的信息,该方法无法解决词义不完全匹配,跨句识别,是否类等司法常见问题。
技术实现思路
本专利技术所要解决的技术问题是现有的起诉状信息化处理技术无法解决词义不完全匹配,跨句识别,是否类等司法常见问题,目的在于提供一种基于机器阅读理解的起诉状信息抽取方法及系统,解决上述问题。本专利技术通过下述技术方案实现:一种基于机器阅读理解的起诉状信息抽取方法,包括以下步骤:S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;S2:从三元样本集中提取训练集 ...
【技术保护点】
1.一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,包括以下步骤:/nS1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;/nS2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;/nS3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;/nS4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量 ...
【技术特征摘要】
1.一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,包括以下步骤:
S1:标注起诉状样本集得到三元样本集;所述三元样本集中每个元素均为一个三元组;所述三元组包括文档、问题和答案;
S2:从三元样本集中提取训练集,并将训练集输入预训练模型得到起诉状向量序列X;
S3:利用篇章段落向量嵌入算法Doc2Vec将裁判文书样本集中每一个样本均嵌入成向量,得到文书向量序列Y;所述裁判文书样本集中样本的类型与所述起诉状样本集中样本的类型相同;
S4:根据所述起诉状向量序列X中起诉状向量的个数选取文书向量序列Y中的文书向量,聚合选取出的文书向量与起诉状向量序列X中的起诉状向量得到最终向量Z;
S5:将最终向量Z输入预训练模型,并将预训练模型的最终隐藏状态转换为答案跨度的概率,生成最终模型;
S6:将需要抽取信息的起诉状输入最终模型抽取起诉状信息。
2.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S1包括以下子步骤:
归类处理需要提取的信息;
将需要提取的信息的上下文篇章对应为文档,并根据需要提取的信息的类型在文档中设置问题和问题对应的答案;
利用文档、问题和答案生成三元组。
3.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S2包括以下子步骤:
对三元样本集中每个元素中的问题添加第一标记;
连接问题与问题对应的段落,并在问题和段落之间添加第二标记;
将添加了第一标记和第二标记的元素通过tokenEmbedding、segmentembedding和positionalembedding输入预训练模型;
预训练模型根据第一标记和第二标记将tokenEmbedding、segmentembedding和positionalembedding的聚合向量表示为序列X。
4.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,步骤S5包括以下子步骤:
利用softmax函数将所述预训练模型的最终隐藏状态转换为答案跨度的概率。
5.根据权利要求1所述的一种基于机器阅读理解的起诉状信息抽取方法,其特征在于,所述三元样本集还包括验证集和测试集;
步骤S2还包括以下子步骤:
将训练集输入预训练模型得到起诉状向量序列X时,利用验证集验证预训练模型的结果,并利用测试集测试预训练模型的结果。
6.一种基于机器...
【专利技术属性】
技术研发人员:翁洋,王竹,李鑫,其他发明人请求不公开姓名,
申请(专利权)人:四川大学,成都数之联科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。