【技术实现步骤摘要】
一种基于神经网络的司法领域关系抽取方法及系统
本专利技术涉及关系抽取领域,更具体地说,涉及一种基于神经网络的司法领域关系抽取方法及系统。
技术介绍
近年来,随着人工智能技术的飞速发展,越来越多的研究工作被投入到实际应用中来。关系抽取作为自然语言处理技术的一种强有力表现形式,也伴随着知识图谱研究的火热而备受关注。就实用性来讲,关系抽取作为一项从非结构化文本中抽取有用信息,快速准确获取结构化数据信息的技术,可以有效减轻人工分析海量数据文本的负担。当下,针对特定领域的关系抽取主要基于单语言文本,而且大多研究围绕英文展开。目前检察院办案仍需要对大量的裁判文书文本和刑事案件卷宗文本进行人工筛选和分析,而案情文本和卷宗文本多以半结构或纯原始文本的形式呈现,且文本类别繁多,检察官审阅的过程耗时耗力且工作效率较低,而关系抽取技术是帮助用户快速便捷获取信息的可靠媒介。因此,利用现有关系抽取相关技术,结合司法领域文本特点,实现司法领域文本的关系抽取,对检察院高效率高质量办案有着重大的意义。现存问题:虽然关系抽取的流程均为获取文本数据、文本分词、自然语言处理、实体对预测、关系推理(大多 ...
【技术保护点】
1.一种基于神经网络的司法领域关系抽取方法,其特征在于,包含:S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;S2、对所述司法领域非结构化文本数据进行TF‑IDF词频统计,得到不同罪名及案由所一起构成的特征集;S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。
【技术特征摘要】
1.一种基于神经网络的司法领域关系抽取方法,其特征在于,包含:S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。2.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S1中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。3.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。4.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S3中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。5.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,语料集向量由WordEmbeddings和PositionEmbeddings拼接而成,WordEmbeddings生成每条语料集的词向量,维度记为dw,PositionEmbeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为语料集的最终向量序列表示为w={w1,w2,...,wm};其中,wi=Rd,d=dw+dp*2+dti。6.一种基于神经网络的司法领域关系抽取系统,其...
【专利技术属性】
技术研发人员:梁庆中,王晨威,郑坤,姚宏,刘超,董理君,康晓军,李新川,李圣文,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。