System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种提取信息的方法及装置制造方法及图纸_技高网

一种提取信息的方法及装置制造方法及图纸

技术编号:40634943 阅读:7 留言:0更新日期:2024-03-13 21:19
本发明专利技术公开了一种提取信息的方法及装置,涉及信息提取技术领域,主要目的在于实现在不同结构标准的司法文书中准确识别出每个当事人的信息。本发明专利技术主要的技术方案为:根据当事人信息索引从目标文本中获取含有当事人信息的语句集合;利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人;根据每个当事人对应预设触发词在目标文本中的位置以及上下文信息提取具有对应当事人信息的待识别语句;利用预置模型从所述待识别语句中提取对应的当事人信。本发明专利技术用于司法文书中多个当事人的信息提取。

【技术实现步骤摘要】

本专利技术涉及信息提取,尤其涉及一种提取信息的方法及装置


技术介绍

1、在司法领域中,当事人是整个案件的主体,当事人的信息是必不可少的关键数据,在司法文书中均记录有当事人信息,因此,在司法行业的数字化转型过程中,当事人信息是必须要提取的数据,基于所提取出的当事人信息可以用于自动填充当事人信息,维护当事人信息,构建人物社会关系图谱等。

2、目前,司法文书中当事人信息的提取方式是基于分词、实体识别、正则和语法规则的提取方式;例如:先通过正则匹配方式在司法文书中找到描述当事人信息所在的段落,再假设这一段信息都是描述一位当事人的信息,对这段信息进行分词,再使用实体识别技术手段对姓名、地址等信息进行识别,再配合正则匹配方式去识别当事人信息中无法用分词和实体识别技术识别出的属性。

3、但是,目前的提取方式是先建立一个基本假设,假设找到描述当事人信息的这一段中都是描述一位当事人而不是多位当事人的信息;这种基本假设依赖于司法文书的结构是属于标准结构的文书,例如:裁判文书;但是对于一些比较口语化或结构不标准的文书,往往很难准确的识别出多位当事人的信息,例如:如果把两个当事人都放在一段中描述,那么现有方式就无法识别出两个当事人,同时还会导致当事人的属性识别混乱。


技术实现思路

1、鉴于上述问题,本专利技术提供一种提取信息的方法及装置,主要目的是为了实现在不同结构标准的司法文书中准确识别出每个当事人的信息。

2、为解决上述技术问题,本专利技术提出以下方案:

<p>3、第一方面,本专利技术提供一种提取信息的方法,所述方法包括:

4、根据当事人信息索引从目标文本中获取含有当事人信息的语句集合;

5、利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人;

6、根据每个当事人对应预设触发词在目标文本中的位置以及上下文信息提取具有对应当事人信息的待识别语句;

7、利用预置模型从所述待识别语句中提取对应的当事人信息。

8、优选地,所述利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人,包括:

9、将所述预设触发词与所述语句集合中的语句分别进行匹配,获得与所述预设触发词匹配的语句以及所述预设触发词在匹配到的语句中的位置;

10、基于所述预设触发词在匹配到的语句中的位置,获得所述预设触发词在匹配到的语句中的上下文信息;

11、基于所述预设触发词在所述语句的上下文信息判断所述预设触发词指代的当事人是否相同,若相同,则构造相同的预设触发词向量;若不同,则构造不相同的预设触发词向量;

12、基于不同的所述触发词向量确定当事人的数量。

13、优选地,所述目标文本为司法文书,所述利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人,包括:

14、根据诉讼地位触发词从所述语句集合中识别司法文书中具有的不同当事人,所述诉讼地位触发词包括:原告、被告。

15、优选地,所述根据每个当事人对应预设触发词在目标文本中的位置以及上下文信息提取具有对应当事人信息的待识别语句,包括:

16、将所述目标文本进行向量化,得到所述目标文本的文本向量;

17、将不同的所述触发词向量分别拼接到所述文本向量中,获得不同当事人的专属文本输入;

18、基于所述当事人对应预设触发词在所述当事人对应的专属文本输入中的位置以及上下文信息提取具有对应当事人信息的待识别语句。

19、优选地,在所述根据当事人信息索引从目标文本中获取含有当事人信息的语句集合之前,所述方法还包括:

20、将预设文本中具有的当事人指定属性信息的起止位置进行标注,获得所述当事人的标注数据;

21、基于所述当事人的标注数据,构建对应指定属性信息的当事人信息索引。

22、优选地,在基于所述当事人的标注数据,构建对应指定属性信息的当事人信息索引之后,还包括:

23、将预设文本进行向量化,得到每个句子的句子向量;

24、通过自定义模型计算所述句子向量得到0,1的二分类结果;其中,0表示所述句子不包含当事人信息,1表示所述句子包含当事人信息;

25、基于所述二分类结果以及所述预设文本中的标注数据训练所述自定义模型,以优化所述当事人信息索引。

26、第二方面,本专利技术提供一种提取信息的装置,包括:

27、第一获取单元,用于根据当事人信息索引从目标文本中获取含有当事人信息的语句集合;

28、识别单元,用于利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人;

29、第一提取单元,用于根据每个当事人对应预设触发词在目标文本中的位置以及上下文信息提取具有对应当事人信息的待识别语句;

30、第二提取单元,用于利用预置模型从所述待识别语句中提取对应的当事人信息。

31、优选地,所述识别单元,包括:

32、第一获取模块,用于将所述预设触发词与所述语句集合中的语句分别进行匹配,获得与所述预设触发词匹配的语句以及所述预设触发词在匹配到的语句中的位置;

33、第二获取模块,用于基于所述预设触发词在匹配到的语句中的位置,获得所述预设触发词在匹配到的语句中的上下文信息;

34、构造模块,用于基于所述预设触发词在所述语句的上下文信息判断所述预设触发词指代的当事人是否相同,若相同,则构造相同的预设触发词向量;若不同,则构造不相同的预设触发词向量;

35、确定模块,用于基于不同的所述触发词向量确定当事人的数量。

36、优选地,所述识别单元,还用于根据诉讼地位触发词从所述语句集合中识别司法文书中具有的不同当事人,所述诉讼地位触发词包括:原告、被告。

37、优选地,所述第一提取单元,包括:

38、第一获取模块,用于将所述目标文本进行向量化,得到所述目标文本的文本向量;

39、第二获取模块,用于将不同的所述触发词向量分别拼接到所述文本向量中,获得不同当事人的专属文本输入;

40、提取模块,用于基于所述当事人对应预设触发词在所述当事人对应的专属文本输入中的位置以及上下文信息提取具有对应当事人信息的待识别语句。

41、优选地,所述装置还包括:

42、第二获取单元,用于将预设文本中具有的当事人指定属性信息的起止位置进行标注,获得所述当事人的标注数据;

43、构建单元,用于基于所述当事人的标注数据,构建对应指定属性信息的当事人信息索引。

44、优选地,所述装置还包括:

45、第三获取单元,用于将预设文本进行向量化,得到每个句子的句子向量;

46、计算单元,用于通过自定义模型计算所述句子向量得到0,1的二分类结果;其中,0表示所述句子不包含当事人信息,1表示所述句子包含当事人信息;

47本文档来自技高网...

【技术保护点】

1.一种提取信息的方法,其特征在于,所述方法包括:

2.根据权利要求1中所述的方法,其特征在于,所述利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人,包括:

3.根据权利要求1所述的方法,其特征在于,所述目标文本为司法文书,所述利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据每个当事人对应预设触发词在目标文本中的位置以及上下文信息提取具有对应当事人信息的待识别语句,包括:

5.根据权利要求1所述的方法,其特征在于,在所述根据当事人信息索引从目标文本中获取含有当事人信息的语句集合之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,在基于所述当事人的标注数据,构建对应指定属性信息的当事人信息索引之后,还包括:

7.一种提取信息的装置,其特征在于,包括:

8.根据权利要求7中所述的装置,其特征在于,所述识别单元,包括:

9.一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任一项所述提取信息的方法。

10.一种电子设备,其特征在于,包括:至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行权利要求1至权利要求6中任一项所述提取信息的方法。

...

【技术特征摘要】

1.一种提取信息的方法,其特征在于,所述方法包括:

2.根据权利要求1中所述的方法,其特征在于,所述利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人,包括:

3.根据权利要求1所述的方法,其特征在于,所述目标文本为司法文书,所述利用预设触发词从所述语句集合中识别所述目标文本中具有的不同当事人,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据每个当事人对应预设触发词在目标文本中的位置以及上下文信息提取具有对应当事人信息的待识别语句,包括:

5.根据权利要求1所述的方法,其特征在于,在所述根据当事人信息索引从目标文本中获取含有当事人信息的语句集合之前,所述方法还包括:

6.根...

【专利技术属性】
技术研发人员:赵振宇
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1