System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 非结构化文本处理方法、装置、设备及存储介质制造方法及图纸_技高网

非结构化文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:40953237 阅读:4 留言:0更新日期:2024-04-18 20:29
本公开提供一种非结构化文本处理方法、装置、设备及存储介质,涉及自然语言理解技术领域。在本公开的一些实施例中,获取待处理的法律文书页面和非结构化问题文本;对所述法律文书页面进行文本识别,得到法律文书文本;将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本;将所述非结构化问题文本和语义解答文本输入生成式语言模型中,得到所述非结构化问题文本对应的问题解答文本,提高非结构化问题文本的解答文本的准确率。

【技术实现步骤摘要】

本公开涉及自然语言理解,尤其涉及一种非结构化文本处理方法、装置、设备及存储介质


技术介绍

1、随着信息技术的迅猛发展和数据规模的不断增加,我们生活中产生的数据呈现出多样化和复杂化的特点。其中大部分数据以非结构化形式存在,如文本、图像、音频和视频等。而这些非结构化数据中所包含的丰富语义信息对于实现数据的深度挖掘、智能分析以及更好地支持决策和创新具有重要意义。

2、目前,针对非结构化问题文本的解答文本的准确率较低。


技术实现思路

1、本公开提供一种非结构化文本处理方法、装置、设备及存储介质,以至少解决现有的非结构化问题文本的解答文本的准确率较低的问题。

2、本公开的技术方案如下:

3、本公开实施例提供一种非结构化文本处理方法,包括:

4、获取待处理的法律文书页面和非结构化问题文本;

5、对所述法律文书页面进行文本识别,得到法律文书文本;

6、将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本;

7、将所述非结构化问题文本和语义解答文本输入生成式语言模型中,得到所述非结构化问题文本对应的问题解答文本。

8、可选地,所述获取待处理的法律文书页面和非结构化问题文本,包括:

9、从互联网中获取法律文书图像;以及

10、响应于文本输入操作,获取非结构化问题文本。

11、可选地,所述法律文书页面包括:法律文书图片和法律文书文本;所述对所述法律文书页面进行文本识别,得到法律文书文本,包括:

12、对所述法律文书图片进行关键词文本提取,得到第一关键词文本;

13、对所述法律文书文本进行关键词文本提取,得到第二关键词文本;

14、将所述第一关键词文本和所述第二关键词文本进行融合处理,得到法律文书文本。

15、可选地,所述对所述法律文书图片进行关键词文本提取,得到第一关键词文本,包括:

16、对所述法律文书图片进行图文识别,得到第一提取文本;

17、将所述第一提取文本输入关键词提取模型中,得到第一关键词文本。

18、可选地,所述对所述法律文书文本进行关键词文本提取,得到第二关键词文本,包括:

19、按照预设过滤规则,对所述法律文书文本进行文本过滤,得到第二提取文本;

20、将所述第二提取文本输入关键词提取模型中,得到第二关键词文本。

21、可选地,所述将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本,包括:

22、将所述法律文书文本输入所述第一矩阵乘法层,得到第一特征;

23、将所述第一特征输入所述缩放层,得到第二特征;

24、将所述第二特征输入所述掩码层,得到第三特征;

25、将所述第三特征输入所述归一化层,得到第四特征;

26、将所述第四特征输入所述第二矩阵乘法层,得到语义解答文本。

27、本公开实施例还提供一种非结构化文本处理装置,包括:

28、获取模块,用于获取待处理的法律文书页面和非结构化问题文本;

29、文本识别模块,用于对所述法律文书页面进行文本识别,得到法律文书文本;

30、第一模型模块,用于将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本;

31、第二模型模块,用于将所述非结构化问题文本和语义解答文本输入生成式语言模型中,得到所述非结构化问题文本对应的问题解答文本。

32、可选地,所述第一模型模块在将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本时,用于:

33、将所述法律文书文本输入所述第一矩阵乘法层,得到第一特征;

34、将所述第一特征输入所述缩放层,得到第二特征;

35、将所述第二特征输入所述掩码层,得到第三特征;

36、将所述第三特征输入所述归一化层,得到第四特征;

37、将所述第四特征输入所述第二矩阵乘法层,得到语义解答文本。

38、本公开实施例还提供一种电子设备,包括:

39、处理器;

40、用于存储所述处理器可执行指令的存储器;

41、其中,所述处理器被配置为执行所述指令,以实现上述的方法中的各步骤。

42、本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法中的各步骤。

43、本公开的实施例提供的技术方案至少带来以下有益效果:

44、在本公开的一些实施例中,获取待处理的法律文书页面和非结构化问题文本;对所述法律文书页面进行文本识别,得到法律文书文本;将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本;将所述非结构化问题文本和语义解答文本输入生成式语言模型中,得到所述非结构化问题文本对应的问题解答文本,提高非结构化问题文本的解答文本的准确率。

45、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种非结构化文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取待处理的法律文书页面和非结构化问题文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述法律文书页面包括:法律文书图片和法律文书文本;所述对所述法律文书页面进行文本识别,得到法律文书文本,包括:

4.根据权利要求3所述的方法,其中,所述对所述法律文书图片进行关键词文本提取,得到第一关键词文本,包括:

5.根据权利要求3所述的方法,其中,所述对所述法律文书文本进行关键词文本提取,得到第二关键词文本,包括:

6.根据权利要求1所述的方法,其特征在于,所述将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本,包括:

7.一种非结构化文本处理装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述第一模型模块在将所述法律文书文本输入已经训练得到的生成式特征提取模型中,得到所述法律文书文本对应的语义解答文本时,用于:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法中的各步骤。

...

【技术特征摘要】

1.一种非结构化文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取待处理的法律文书页面和非结构化问题文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述法律文书页面包括:法律文书图片和法律文书文本;所述对所述法律文书页面进行文本识别,得到法律文书文本,包括:

4.根据权利要求3所述的方法,其中,所述对所述法律文书图片进行关键词文本提取,得到第一关键词文本,包括:

5.根据权利要求3所述的方法,其中,所述对所述法律文书文本进行关键词文本提取,得到第二关键词文本,包括:

6.根据权利...

【专利技术属性】
技术研发人员:高嵩章敏王睿宇杨燕郝颖乞琦石志国
申请(专利权)人:北京市大数据中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1