信息提取方法及字段划选方法技术

技术编号:43924111 阅读:22 留言:0更新日期:2025-01-03 13:28
本说明书实施例提供信息提取方法及字段划选方法,其中所述信息提取方法包括:根据业务查询信息展示包含业务样例文档的字段划选页面,并确定所述业务查询信息对应的查询字段;响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段;根据所述查询字段在业务文档库中召回候选文档段落集,并将所述查询字段和所述划选字段输入至大语言模型;通过所述大语言模型在所述候选文档段落集中召回目标文档段落,并利用所述大语言模型参照所述划选字段在所述目标文档段落中提取所述业务查询信息关联的目标信息。实现以用户自定义划选字段的方式驱动信息提取操作,从而有效提高信息提取精度。

【技术实现步骤摘要】

本说明书实施例涉及信息处理,特别涉及信息提取方法及字段划选方法


技术介绍

1、随着互联网和计算机技术的发展,信息抽取任务在多数业务场景中得以应用,信息抽取任务的执行可以实现在大量数据中抽取具有代表性和特定特征的子集,以便后续使用子集进行分析和处理。现有技术中,信息抽取任务的执行大多数依赖随机抽样或者算法实现,在随机抽样策略中,往往伴随着抽取结果代表性不足的问题,从而会严重影响分析准确性。而抽取算法则可以通过配置算子的方式保证抽取结果的代表性,但是抽取算法在处理大规模数据时,非常依赖计算设备的硬件性能,计算复杂度较高的情形下,很容易导致抽取时间变长,并且效率较低。此外,无论是随机抽样还是抽取算法,在面临同一词在不同场景具有不同含义的情形下,例如“基本面”在股票投资场景表示财务状况、盈利能力、市场竞争力等,在宏观经济场景表示gdp增长率、通货膨胀率、失业率等,此时算法无法实现一词在多含义上的平衡,进而会导致抽取结果在某个维度上存在偏差,因此亟需一种有效的方案以解决上述问题。


技术实现思路

1、有鉴于此,本说明书本文档来自技高网...

【技术保护点】

1.一种信息提取方法,其特征在于,包括:

2.根据权利要求1所述的信息提取方法,其特征在于,所述根据业务查询信息展示包含业务样例文档的字段划选页面,包括:

3.根据权利要求1所述的信息提取方法,其特征在于,所述响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段,包括:

4.根据权利要求1所述的信息提取方法,其特征在于,所述响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段,包括:

5.根据权利要求1所述的信息提取方法,其特征在于,所述根据...

【技术特征摘要】

1.一种信息提取方法,其特征在于,包括:

2.根据权利要求1所述的信息提取方法,其特征在于,所述根据业务查询信息展示包含业务样例文档的字段划选页面,包括:

3.根据权利要求1所述的信息提取方法,其特征在于,所述响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段,包括:

4.根据权利要求1所述的信息提取方法,其特征在于,所述响应于通过所述字段划选页面提交的划选指令,在所述业务样例文档中确定与所述查询字段具有关联关系的划选字段,包括:

5.根据权利要求1所述的信息提取方法,其特征在于,所述根据所述查询字段在业务文档库中召回候选文档段落集,包括:

6.根据权利要求1所述的信息提取方法,其特征在于,所述通过所述大语言模型在所述候选文档段落集中召回目标文档段落,包括:

<...

【专利技术属性】
技术研发人员:陈奕名童鲁虹林金曙梅锦
申请(专利权)人:恒生电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1