【技术实现步骤摘要】
文档处理方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,特别是涉及一种文档处理方法
、
装置
、
电子设备及存储介质
。
技术介绍
[0002]目前越来越多的行业,需要信息化的整体已有知识,形成知识体系,沉淀行业经验,并在知识体系之上,提供能够赋能行业,降低行业人力成本的智能化应用
。
知识图谱是近年来在行业中比较热门的知识体系组织形式,很多具备一定技术势力的行业客户,期望或者正在进行行业知识体系的图谱化工作
。
现有技术中,在构建由非结构化数据文档组成的知识图谱时,在进行非结构化数据实体
、
关系抽取时,需要人工进行数据标注,抽取比较困难,人工成本较高
。
技术实现思路
[0003]本申请实施例提供了一种文档处理方法
、
装置
、
电子设备及存储介质,以解决现有技术中在进行非结构化数据文档的实体
、
关系抽取时采用人工进行标注导致人工成本高的问题
。
[0004]第一方面,本申请实施例提供了一种文档处理方法,所述方法包括:
[0005]根据非结构化数据文档集合对应的多级分类标签,确定大型语言模型算法对应的关键词抽取指令;
[0006]基于所述关键词抽取指令对所述非结构化数据文档集合进行关键词抽取操作,得到所述非结构化数据文档集合对应的数据抽取结果,其中,所述数据抽取结果包括实体以及关系
。 />[0007]第二方面,本申请实施例还提供一种文档处理装置,所述装置包括:
[0008]指令确定模块,用于根据非结构化数据文档集合对应的多级分类标签,确定大型语言模型算法对应的关键词抽取指令;
[0009]关键词抽取模块,用于基于所述关键词抽取指令对所述非结构化数据文档集合进行关键词抽取操作,得到所述非结构化数据文档集合对应的数据抽取结果,其中,所述数据抽取结果包括实体以及关系
。
[0010]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器
、
存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的文档处理方法
。
[0011]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的文档处理方法
。
[0012]本申请实施例至少包括以下技术效果:
[0013]本申请实施例的技术方案,基于非结构化数据文档集合对应的多级分类标签确定大型语言模型算法对应的关键词抽取指令,并通过关键词抽取指令对非结构化数据文档集
合进行处理,得到数据抽取结果,从而可以在进行数据抽取过程中无需人工进行数据标注,降低了人工成本,进而提高了非结构化数据文档集合组成的知识图谱的构建效率
。
附图说明
[0014]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍
。
[0015]图1是本申请实施例提供的文档处理方法的流程示意图;
[0016]图2是本申请实施例提供的文档处理装置的结构示意图;
[0017]图3为本申请实施例提供的电子设备的框图
。
具体实施方式
[0018]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚
、
完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例
。
基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围
。
[0019]应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征
、
结构或特性包括在本申请的至少一个实施例中
。
因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例
。
此外,这些特定的特征
、
结构或特性可以任意适合的方式结合在一个或多个实施例中
。
[0020]在本申请的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定
。
[0021]如图1所示,本申请实施例提供一种文档处理方法,该方法包括:
[0022]步骤
101
,根据非结构化数据文档集合对应的多级分类标签,确定大型语言模型算法对应的关键词抽取指令
。
[0023]大型语言模型
(Large Language Model
,
LLM)
是一种基于机器学习和自然语言处理技术的模型,这些模型可以通过微调转移到许多下游任务,因为它们已经在大量无监督和非结构化数据的情况下进行了训练
。LLM
的核心思想是通过大规模的无监督训练来学习自然语言的模式和语言结构,这在一定程度上能够模拟人类的语言认知和生成过程
。
与传统的自然语言处理
(Natural Language Process
,
NLP)
模型相比,
LLM
能够更好地理解和生成自然文本,同时还能够表现出一定的逻辑思维和推理能力
。
[0024]本实施例中,大型语言模型算法可以是
ChatGLM
‑
6B
模型算法,
ChatGLM
‑
6B
模型是一个开源的
、
支持中英双语的对话语言模型,基于通用语言模型
(General Language Model
,
GLM)
架构,具有
62
亿参数
。
结合模型量化技术,用户可以在消费级的显卡上进行本地部署
(INT4
量化级别下最低只需
6GB
显存
)。ChatGLM
‑
6B
使用了和
ChatGPT
相似的技术,针对中文问答和对话进行了优化
。
经过约
1T
标识符的中英双语训练,辅以监督微调
、
反馈自助
、
人类反馈强化学习等技术的加持,
62
亿参数的
ChatGLM
‑
6B
已经能生成相当符合人类偏好的回答
。
[0025]本实施例中,非结构化数据文档集合中的每一数据文档包括多级分类标签,具体
的,多级分类标签可以包括一级分类标签
、
二级分类标本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种文档处理方法,其特征在于,包括:根据非结构化数据文档集合对应的多级分类标签,确定大型语言模型算法对应的关键词抽取指令;基于所述关键词抽取指令对所述非结构化数据文档集合进行关键词抽取操作,得到所述非结构化数据文档集合对应的数据抽取结果,其中,所述数据抽取结果包括实体以及关系
。2.
根据权利要求1所述的文档处理方法,其特征在于,在基于所述关键词抽取指令对所述非结构化数据文档集合进行关键词抽取操作之前,所述方法还包括:获取所述关键词抽取指令对应的抽取准确率;在所述抽取准确率小于预设阈值的情况下,对所述关键词抽取进行调整得到新的关键词抽取指令,直至所述新的关键词抽取指令对应的抽取准确率大于或等于所述预设阈值,并用所述新的关键词抽取指令替换所述关键词抽取指令
。3.
根据权利要求2所述的文档处理方法,其特征在于,获取所述关键词抽取指令对应的抽取准确率,包括:从所述非结构化数据文档集合中选取至少一个数据文档得到测试数据文档集合,并获取所述测试数据文档集合对应的目标数据抽取结果;通过所述关键词抽取指令对所述测试数据文档集合进行处理,得到测试数据抽取结果;根据所述测试数据结果和所述目标数据抽取结果,确定所述关键词抽取指令对应的抽取准确率
。4.
根据权利要求1所述的文档处理方法,其特征在于,在根据非结构化数据文档集合对应的多级分类标签,确定大型语言模型算法对应的关键词抽取指令之前,所述方法还包括:接收包括一级分类标签和二级分类标签的初始非结构化数据文档集合;通过所述一级分类标签和所述二级分类标签对自然语言处理分类器进行训练,得到目标分类器;通过所述目标分类器对所述初始非结构化数据文档集合进行处理,依次得到所述初始非结构化数据文档集合中每一数据文档集合对应的三级分类标签和四级分类标签;根据所述初始非结构化数据文档集合中每一数据文档集合对应的三级分类标签和四级分类标签以及所述初始非结构化数据文档集合,确定所述非结构化数据文档集合
。5.
根据权利要求1所述的文档处理方法,其特征在于,所述方法还包括:在服务器上部署分布式计算集群;将所述大型语言模型算法部署到所述分布式计算集群上,并配置所述大型语言模型算法对应的路径信息,所述路径信息包括所述多级分类标签中每一级分类标签分别对应的输入路径和所述数据抽取结果对应的输出路径
。6.
...
【专利技术属性】
技术研发人员:张涛,
申请(专利权)人:长城汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。