数据加工方法、装置、系统、电子设备和存储介质制造方法及图纸

技术编号:36880121 阅读:10 留言:0更新日期:2023-03-15 21:05
本发明专利技术提供一种数据加工方法、装置、系统、电子设备和存储介质,其中方法包括:获取知识建模文档,知识建模文档包括各知识单元的知识类型和属性;基于任一知识单元的属性中的来源,从数据管理模块中对应的来源知识库中确定任一知识单元的来源文本;基于任一知识单元的知识类型,以及任一知识单元的属性中的加工方式,对任一知识单元的来源文本进行加工,得到任一知识单元的知识内容;基于任一知识单元的属性中的去向,将任一知识单元的知识内容发送至数据管理模块中对应的产出知识库进行存储。本发明专利技术提供的数据加工方法、装置、系统、电子设备和存储介质,提高了数据源的复用性,避免造成因数据拷贝带来的管理混乱。成因数据拷贝带来的管理混乱。成因数据拷贝带来的管理混乱。

【技术实现步骤摘要】
数据加工方法、装置、系统、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种数据加工方法、装置、系统、电子设备和存储介质。

技术介绍

[0002]知识图谱(Knowledge Graph)能在一定程度上有效地借助机器构建自然语言文本中隐含的语义关系,为互联网时代的人们挖掘文本数据提供有效手段。借助一个内容丰富的知识图谱,人类更加容易和灵活地发掘知识与知识之间的联系。
[0003]要构建知识图谱,需要加工大量的数据形成可检索到的结构化数据,在数据加工工作流方面,常用的解决方案是结合AI+HI。其中,AI是指人工智能(Artificial Intelligence)手段,采用机器学习、深度学习或规则匹配等方法,如自然语言处理(Natural Language Processing,NLP)领域的技术,自动对数据集批量预测。HI是指人类智能(Human Intelligence),即领域的专家对来源知识库的数据进行手动加工。
[0004]在经典的工作流中,AI和HI加工数据通常不是同时进行的,在数据加工初期阶段,HI加工后积累一定的训练数据提供给AI进行模型训练,而后期AI预测结果给HI进行审核校验。这种AI和HI交替对同一份数据进行分散加工的方式,会造成数据产生大量备份的问题,不利于数据管理。
[0005]因此,如何提高数据加工工作流中数据的复用性,是亟需解决的问题。

技术实现思路

[0006]本专利技术提供一种数据加工方法、装置、系统、电子设备和存储介质,用以解决现有技术中对同一份数据进行分散加工的方式,造成数据产生大量备份,不利于数据管理的缺陷。
[0007]本专利技术提供一种数据加工方法,包括:
[0008]获取知识建模文档,所述知识建模文档包括各知识单元的知识类型和属性;
[0009]基于任一知识单元的属性中的来源,从数据管理模块中对应的来源知识库中确定所述任一知识单元的来源文本;
[0010]基于所述任一知识单元的知识类型,以及所述任一知识单元的属性中的加工方式,对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容;
[0011]基于所述任一知识单元的属性中的去向,将所述任一知识单元的知识内容发送至数据管理模块中对应的产出知识库进行存储,以生成目标数据产品。
[0012]根据本专利技术提供的数据加工方法,所述任一知识单元的属性中的加工方式包括如下方式中的至少一种:
[0013]抽取加工方式,用于抽取所述任一知识单元的来源文本中包含的实体;
[0014]选择加工方式,用于从预定义的选项中选择得到所述任一知识单元的知识内容;
[0015]录入加工方式,用于人工录入所述任一知识单元的知识内容。
[0016]根据本专利技术提供的数据加工方法,所述任一知识单元的属性中的加工方式还包括:
[0017]映射加工方式,用于基于映射关系对所述任一知识单元的知识内容进行再次加工,所述映射关系表示所述任一知识单元再次加工前的知识内容与再次加工后的知识内容之间的对应关系。
[0018]根据本专利技术提供的数据加工方法,所述映射加工方式包括归一化,所述基于所述任一知识单元的知识类型,以及所述任一知识单元的属性中的加工方式,对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容,包括:
[0019]基于所述任一知识单元的知识类型,将所述任一知识单元的来源文本与所述数据管理模块中对应知识类型的字典进行匹配,基于匹配结果确定所述任一知识单元的知识内容。
[0020]根据本专利技术提供的数据加工方法,所述对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容,包括:
[0021]采用人类智能和人工智能协同的方式,对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容。
[0022]根据本专利技术提供的数据加工方法,所述各知识单元的属性还包括各知识单元与其他知识单元之间的层级结构关系,所述方法还包括:
[0023]展示所述各知识单元与其他知识单元之间的层级结构关系,以使用户基于所述层级结构关系对所述目标数据产品进行校验。
[0024]本专利技术还提供一种数据加工装置,包括:
[0025]文档获取单元,用于获取知识建模文档,所述知识建模文档包括各知识单元的知识类型和属性;
[0026]文本确定单元,用于基于任一知识单元的属性中的来源,从数据管理模块中对应的来源知识库中确定所述任一知识单元的来源文本;
[0027]文本加工单元,用于基于所述任一知识单元的知识类型,以及所述任一知识单元的属性中的加工方式,对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容;
[0028]知识存储单元,用于基于所述任一知识单元的属性中的去向,将所述任一知识单元的知识内容发送至数据管理模块中对应的产出知识库进行存储,以生成目标数据产品。
[0029]本专利技术还提供一种数据加工系统,包括:
[0030]上述的数据加工装置;
[0031]知识建模模块,与所述数据加工装置连接,用于针对目标数据产品创建知识建模文档,并在检测到所述知识建模文档发生更新的情况下,记录更新内容,对所述知识建模文档的版本进行管理;
[0032]数据管理模块,分别与所述数据加工装置和所述知识建模模块连接,用于存储并管理任一知识单元的来源文本和知识内容,以及字典。
[0033]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据加工方法。
[0034]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据加工方法。
[0035]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据加工方法。
[0036]本专利技术提供的数据加工方法、装置、系统、电子设备和存储介质,以知识建模文档驱动数据加工,通过知识建模文档配置加工流程,能够灵活的配置异构数据资源和加工方式,提高数据加工速度和灵活性;在数据加工工作流中,采用数据管理模块统一管理来源知识库和产出知识库,提高了数据源的复用性,避免造成因数据拷贝带来的管理混乱。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术提供的数据加工方法的流程示意图之一;
[0039]图2是本专利技术提供的数据加工装置的结构示意图;
[0040]图3是本专利技术提供的数据加工系统的结构示意图;
[0041]图4是本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据加工方法,其特征在于,包括:获取知识建模文档,所述知识建模文档包括各知识单元的知识类型和属性;基于任一知识单元的属性中的来源,从数据管理模块中对应的来源知识库中确定所述任一知识单元的来源文本;基于所述任一知识单元的知识类型,以及所述任一知识单元的属性中的加工方式,对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容;基于所述任一知识单元的属性中的去向,将所述任一知识单元的知识内容发送至数据管理模块中对应的产出知识库进行存储,以生成目标数据产品。2.根据权利要求1所述的数据加工方法,其特征在于,所述任一知识单元的属性中的加工方式包括如下方式中的至少一种:抽取加工方式,用于抽取所述任一知识单元的来源文本中包含的实体;选择加工方式,用于从预定义的选项中选择得到所述任一知识单元的知识内容;录入加工方式,用于人工录入所述任一知识单元的知识内容。3.根据权利要求2所述的数据加工方法,其特征在于,所述任一知识单元的属性中的加工方式还包括:映射加工方式,用于基于映射关系对所述任一知识单元的知识内容进行再次加工,所述映射关系表示所述任一知识单元再次加工前的知识内容与再次加工后的知识内容之间的对应关系。4.根据权利要求3所述的数据加工方法,其特征在于,所述映射加工方式包括归一化,所述基于所述任一知识单元的知识类型,以及所述任一知识单元的属性中的加工方式,对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容,包括:基于所述任一知识单元的知识类型,将所述任一知识单元的来源文本与所述数据管理模块中对应知识类型的字典进行匹配,基于匹配结果确定所述任一知识单元的知识内容。5.根据权利要求1所述的数据加工方法,其特征在于,所述对所述任一知识单元的来源文本进行加工,得到所述任一知识单元的知识内容,包括:采用人类智能和人工智能协同的方式,对所述任一知识...

【专利技术属性】
技术研发人员:周立运请求不公布姓名
申请(专利权)人:魔方医药科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1