一种领域数据处理方法、装置及电子设备制造方法及图纸

技术编号:36193301 阅读:58 留言:0更新日期:2022-12-31 21:14
本发明专利技术提供了一种领域数据处理方法、装置及电子设备,涉及数据处理技术领域,包括获取行业领域中文文本数据;将行业领域中文文本数据输入到领域语义模型,得到行业领域中文文本数据的文本特征向量;基于双塔模型于所属行业领域数据库中匹配文本特征向量,返回与文本特征向量相似的候选数据元集向量;基于双塔模型将候选数据元集与行业领域中文文本数据比对,返回N个与行业领域中文文本数据相似的中文特征元。本发明专利技术基于领域语义模型匹配的方式相较传统文本规则模式匹配方式具有更强的泛化性,转化生成模型可基于词组文本数据自动化生成具有行业专业领域偏向性的目标语言词组文本数据,降低数据元制作时对领域知识的依赖性,提升数据元制作效率。提升数据元制作效率。提升数据元制作效率。

【技术实现步骤摘要】
一种领域数据处理方法、装置及电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种领域数据处理方法、装置及电子设备。

技术介绍

[0002]采用数据元可以对行业领域数据的名字、类型、值进行规范和分类,数据元本身也是数据,在数据治理的过程中,是否能实现标准化治理直接决定了数据治理的效率和质量。对于各种来源的数据表,可能存在业务含义一致,但其字段信息不一致的情况。当拿到一张原始的数据表时,如何精准快速地从已有的知识库中找到与该数据表字段所对应的数据元,对于实现快速、高效的标准化治理来说是十分关键的一部分。
[0003]数据元的制定贯穿业务和技术,专业性强;制定数据元的人员需要精通业务,熟知数据情况、行业动向,了解数据处理方面的技术,即使构建数据元的专业团队耗费大量的人力成本、时间成本,也无法避免数据元中的重复制定、规范不统一、规则不明确甚至矛盾的出现。在制作数据元时,不仅需制定数据元的业务属性(如:中文名称、英文名称等),还需将其转化为具有相应含义的数据库字段,而数据元的数据库字段中所包含的英文具有强烈的专业领域偏向性、依赖性,并非通用文本领域中的英文,这极大地依赖行业领域知识,同时也增加了非行业专家型业务人员的制作时间成本,使得数据元的制作效率低下。
[0004]因此,提出一种领域数据处理方法、装置及电子设备。

技术实现思路

[0005]本说明书提供一种领域数据处理方法、装置及电子设备,基于领域语义模型匹配的方式相较传统文本规则模式匹配方式具有更强的泛化性,转化生成模型可基于词组文本数据自动化生成具有行业专业领域偏向性的目标语言词组文本数据,降低数据元制作时对领域知识的依赖性,提升数据元制作效率。
[0006]本说明书提供一种领域数据处理方法,包括:
[0007]获取行业领域中文文本数据;
[0008]将所述行业领域中文文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量;
[0009]基于双塔模型于所属行业领域数据库中匹配所述文本特征向量,返回与所述文本特征向量相似的候选数据元集向量;
[0010]基于所述双塔模型将所述候选数据元集与所述行业领域中文文本数据比对,返回N个与所述行业领域中文文本数据相似的中文特征元。
[0011]可选的,所述基于双塔模型于所属行业领域数据库中匹配所述文本特征向量,返回与所述文本特征向量相似的候选数据元集向量之前,包括:
[0012]判断所述所属行业领域数据库中是否存在与所述文本特征向量相似的候选数据元集;
[0013]当所述所属行业领域数据库中不存在与所述文本特征向量相似的候选数据元集时,基于所述文本特征向量创建新的候选数据元并加入至所述所属行业领域数据库中。
[0014]可选的,所述将所述行业领域中文文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量,包括:
[0015]对所述中文文本数据进行分词,得到词组文本数据及其语义关系;
[0016]将所述词组文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量,所述行业领域中文文本数据的文本特征向量包括所述行业领域中词组文本数据的文本特征向量。
[0017]可选的,所述方法还包括:
[0018]将所述词组文本数据输入至转换生成模型,得到所述词组文本数据对应的目标语言词组文本数据;
[0019]结合所述词组文本数据的语义关系确定所述目标语言词组文本数据的语义关系;
[0020]其中,所述转化生成模型包括采用大量多语言对照文本初始训练,以及使用日志数据调整得到转化生成模型。
[0021]可选的,所述基于所述双塔模型将所述候选数据元集与所述行业领域中文文本数据比对,返回N个与所述行业领域中文文本数据相似的中文特征元,包括:
[0022]当与所述行业领域中文文本数据相似的所述候选数据元集内的数量不超过N个时,返回所述候选数据元集内的全部中文特征元;
[0023]当与所述行业领域中文文本数据相似的所述候选数据元集内的数量超过N个时,返回N个与所述行业领域中文文本数据相似最高的中文特征元。
[0024]一种领域数据处理装置,包括:
[0025]获取模块,用于获取行业领域中文文本数据;
[0026]输入模块,用于将所述行业领域中文文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量;
[0027]匹配模块,用于基于双塔模型于所属行业领域数据库中匹配所述文本特征向量,返回与所述文本特征向量相似的候选数据元集向量;
[0028]返回模块,用于基于所述双塔模型将所述候选数据元集与所述行业领域中文文本数据比对,返回N个与所述行业领域中文文本数据相似的中文特征元。
[0029]可选的,所述匹配模块之前,包括:
[0030]判断模块,用于判断所述所属行业领域数据库中是否存在与所述文本特征向量相似的候选数据元集;
[0031]加入模块,用于当所述所属行业领域数据库中不存在与所述文本特征向量相似的候选数据元集时,基于所述文本特征向量创建新的候选数据元并加入至所述所属行业领域数据库中。
[0032]可选的,所述输入模块,包括:
[0033]对所述中文文本数据进行分词,得到词组文本数据及其语义关系;
[0034]将所述词组文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量,所述行业领域中文文本数据的文本特征向量包括所述行业领域中词组文本数据的文本特征向量。
[0035]可选的,所述装置还包括:
[0036]将所述词组文本数据输入至转换生成模型,得到所述词组文本数据对应的目标语言词组文本数据;
[0037]结合所述词组文本数据的语义关系确定所述目标语言词组文本数据的语义关系;
[0038]其中,所述转化生成模型包括采用大量多语言对照文本初始训练,以及使用日志数据调整得到转化生成模型。
[0039]可选的,所述返回模块,包括:
[0040]当与所述行业领域中文文本数据相似的所述候选数据元集内的数量不超过N个时,返回所述候选数据元集内的全部中文特征元;
[0041]当与所述行业领域中文文本数据相似的所述候选数据元集内的数量超过N个时,返回N个与所述行业领域中文文本数据相似最高的中文特征元。
[0042]本说明书还提供一种电子设备,其中,该电子设备包括:
[0043]处理器;以及,
[0044]存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项方法。
[0045]本说明书还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项方法。
[0046]在本说明书中,基于领域语义模型匹配的方式相较传统文本规则模式匹配方式具有更强的泛化性,转化生成模型可基于词组文本数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域数据处理方法,其特征在于,包括:获取行业领域中文文本数据;将所述行业领域中文文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量;基于双塔模型于所属行业领域数据库中匹配所述文本特征向量,返回与所述文本特征向量相似的候选数据元集向量;基于所述双塔模型将所述候选数据元集与所述行业领域中文文本数据比对,返回N个与所述行业领域中文文本数据相似的中文特征元。2.如权利要求1所述的领域数据处理方法,其特征在于,所述基于双塔模型于所属行业领域数据库中匹配所述文本特征向量,返回与所述文本特征向量相似的候选数据元集向量之前,包括:判断所述所属行业领域数据库中是否存在与所述文本特征向量相似的候选数据元集;当所述所属行业领域数据库中不存在与所述文本特征向量相似的候选数据元集时,基于所述文本特征向量创建新的候选数据元并加入至所述所属行业领域数据库中。3.如权利要求2所述的领域数据处理方法,其特征在于,所述将所述行业领域中文文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量,包括:对所述中文文本数据进行分词,得到词组文本数据及其语义关系;将所述词组文本数据输入到领域语义模型,得到所述行业领域中文文本数据的文本特征向量,所述行业领域中文文本数据的文本特征向量包括所述行业领域中词组文本数据的文本特征向量。4.如权利要求3所述的领域数据处理方法,其特征在于,还包括:将所述词组文本数据输入至转换生成模型,得到所述词组文本数据对应的目标语言词组文本数据;结合所述词组文本数据的语义关系确定所述目标语言词组文本数据的语义关系;其中,所述转化生成模型包括采用大量多语言对照文本初始训练,以及使用日志数据调整得到转化生成模型。5.如权利要求1所述的领域数据处理方法,其特征在于,所述基于所述双塔模型将所述候选数据元集与所述行业领域中文文本数据比对,返回N个与所述行业领域中文文本数据相似的中文特征元,包括:当与所述行业领域中文文本数据...

【专利技术属性】
技术研发人员:程云辉吴晓晴高晓丽
申请(专利权)人:上海亿通国际股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1