【技术实现步骤摘要】
单领域至跨领域数据集数据处理方法及装置
[0001]本申请涉及数据处理领域,具体涉及一种单领域至跨领域数据集数据处理方法及装置。
技术介绍
[0002]自然语言处理是人工智能领域中的一颗明珠。其中,NL2SQL是自然语言处理的具体任务。为了将自然语言转换成结构化查询语言,一方面可以对自然语言进行编码,进而提升NL2SQL的准确率。目前,比较主流的编码模型是由Devlin等人于2018年推出的BERT。BERT旨在通过对上下文进行条件预处理,从未标记的文本中预训练深层双向表示。结果表明,仅需一个额外的输出层就可以对经过预训练的BERT模型进行微调,以创建适用于各种任务(例如问题解答和语言推理)的最新模型,而无需进行大量特定任务架构修改。
[0003]2019年,Liu等人通过融合知识图谱(Knowledge Graph),开发出了新的编码模型K
‑
BERT。该模型将三元组作为领域知识注入到句子中。但是,过多的知识整合可能会转移句子的正确含义,称为知识噪音问题。为了减少知识噪音,K
‑
...
【技术保护点】
【技术特征摘要】
1.一种单领域至跨领域数据集数据处理方法,其特征在于,所述方法包括:根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,并生成与跨领域数据集对应的数据库操作语句;根据预设跨领域数据集的结构化数据格式、经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集。2.根据权利要求1所述的单领域至跨领域数据集数据处理方法,其特征在于,所述根据预设清理规则对单领域数据集中的数据库数据进行非法字符清理过滤操作,包括:根据预设模式匹配规则和正则匹配规则将单领域数据集中的非法字段替换为相应的合法字段,得到经过非法字符清理过滤操作后的单领域数据集。3.根据权利要求1所述的单领域至跨领域数据集数据处理方法,其特征在于,所述生成与跨领域数据集对应的数据库操作语句,包括:根据所述单领域数据集中的数据库操作语句节点树信息和跨领域数据集的文件目录信息,生成与所述跨领域数据集对应的数据库操作语句。4.根据权利要求1所述的单领域至跨领域数据集数据处理方法,其特征在于,所述根据预设跨领域数据集的结构化数据格式、所述经过非法字符清理过滤操作后的数据库数据以及所述数据库操作语句,对所述单领域数据集进行转换操作,得到所述跨领域数据集,包括:根据预设跨领域数据集的结构化数据格式创建跨领域数据集的结构化数据库;根据所述数据库操作语句导入所述经过非法字符清理过滤操作后的数据库数据,得到所述跨领域数据集。5.一种单领域至跨领域数据集数据处理装置,其特征在于,包括:字符清理和SQL生成模块,用于根据预设清理规则对单领域数据集中的数据库数据进行非法字符...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:中国人民银行清算总中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。