一种基于异构数据源的搜索方法和系统技术方案

技术编号:40836280 阅读:23 留言:0更新日期:2024-04-01 15:01
本发明专利技术涉及数据搜索技术领域,提供一种基于异构数据源的搜索方法和系统,包括:采集异构数据源,对采集的异构数据源进行预处理,获得异构数据;采用异构数据对Transformer模型预训练,获得异构数据源模型;通过获得的异构数据源模型将预处理获得的异构数据转换为原始向量数据;将原始向量数据插入向量数据库,为插入的原始向量数据构建索引;通过索引为异构数据源模型的查询输入匹配向量数据库中对应的原始向量数据。本发明专利技术基于异构数据源的搜索方法和系统,可以实现多数据源融合、不同数据源之间相互辅助的数据检索。

【技术实现步骤摘要】

本专利技术涉及数据搜索,尤其涉及一种基于异构数据源的搜索方法和系统


技术介绍

1、visualbert是基于transformer的多模态模型,该模型结合了视觉和语言信息,以实现图像和文本的联合理解和处理,它利用了transformer模型的自注意力机制,既能处理图像特征,又能处理文本序列,从而实现多模态任务的推理和生成。在visualbert中,图像特征和文本序列被分别输入到视觉编码器和语言编码器中,视觉编码器将图像特征转换为一系列的视觉向量,而语言编码器将文本序列转换为一系列的语义向量,这些向量表示了输入的视觉和语言信息的高级特征表达。

2、但是visualbert处理的数据只限于文本和图像,在实际应用中,现有的检索系统针对不同的数据源都是隔离检索的,最多也只是针对文本和图像进行了融合,比如通过文本检索文本,通过图像检索图像或者是通过文本检索图像,无法通过图像检索文本。由于现实世界中的数据源多种多样,visualbert针对其它复杂数据源比如语音、表格、图等非结构化数据并不能很好的处理,导致比如语音、表格、图(节点和边组成)等数据源无法被本文档来自技高网...

【技术保护点】

1.一种基于异构数据源的搜索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:采集文本数据源、表格数据源、图数据源、音频数据源和图片数据源,分别对采集的文本数据源、表格数据源、图数据源、音频数据源和图片数据源进行预处理,获得对应的异构数据。

3.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:

4.根据权利要求3所述的基于异构数据源的搜索方法,其特征在于,所述细化粒度...

【技术特征摘要】

1.一种基于异构数据源的搜索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:采集文本数据源、表格数据源、图数据源、音频数据源和图片数据源,分别对采集的文本数据源、表格数据源、图数据源、音频数据源和图片数据源进行预处理,获得对应的异构数据。

3.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:

4.根据权利要求3所述的基于异构数据源的搜索方法,其特征在于,所述细化粒度处理包括词性标注、命名实体识别和依存句法分析。

5.根据权利要求3所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,还包括:对采集的异构数据源进行隐私数据过滤和去重处理。

6.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采用异构数据对transformer模型预训练,获得异构...

【专利技术属性】
技术研发人员:陆志鹏韩光郑曦王晓亮国丽刘国栋范国浩史昆杨伟伟陈勃胜陈冠宇杨培表秦川
申请(专利权)人:中电数据产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1