【技术实现步骤摘要】
本专利技术涉及数据搜索,尤其涉及一种基于异构数据源的搜索方法和系统。
技术介绍
1、visualbert是基于transformer的多模态模型,该模型结合了视觉和语言信息,以实现图像和文本的联合理解和处理,它利用了transformer模型的自注意力机制,既能处理图像特征,又能处理文本序列,从而实现多模态任务的推理和生成。在visualbert中,图像特征和文本序列被分别输入到视觉编码器和语言编码器中,视觉编码器将图像特征转换为一系列的视觉向量,而语言编码器将文本序列转换为一系列的语义向量,这些向量表示了输入的视觉和语言信息的高级特征表达。
2、但是visualbert处理的数据只限于文本和图像,在实际应用中,现有的检索系统针对不同的数据源都是隔离检索的,最多也只是针对文本和图像进行了融合,比如通过文本检索文本,通过图像检索图像或者是通过文本检索图像,无法通过图像检索文本。由于现实世界中的数据源多种多样,visualbert针对其它复杂数据源比如语音、表格、图等非结构化数据并不能很好的处理,导致比如语音、表格、图(节点和边
...【技术保护点】
1.一种基于异构数据源的搜索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:采集文本数据源、表格数据源、图数据源、音频数据源和图片数据源,分别对采集的文本数据源、表格数据源、图数据源、音频数据源和图片数据源进行预处理,获得对应的异构数据。
3.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:
4.根据权利要求3所述的基于异构数据源的搜索方法,其特
...【技术特征摘要】
1.一种基于异构数据源的搜索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:采集文本数据源、表格数据源、图数据源、音频数据源和图片数据源,分别对采集的文本数据源、表格数据源、图数据源、音频数据源和图片数据源进行预处理,获得对应的异构数据。
3.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,包括:
4.根据权利要求3所述的基于异构数据源的搜索方法,其特征在于,所述细化粒度处理包括词性标注、命名实体识别和依存句法分析。
5.根据权利要求3所述的基于异构数据源的搜索方法,其特征在于,采集异构数据源,对采集的异构数据源进行预处理,获得异构数据,还包括:对采集的异构数据源进行隐私数据过滤和去重处理。
6.根据权利要求1所述的基于异构数据源的搜索方法,其特征在于,采用异构数据对transformer模型预训练,获得异构...
【专利技术属性】
技术研发人员:陆志鹏,韩光,郑曦,王晓亮,国丽,刘国栋,范国浩,史昆,杨伟伟,陈勃胜,陈冠宇,杨培表,秦川,
申请(专利权)人:中电数据产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。