多模态知识匹配系统技术方案

技术编号:44294723 阅读:15 留言:0更新日期:2025-02-18 20:14
本发明专利技术属于人工智能领域,具体涉及多模态知识匹配系统,该多模态知识匹配系统包括构建模块、图像处理模块、匹配模块以及输出模块实现图像与文本知识库的无缝衔接。本发明专利技术通过允许用户使用图片进行知识检索,提高用户的体验,便捷使用图片来获取所需信息,能够准确地从图片中提取文字信息,并与文本知识库进行匹配,提高匹配的准确性和完整性,用户可以直接使用图片进行知识检索,系统将自动识别图片中的文字并与知识库进行匹配,从而实现了对图像信息的智能化处理和利用,从而实现更加智能、便捷和高效的信息检索和问答系统。

【技术实现步骤摘要】

本专利技术属于人工智能领域,具体涉及多模态知识匹配系统


技术介绍

1、如今ai爆发发展的时代,自然语言处理在智能机器人、虚拟助手和知识库系统等领域的应用越来越深入,并在其中扮演了极其重要的角色。那么传统的知识库,例如现在的电商平台上的客服机器人,仅允许使用人员通过输入文本与系统内知识库进行匹配来交互,虽然可以解决大部分的使用场景,但在这个信息更加多元化的时代来说,还是有很大的限制,例如:通过图片进行自动交互。

2、随着数字图像处理和光学字符识别ocr技术的不断发展,图像内容的识别和理解已经取得了显著进展。然而,将图像内容与文本知识库进行匹配以实现智能问答等功能仍然没有见到太过理想的产品实现,传统的文本知识库匹配系统无法直接处理图像输入,因此在处理包含图片信息的查询时,用户通常需要转换图像中的文本信息为文本格式,然后再输入到系统中进行匹配。这种转换过程不仅增加了用户的操作复杂度,还可能导致信息损失和匹配不准确的问题。

3、因此,有必要提供一种能够直接处理图像输入并将其与文本知识库进行匹配的技术,从而实现更加智能、便捷和高效的信息检索本文档来自技高网...

【技术保护点】

1.多模态知识匹配系统,其特征在于,包括:

2.根据权利要求1所述的多模态知识匹配系统,其特征在于:所述图像预处理模块包括将用户输入的图像进行分析并匹配原始图像格式,并通过特征提取边缘、纹理、形状和颜色特征,增强输入图像的对比度和细节,使图像特征更加明显,其次,去除输入图像中的噪声,提高图像质量,避免错误的匹配。

3.根据权利要求1所述的多模态知识匹配系统,其特征在于:所述图像特征提取模块的处理包括图像识别OCR模块以及Embedding模块,其中,所述图像识别OCR模块将图像识别技术将图片中文字特征进行提取,所述Embedding模块用于将提取的文字特征结合图像...

【技术特征摘要】

1.多模态知识匹配系统,其特征在于,包括:

2.根据权利要求1所述的多模态知识匹配系统,其特征在于:所述图像预处理模块包括将用户输入的图像进行分析并匹配原始图像格式,并通过特征提取边缘、纹理、形状和颜色特征,增强输入图像的对比度和细节,使图像特征更加明显,其次,去除输入图像中的噪声,提高图像质量,避免错误的匹配。

3.根据权利要求1所述的多模态知识匹配系统,其特征在于:所述图像特征提取模块的处理包括图像识别ocr模块以及embedding模块,其中,所述图像识别ocr模块将图像识别技术将图片中文字特征进行提取,所述embedding模块用于将提取的文字特征结合图像特征进行语义组合,并将其通过embedding模型记性转化。

4.根据权利要求3所述的多模态知识匹配系统,其特征在于:所述图像识别ocr模块包括文本定位、字符分割、字符识别以及后处理,所述文本定位用于识别图像中的文本区域,使用east算法对文字进行检测和分割,所述字符分割将定位到的文本区域分割成单个字符或单词,为识别做准备,使用transformer模型识别分割后的字符,所述后处理对识别分割后的字符结果进行校正。

5.根据权利要求1所述的多模态知识匹配系统,其特征在于:所述embedding模块用于将图像识别ocr模块提取出来的文本转换为数值型特征向量,数值型特征向量能够捕捉文本的语义信息和上下文关系,用于与图像特征融合,形成一种多模态特征表示。

6.根据权利要求1所述的多模态知识匹配系统,其特征在于:所述知识点库包括知识储存、数据管理以及知识表示,知识储存作为系统的知识基础,存储了结构化或半结...

【专利技术属性】
技术研发人员:先树森乔素林吴钟健唐雪苑东波
申请(专利权)人:华云天下南京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1