System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多源异构数据的农业多模态智能检索技术及系统技术方案_技高网

一种基于多源异构数据的农业多模态智能检索技术及系统技术方案

技术编号:40454622 阅读:7 留言:0更新日期:2024-02-22 23:12
本发明专利技术公开了一种基于多源异构数据的农业多模态智能检索技术及系统,包括多源数据处理、多模态输入处理与智能检索;在所述多源数据处理中,所述多源数据处理用于整合农业知识图谱、农业问答库、农业知识库和农业图像库等不同存储结构数据;在所述智能检索中,系统整合普通搜索、高级搜索、知识图谱检索、文本向量检索和图像检索等方法;本发明专利技术整合了知识图谱、知识库、图像库等多源、多模态数据,通过整合不同来源和格式的数据,提供更丰富的农业知识;采用各数据结构集成关键词、规则、语义相似度和图像相似度等检索方法并融合人工智能技术,提高检索的准确性和覆盖范围,从而提供准确高效的多模态检索服务。

【技术实现步骤摘要】

本专利技术属于农业知识检索,更具体地说,尤其涉及一种基于多源异构数据的农业多模态智能检索技术及系统


技术介绍

1、在农业垂直领域中,农技、农资、农业相关政策、农产品行情等数据呈指数级增长,然而数据的组织方式和表示形式各不相同,数据之间的关联性也难以挖掘。当用户需要查询农业知识时,需要耗费大量时间,并且对用户自身的知识储备有较高的要求。因此,针对农业领域,如何基于多源异构、多模态数据为用户提供高效智能的农业知识搜索服务,成为网络时代亟待解决的问题。

2、农业领域的信息检索在应用方法上存在一些局限性。首先,农业数据来源广泛,包括传感器数据、农田检测数据、文献资料、网页数据等,而且这些数据体现为多种不同格式,例如结构化的知识图谱数据和半结构化的农业问答库等。现有研究大多只基于某一单一的数据来源或数据格式进行信息检索,导致检索服务提供的信息量有限。为了获取更全面的农业知识,需要考虑如何处理和分析不同类型的数据,并且利用多模态数据支持多模态应用场景,例如,基于多模态知识图谱、农业病虫害图像库等数据来应用于农业病虫害检测、农业作物生长状态监控等场景。然而,目前农业领域的信息检索主要以文本数据为主,缺乏对多模态数据的应用。传统的关键词检索、规则检索方法是根据用户输入的关键词与文档内容进行匹配,但存在准确性和覆盖范围的限制,并且无法应用于多源数据库和多模态数据,导致检索效率和精度较低


技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种基于多源异构数据的农业多模态智能检索技术及系统。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种基于多源异构数据的农业多模态智能检索技术,包括多源数据处理、多模态输入处理与智能检索;

4、在所述多源数据处理中,所述多源数据处理包括农业知识图谱、农业问答库、农业知识库和农业图像库等不同存储结构数据,所述多源数据处理用于整合农业知识图谱、农业问答库、农业知识库和农业图像库等不同存储结构数据;

5、在多模态输入处理中,多模态输入处理包括文本模态数据处理技术、通过语音转写器来完成文本转换的语言模态数据技术及通过图像特征提取器提取图像特征表示的图像模态数据技术;

6、在所述智能检索中,系统整合普通搜索、高级搜索、知识图谱检索、文本向量检索和图像检索等方法,在农业知识图谱、农业知识库、农业图像库中实现农业信息检索操作。

7、一种基于多源异构数据的农业多模态智能检索系统,包括多源数据处理系统、多模态输入处理系统与智能检索系统,所述多源数据处理系统,用于整合农业知识图谱、问答库、知识库和图像库等不同存储结构数据;

8、所述农业知识图谱用于收集农业各领域单模态知识图谱、多模态知识图谱,以及农业领域文本和图像数据,对各知识图谱进行对齐、映射和融合,将各知识图谱进行统一,同时对图像进行特征提取、对文本进行实体识别和关系抽取,链接至多模态知识图谱中,完善多模态知识图谱的内容;

9、所述问答库用于进一步提高检索效率和检索效果,对现有农业问答库进行数据处理,包括问题重写(构造更丰富的问题表示方式)、领域分类(细分类别,提供更快速的匹配)、质量维护(对问答数据进行清洗处理,提供更高质量的回答)、向量表示(对问题进行向量表示,提供语义检索);

10、所述知识库包括农业百科知识、政策法规、文献资料等数据,以纯文本形式存储,处理方法包括关键词生成(为各文献、文章、政策生成更多的关键词)、领域分类(细分类别,提供更快速的匹配)、向量表示(对问题进行向量表示,提供语义检索);

11、所述图像库用于收集农业病虫害、农作物等图像数据,从多个角度(作物名称、生长状态、病虫害状态等)为图像构造文字标签,为文本检索提供更多信息,同时对图像进行向量表示,支撑图像检索。

12、优选的,所述多模态输入处理系统包括文本模态数据处理、语音模态数据和图像模态数据三种数据;

13、所述文本模态数据处理包括关键词抽取、查询语句构建以及文本特征抽取三个部分,所述关键词抽取的目的是通过实体提取等方法,抽取用户输入的关键信息来匹配数据库;

14、所述查询语句是通过实体抽取和意图分类方法来构造,从用户输入文本中提取实体,并对用户输入进行意图分类,与预定义模板进行匹配,构建结构化的查询语句;

15、所述文本特征抽取采用simcse(simple contrastive sentence embeddingframework)将文本表示为向量形式,用于文本语义检索。

16、优选的,所述实体抽取方法采用bert(bidirectional encoder representationfrom transformers)-crf(conditional random field)来提取文本中的关键实体,意图分类方法则直接采用bert进行特征提取,后接linear+softmax进行分类;

17、bert是一种广泛应用的预训练语言模型,它的双向编码器结构使其能够有效地捕捉上下文信息,从而提供更全面的语言理解能力。crf作为一种全局范围内统计归一化概率的方法,使得它能够更好地融合各种上下文信息,并产生更准确的预测结果。这种结合使得bert和crf能够在处理文本任务时灵活地利用任意的上下文信息,并取得良好的效果。

18、优选的,所述文本特征抽取是对问题语句进行向量表示,可以与数据库中的知识进行相似度计算,所以向量表示的效果影响着检索的质量,无监督的simcse是通过对比学习来进行训练,一个batch中,输入一条句子到bert中,由不同的dropout得到该句子的不同表示,作为正样本数据,输入其他句子到bert句子中,作为负样本数据,simcse通过最大化正样本相似度和最小化负样本相似度来设计loss,训练模型,loss公式如下所示。

19、

20、其中li表示的训练目标函数,τ表示温度系数,hi和分别为xi和的向量表示,n为mini-batch size。

21、优选的,所述语音模态数据通过语音转写器来完成文本的转换,并按照上述文本模态数据进行处理,其中语音转写器可以使用开源、自研模型,以及商用api。

22、优选的,所述图像模态数据是通过图像特征提取器提取图像特征表示,用于支撑图像检索,图像特征提取器可以使用开源、自研模型,以及商用api。

23、优选的,所述智能检索系统,用于整合普通搜索、高级搜索、知识图谱检索、文本向量检索和图像检索等方法,在多模态知识图谱、知识库、图像库中实现农业信息检索。

24、优选的,所述普通检索指通过单个搜索框搜索平台不同分类的知识内容。搜索输入框中文字引导用户可搜索农业技术、百科知识、农业数据、政策法规等。支持热门搜索推荐:后台维护和系统自动生成热门搜索词供用户选择。支持联想搜索:对输入搜索内容自动进行联想展示。支持历史搜索:收录用户近期本文档来自技高网...

【技术保护点】

1.一种基于多源异构数据的农业多模态智能检索技术,其特征在于,包括多源数据处理、多模态输入处理与智能检索;

2.一种基于多源异构数据的农业多模态智能检索系统,其特征在于:包括多源数据处理系统、多模态输入处理系统与智能检索系统,所述多源数据处理系统,用于整合农业知识图谱、问答库、知识库和图像库等不同存储结构数据;

3.根据权利要求2所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述多模态输入处理系统包括文本模态数据处理、语音模态数据和图像模态数据三种数据;

4.根据权利要求3所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述实体抽取方法采用BERT(Bidirectional Encoder Representation fromTransformers)-CRF(Conditional Random Field)来提取文本中的关键实体,意图分类方法则直接采用BERT进行特征提取,后接linear+softmax进行分类;

5.根据权利要求4所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述文本特征抽取是对问题语句进行向量表示,可以与数据库中的知识进行相似度计算,所以向量表示的效果影响着检索的质量,无监督的SimCSE是通过对比学习来进行训练,一个batch中,输入一条句子到BERT中,由不同的dropout得到该句子的不同表示,作为正样本数据,输入其他句子到BERT句子中,作为负样本数据,SimCSE通过最大化正样本相似度和最小化负样本相似度来设计loss,训练模型,Loss公式如下所示。

6.根据权利要求5所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述语音模态数据通过语音转写器来完成文本的转换,并按照上述文本模态数据进行处理,其中语音转写器可以使用开源、自研模型,以及商用API。

7.根据权利要求6所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述图像模态数据是通过图像特征提取器提取图像特征表示,用于支撑图像检索,图像特征提取器可以使用开源、自研模型,以及商用API。

8.根据权利要求7所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述智能检索系统,用于整合普通搜索、高级搜索、知识图谱检索、文本向量检索和图像检索等方法,在多模态知识图谱、知识库、图像库中实现农业信息检索。

9.根据权利要求7所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述普通检索指通过单个搜索框搜索平台不同分类的知识内容。搜索输入框中文字引导用户可搜索农业技术、百科知识、农业数据、政策法规等。支持热门搜索推荐:后台维护和系统自动生成热门搜索词供用户选择。支持联想搜索:对输入搜索内容自动进行联想展示。支持历史搜索:收录用户近期历史搜索词。按农业技术、百科知识、农业数据、政策法规等分类展示搜索结果内容;

10.根据权利要求7所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述文本向量检索,基于向量聚类的检索方式是通过SimCSE模型对问题和知识库中的文本进行向量化后,采用聚类方法对知识库中的候选文本进行聚类,得到多个簇后,取中心数据来与问题向量计算相似度,得到与问题最相近的聚类结果,再执行检索操作;

...

【技术特征摘要】

1.一种基于多源异构数据的农业多模态智能检索技术,其特征在于,包括多源数据处理、多模态输入处理与智能检索;

2.一种基于多源异构数据的农业多模态智能检索系统,其特征在于:包括多源数据处理系统、多模态输入处理系统与智能检索系统,所述多源数据处理系统,用于整合农业知识图谱、问答库、知识库和图像库等不同存储结构数据;

3.根据权利要求2所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述多模态输入处理系统包括文本模态数据处理、语音模态数据和图像模态数据三种数据;

4.根据权利要求3所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述实体抽取方法采用bert(bidirectional encoder representation fromtransformers)-crf(conditional random field)来提取文本中的关键实体,意图分类方法则直接采用bert进行特征提取,后接linear+softmax进行分类;

5.根据权利要求4所述的一种基于多源异构数据的农业多模态智能检索系统,其特征在于:所述文本特征抽取是对问题语句进行向量表示,可以与数据库中的知识进行相似度计算,所以向量表示的效果影响着检索的质量,无监督的simcse是通过对比学习来进行训练,一个batch中,输入一条句子到bert中,由不同的dropout得到该句子的不同表示,作为正样本数据,输入其他句子到bert句子中,作为负样本数据,simcse通过最大化正样本相似度和最小化负样本相似度来设计loss,训练模型,loss公式如下所示。

6.根据...

【专利技术属性】
技术研发人员:谷训刚张鹤孙嘉泽李宁候学杰王国峰张之涛许若华李沄沨
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1