信息获取方法、装置、设备、服务器及其集群、存储介质制造方法及图纸

技术编号：39989086 阅读：6 留言：0更新日期：2024-01-09 02:07

本发明专利技术公开了一种信息获取方法、装置、设备、服务器及其集群、存储介质，属于信息获取领域，用于提升信息获取中实体匹配的精度，解决了信息获取中实体匹配精度低的问题。不同模态的查询数据能够从不同维度对于目标实体进行描述，本发明专利技术中可以通过人机交互接口获取描述同一实体的多种模态的查询数据，并且在预先构建了包含目标领域内各个实体的表征数据的预设数据库的前提下，便可以基于各种模态的查询数据以及预设数据库内各个实体的表征数据，通过相似度检测算法确定出查询数据描述的实体，并将其标识信息推送至人机交互接口，多模态的查询数据能够多维度的对实体进行更加完善的表征，从而有利于提升实体匹配的精度，提升了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息获取领域，特别是涉及一种信息获取方法，本专利技术还涉及一种信息获取装置、设备、服务器、服务器集群以及计算机可读存储介质。

技术介绍

1、随着人工智能技术的发展，在多种领域(例如文旅领域)都可以设计提供信息获取服务，以便满足用户对于领域内知识的问答需求，在使用信息获取服务时，用户通常可以提供关键词，然后从数据库中检索确定出关键词所描述的领域内的某个实体，然而相关技术中缺少一种成熟的信息获取方法，导致检索确定出的实体与用户理想中实体的匹配度较差，降低了用户体验。

2、因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

技术实现思路

1、本专利技术的目的是提供一种信息获取方法，多模态的查询数据能够多维度的对实体进行更加完善的表征，从而有利于提升实体匹配的精度，提升了用户体验；本专利技术的另一目的是提供一种信息获取装置、设备、服务器、服务器集群以及计算机可读存储介质，多模态的查询数据能够多维度的对实体进行更加完善的表征，从而有利于提升实体匹配的精度，提升了用户体验。

2、为解决上述技术问题，本专利技术提供了一种信息获取方法，包括：

3、获取预先构建的包含目标领域内各个实体的表征数据的预设数据库；

4、通过人机交互接口获取描述同一实体的多种模态的查询数据；

5、基于各种模态的所述查询数据以及所述预设数据库内各个实体的表征数据，通过相似度检测算法确定出所述查询数据描述的实体，并将其作为目标实体；

6、将所述目标实体的标识信息推送至所述人机交互接口。

7、另一方面，所述获取预先构建的包含目标领域内各个实体的表征数据的预设数据库包括：

8、确定出属于目标领域内的多个实体，并将其作为待存储实体；

9、针对每个所述待存储实体，获取所述待存储实体多个指定模态的表征数据；

10、将各个所述待存储实体及其对应的所述表征数据，存储至预设数据库；

11、其中，所述指定模态包括文本模态、语音模态、图像模态、视频模态以及地理坐标模态中的至少两种。

12、另一方面，所述针对每个所述待存储实体，获取所述待存储实体多个指定模态的表征数据之后，该信息获取方法还包括：

13、通过文本-图像多模态模型，对各个所述待存储实体的所述表征数据进行编码，得到特征向量；

14、将各个所述待存储实体的各个所述表征数据，通过所述文本-图像多模态模型编码的特征向量作为第一特征向量集合，存储至所述预设数据库；

15、所述基于各种模态的所述查询数据以及所述预设数据库内各个实体的表征数据，通过相似度检测算法确定出所述查询数据描述的实体，并将其作为目标实体包括：

16、通过所述文本-图像多模态模型，将各种模态的所述查询数据编码为特征向量；

17、对于任一所述查询数据，确定出所述查询数据通过所述文本-图像多模态模型编码的特征向量与所述第一特征向量集合中的各个特征向量之间的相似度；

18、对于所述预设数据库中任一实体，将本次通过所述实体的所述表征数据对应的特征向量确定出的所有所述相似度的数值之和，作为所述实体的打分值；

19、将所述预设数据库中所述打分值最高的实体作为所述查询数据描述的实体，并将其作为目标实体；

20、其中，所述多种模态的查询数据包括文本模态、语音模态、图像模态、视频模态以及地理坐标模态中的至少两种。

21、另一方面，所述针对每个所述待存储实体，获取所述待存储实体多个指定模态的表征数据之后，该信息获取方法还包括：

22、通过文本数据专用编码器将各个所述待存储实体的文本模态的表征数据编码为特征向量；

23、将各个所述待存储实体通过所述文本数据专用编码器编码得到的特征向量作为第二特征向量集合，存储至所述预设数据库，将各个所述待存储实体的地理坐标模态的所述表征数据作为第三特征向量集合，存储至所述预设数据库；

24、所述对于所述预设数据库中任一实体，将本次通过所述实体的所述表征数据对应的特征向量确定出的所有所述相似度的数值之和，作为所述实体的打分值之前，该信息获取方法还包括：

25、通过所述文本数据专用编码器将文本模态的所述查询数据编码为特征向量；

26、对于任一文本模态的所述查询数据，确定出所述查询数据通过所述文本数据专用编码器编码的特征向量与所述第二特征向量集合中的各个特征向量之间的相似度；

27、对于任一地理坐标模态的所述查询数据，确定出所述查询数据与所述第三特征向量集合中的各个特征向量之间的相似度。

28、另一方面，所述获取预先构建的包含目标领域内各个实体的表征数据的预设数据库之后，所述通过人机交互接口获取描述同一实体的多种模态的查询数据之前，该信息获取方法还包括：

29、通过人机交互接口提示输入描述同一实体的图像模态以及文本模态的查询数据。

30、另一方面，所述基于各种模态的所述查询数据以及所述预设数据库内各个实体的表征数据，通过相似度检测算法确定出所述查询数据描述的实体，并将其作为目标实体之后，该信息获取方法还包括：

31、将所述预设数据库中与所述目标实体的关联关系的数值大于预设阈值的实体作为推荐实体；

32、将所述推荐实体的标识信息推送至所述人机交互接口；

33、其中，所述预设数据库中预先确定有各个实体之间的关联关系。

34、另一方面，所述将所述目标实体的标识信息推送至所述人机交互接口之后，该信息获取方法还包括：

35、通过所述人机交互接口获取对于所述目标实体的文本模态的提问内容；

36、基于预设数据库中各个实体之间的关联关系，通过预设的人工智能问答模型得到针对所述提问内容的解答内容；

37、将所述解答内容推送至所述人机交互接口。

38、另一方面，所述人工智能问答模型包括聊天生成对抗网络或第二代生成对抗网络。

39、另一方面，所述预设数据库中各个实体之间的关联关系包括：

40、依次将所述预设数据库中的各个实体作为待测实体，并基于互联网针对所述待测实体提供的文本内容，确定出与待测实体具有直接相关关系的实体；

41、基于所述预设数据库中的各个实体以及各个实体间的所述直接相关关系，构建知识图谱；

42、针对当前的所述知识图谱，采用社会网络中的三元闭包原理，挖掘出各个所述实体间的潜在关联关系。

43、另一方面，所述针对当前的所述知识图谱，采用社会网络中的三元闭包原理，挖掘出各个所述实体间的潜在关联关系之后，该信息获取方法还包括：

44、通过各个所述实体的地理坐标，确定出各个所述实体间的空间关联关系。

45、另一方面，所述文本-图像多模态模型包括基于对比文本-图像对的预训练模型。

46、另一方面，所述文本本文档来自技高网...

【技术保护点】

1.一种信息获取方法，其特征在于，包括：

2.根据权利要求1所述的信息获取方法，其特征在于，所述获取预先构建的包含目标领域内各个实体的表征数据的预设数据库包括：

3.根据权利要求2所述的信息获取方法，其特征在于，所述针对每个所述待存储实体，获取所述待存储实体多个指定模态的表征数据之后，该信息获取方法还包括：

4.根据权利要求3所述的信息获取方法，其特征在于，所述针对每个所述待存储实体，获取所述待存储实体多个指定模态的表征数据之后，该信息获取方法还包括：

5.根据权利要求4所述的信息获取方法，其特征在于，所述获取预先构建的包含目标领域内各个实体的表征数据的预设数据库之后，所述通过人机交互接口获取描述同一实体的多种模态的查询数据之前，该信息获取方法还包括：

6.根据权利要求3所述的信息获取方法，其特征在于，所述基于各种模态的所述查询数据以及所述预设数据库内各个实体的表征数据，通过相似度检测算法确定出所述查询数据描述的实体，并将其作为目标实体之后，该信息获取方法还包括：

7.根据权利要求6所述的信息获取方法，其特征

8.根据权利要求7所述的信息获取方法，其特征在于，所述人工智能问答模型包括聊天生成对抗网络或第二代生成对抗网络。

9.根据权利要求6所述的信息获取方法，其特征在于，所述预设数据库中各个实体之间的关联关系包括：

10.根据权利要求9所述的信息获取方法，其特征在于，所述针对当前的所述知识图谱，采用社会网络中的三元闭包原理，挖掘出各个所述实体间的潜在关联关系之后，该信息获取方法还包括：

11.根据权利要求3所述的信息获取方法，其特征在于，所述文本-图像多模态模型包括基于对比文本-图像对的预训练模型。

12.根据权利要求4所述的信息获取方法，其特征在于，所述文本数据专用编码器包括自注意力语言模型。

13.根据权利要求3至12任一项所述的信息获取方法，其特征在于，所述将各个所述待存储实体的各个所述表征数据，通过所述文本-图像多模态模型编码的特征向量作为第一特征向量集合，存储至所述预设数据库包括：

14.根据权利要求13所述的信息获取方法，其特征在于，所述对所述第一特征向量集合中的每个子集合进行聚类包括：

15.根据权利要求13所述的信息获取方法，其特征在于，所述预设标签包括所述表征数据的数据模态。

16.根据权利要求13所述的信息获取方法，其特征在于，所述对所述第一特征向量集合中的每个子集合进行聚类之前，该信息获取方法还包括：

17.根据权利要求2所述的信息获取方法，其特征在于，所述确定出属于目标领域内的多个实体，并将其作为待存储实体包括：

18.一种信息获取装置，其特征在于，包括：

19.一种信息获取设备，其特征在于，包括：

20.一种服务器，其特征在于，包括如权利要求19所述的信息获取设备。

21.一种服务器集群，其特征在于，包括至少一台如权利要求20所述的服务器。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至17任一项所述信息获取方法的步骤。

...

【技术特征摘要】

1.一种信息获取方法，其特征在于，包括：

2.根据权利要求1所述的信息获取方法，其特征在于，所述获取预先构建的包含目标领域内各个实体的表征数据的预设数据库包括：

7.根据权利要求6所述的信息获取方法，其特征在于，所述将所述目标实体的标识信息推送至所述人机交互接口之后，该信息获取方法还包括：

8.根据权利要求7所述的信息获取方法，其特征在于，所述人工智能问答模型包括聊天生成对抗网络或第二代生成对抗网络。

9.根据权利要求6所述的信息获取方法，其特征在于，所述预设数据库中各个实体之间的关联关系包括：

10.根据权利要求9所述的信息获取方法，其特征在于，所述针对当前的所述知识图谱，采用社会网络中的三元闭包原理，挖掘出各个所述实体间...

【专利技术属性】
技术研发人员：朱洪银，张闯，王敏，
申请(专利权)人：广东浪潮智慧计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人