System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于海量数据的搜索方法、装置、系统及存储介质制造方法及图纸_技高网

一种用于海量数据的搜索方法、装置、系统及存储介质制造方法及图纸

技术编号:40924436 阅读:4 留言:0更新日期:2024-04-18 14:48
本申请涉及一种用于海量数据的搜索方法、装置、系统及存储介质,涉及数据处理技术领域,方法包括响应于得到的语句数据,解析得到多个词语对象;根据语句数据确定词语对象的归属关系;向关联词语赋予方向向量组,方向向量组对应关联词语和与关联词语相近的关联词语;使用词语对象和关联词语构建检索向量组,检索向量组包括按照归属关系顺序连接的多个方向向量组以及使用检索向量组在知识图谱中检索内容,检索得到的内容与词语对象和归属关系关联。本申请公开的用于海量数据的搜索方法、装置、系统及存储介质,通过在三维空间内进行关系匹配的方式来得到准确答案,该种方式可以迅速确定一个小的搜索范围,能够降低搜索过程的数据处理量。

【技术实现步骤摘要】

本申请涉及数据处理,尤其是涉及一种用于海量数据的搜索方法、装置、系统及存储介质


技术介绍

1、海量数据搜索因为数据量巨大,很难在有限的时间内完成,目前常用的处理方式如下:将数据分成较小的部分,分别处理,然后再合并结果;将数据分布到多个节点上,并行处理,以提高效率;使用索引可以快速定位到需要的数据,避免全量扫描;将之前搜索的结果缓存起来,避免重复计算;针对特定领域的数据进行搜索,只保留相关的结果。

2、例如使用各种搜索引擎进行搜索,得到的搜索结果会根据相关度进行排序,需要提问者进行自行筛选。但是随着人工智能的广泛使用,对于海量数据搜索提出了新的需求,需要根据提问者的要求给出准确答案。上述过程需要瞬时性的大量计算支撑,导致得到答案的成本较高。


技术实现思路

1、本申请提供一种用于海量数据的搜索方法、装置、系统及存储介质,通过在三维空间内进行关系匹配的方式来得到准确答案,该种方式可以迅速确定一个小的搜索范围,能够降低搜索过程的数据处理量。

2、本申请的上述目的是通过以下技术方案得以实现的:

3、第一方面,本申请提供了一种用于海量数据的搜索方法,包括:

4、响应于得到的语句数据,对语句数据进行解析,得到多个词语对象;

5、根据语句数据确定词语对象的归属关系,归属关系根据语句数据中的关联词语确定;

6、向关联词语赋予方向向量组,方向向量组对应关联词语和与关联词语相近的关联词语,方向向量组包括至少一个方向向量;

<p>7、使用词语对象和关联词语构建检索向量组,检索向量组包括按照归属关系顺序连接的多个方向向量组;以及

8、使用检索向量组在知识图谱中检索内容,检索得到的内容与词语对象和归属关系关联,内容根据归属关系组成的折线与检索向量组具有相似关系;

9、其中,内容根据归属关系组成的折线与检索向量组在判定相似度时,两个相邻内容之间的长度可调。

10、在第一方面的一种可能的实现方式中,对语句数据进行解析包括:

11、将语句数据划分成多个词语单元并使用词语单元推导语句数据的含义;

12、推导过程中还包括调整词语单元的位置并推导语句数据的含义,得到多个疑似含义,词语单元的位置调整数量为多次;

13、将疑似含义根据相同或者相近进行分组,将包括数量最多的相同或者相近的疑似含义作为语句数据的含义。

14、在第一方面的一种可能的实现方式中,将语句数据划分成多个词语单元的过程中,记录多种划分方式中位于相近位置处的词语单元的含义;

15、统计相近位置处的词语单元的含义分布情况并根据含义分布情况确定一个位置处的划分方式。

16、在第一方面的一种可能的实现方式中,一个位置处的划分方式确定后,不再参与后续的划分方式。

17、在第一方面的一种可能的实现方式中,内容根据归属关系组成的折线与检索向量组在判定相似度时,折线的任意一段的长度均可以调整,调整包括伸长和缩短。

18、在第一方面的一种可能的实现方式中,顺序序列上的两个方向向量组,第一个方向向量组中的方向向量均与第二个方向向量组中的至少一个方向向量连接。

19、在第一方面的一种可能的实现方式中,第一个方向向量组中的方向向量与第二个方向向量组中的方向向量连接时,具有多种连接关系;

20、每调整一次连接关系,均使用检索向量组在知识图谱中检索内容;

21、对多次得到的检索内容进行合并处理并将表达近似且数量最多的检索内容作为最终的检索内容。

22、第二方面,本申请提供了一种用于海量数据的搜索装置,包括:

23、解析单元,用于响应于得到的语句数据,对语句数据进行解析,得到多个词语对象;

24、关系确定单元,用于根据语句数据确定词语对象的归属关系,归属关系根据语句数据中的关联词语确定;

25、赋予单元,用于向关联词语赋予方向向量组,方向向量组对应关联词语和与关联词语相近的关联词语,方向向量组包括至少一个方向向量;

26、构建单元,用于使用词语对象和关联词语构建检索向量组,检索向量组包括按照归属关系顺序连接的多个方向向量组;以及

27、检索单元,用于使用检索向量组在知识图谱中检索内容,检索得到的内容与词语对象和归属关系关联,内容根据归属关系组成的折线与检索向量组具有相似关系;

28、其中,内容根据归属关系组成的折线与检索向量组在判定相似度时,两个相邻内容之间的长度可调。

29、第三方面,本申请提供了一种用于海量数据的搜索系统,所述系统包括:

30、一个或多个存储器,用于存储指令;以及

31、一个或多个处理器,用于从所述存储器中调用并运行所述指令,执行如第一方面及第一方面任意可能的实现方式中所述的方法。

32、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质包括:

33、程序,当所述程序被处理器运行时,如第一方面及第一方面任意可能的实现方式中所述的方法被执行。

34、第五方面,本申请提供了一种计算机程序产品,包括程序指令,当所述程序指令被计算设备运行时,如第一方面及第一方面任意可能的实现方式中所述的方法被执行。

35、第六方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于实现上述各方面中所涉及的功能,例如,生成,接收,发送,或处理上述方法中所涉及的数据和/或信息。

36、该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。

37、在一种可能的设计中,该芯片系统还包括存储器,该存储器,用于保存必要的程序指令和数据。该处理器和该存储器可以解耦,分别设置在不同的设备上,通过有线或者无线的方式连接,或者处理器和该存储器也可以耦合在同一个设备上。

38、本申请的有益效果为:

39、本申请提供的用于海量数据的搜索方法、装置、系统及存储介质,通过在三维空间内进行关系匹配的方式来得到准确答案,该种方式可以迅速确定一个小的搜索范围,能够降低搜索过程的数据处理量。

本文档来自技高网
...

【技术保护点】

1.一种用于海量数据的搜索方法,其特征在于,包括:

2.根据权利要求1所述的用于海量数据的搜索方法,其特征在于,对语句数据进行解析包括:

3.根据权利要求2所述的用于海量数据的搜索方法,其特征在于,将语句数据划分成多个词语单元的过程中,记录多种划分方式中位于相近位置处的词语单元的含义;

4.根据权利要求3所述的用于海量数据的搜索方法,其特征在于,一个位置处的划分方式确定后,不再参与后续的划分方式。

5.根据权利要求1至4中任意一项所述的用于海量数据的搜索方法,其特征在于,内容根据归属关系组成的折线与检索向量组在判定相似度时,折线的任意一段的长度均可以调整,调整包括伸长和缩短。

6.根据权利要求1至4中任意一项所述的用于海量数据的搜索方法,其特征在于,顺序序列上的两个方向向量组,第一个方向向量组中的方向向量均与第二个方向向量组中的至少一个方向向量连接。

7.根据权利要求6所述的用于海量数据的搜索方法,其特征在于,第一个方向向量组中的方向向量与第二个方向向量组中的方向向量连接时,具有多种连接关系;

8.一种用于海量数据的搜索装置,其特征在于,包括:

9.一种用于海量数据的搜索系统,其特征在于,所述系统包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括:

...

【技术特征摘要】

1.一种用于海量数据的搜索方法,其特征在于,包括:

2.根据权利要求1所述的用于海量数据的搜索方法,其特征在于,对语句数据进行解析包括:

3.根据权利要求2所述的用于海量数据的搜索方法,其特征在于,将语句数据划分成多个词语单元的过程中,记录多种划分方式中位于相近位置处的词语单元的含义;

4.根据权利要求3所述的用于海量数据的搜索方法,其特征在于,一个位置处的划分方式确定后,不再参与后续的划分方式。

5.根据权利要求1至4中任意一项所述的用于海量数据的搜索方法,其特征在于,内容根据归属关系组成的折线与检索向量组在判定相似度时,折线的任意一段的长度均...

【专利技术属性】
技术研发人员:王苹曹婷罗钦洪静黄宇
申请(专利权)人:创意信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1