数据存储方法、检测方法及系统、存储介质和计算机设备技术方案

技术编号:19593361 阅读:22 留言:0更新日期:2018-11-28 04:52
本发明专利技术公开一种数据存储方法,用于将待存储数据存储到倒排索引存储结构。倒排索引存储结构包括结点,结点包括用于存储多组数据的数据域和指针域。数据存储方法包括:判断待存储数据是否可以全部写入当前结点的数据域;若是,在当前结点的指针域写入空指针;若否,生成下一结点;在当前结点的指针域写入指向下一结点的指针;将剩余的待存储数据写入下一结点的数据域;令下一结点为当前结点并进入判断步骤。本发明专利技术还公开内容相似检测方法及系统、存储介质和计算机设备。本发明专利技术的数据存储方法、内容相似检测方法及系统、计算机可读存储介质和计算机设备利用一个结点的数据域存储多组数据,从而减少结点的数量,进而减少指针所需的存储空间。

【技术实现步骤摘要】
数据存储方法、检测方法及系统、存储介质和计算机设备
本专利技术涉及存储技术,特别涉及一种数据存储方法、内容相似检测方法、内容相似检测系统、非易失性计算机可读存储介质和计算机设备。
技术介绍
为了实现在大量文档中快速找到所需的内容,数据库一般通过建立索引表来将文档中的内容与文档之间进行关联。然而,现有的索引表存在存储空间较大等问题。
技术实现思路
本专利技术的实施例提供了一种数据存储方法、内容相似检测方法、内容相似检测系统、非易失性计算机可读存储介质和计算机设备。本专利技术实施方式的数据存储方法,用于将待存储数据存储到倒排索引存储结构,所述倒排索引存储结构包括至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,所述结点包括当前结点,所述数据存储方法包括:判断所述待存储数据是否可以全部写入所述当前结点的所述数据域;当所述待存储数据可以全部写入所述当前结点的所述数据域时,在所述当前结点的所述指针域写入空指针;当所述当前结点的所述数据域无法存储全部所述待存储数据时,生成所述倒排索引存储结构的下一结点;在所述当前结点的所述指针域写入指向所述下一结点的指针;将剩余的所述待存储数据写入所述下一结点的所述数据域;和令所述下一结点为所述当前结点并进入所述判断所述待存储数据是否可以全部写入所述当前结点的所述数据域的步骤。本专利技术实施方式的内容相似检测方法用于倒排索引存储结构,所述倒排索引存储结构包括特征信息和至少一个结点,每个所述结点包括数据域和指针域。所述数据域用于存储多组数据,每组所述数据对应一个文档的信息,所述指针域用于存储指针。所述文本相似检索方法包括:根据所述倒排索引存储结构中所述特征信息与所述文档的信息的对应关系获取两个所述文档相同的所述特征信息的个数;判断所述个数是否大于或等于预设个数;在所述个数大于或等于所述预设个数时,判断两个所述文档相似;在所述个数小于所述预设个数时,判断两个所述文档不相似。本专利技术实施方式的内容相似检测系统用于倒排索引存储结构,所述倒排索引存储结构包括特征信息和至少一个结点,每个所述结点包括数据域和指针域。所述数据域用于存储多组数据,每组所述数据对应一个文档的信息,所述指针域用于存储指针。所述内容相似检测系统包括获取模块、第一判断模块、第二判断模块和第三判断模块。所述获取模块用于根据所述倒排索引存储结构中所述特征信息与所述文档的信息的对应关系获取两个所述文档相同的所述特征信息的个数。所述第一判断模块用于判断所述个数是否大于或等于预设个数。所述第二判断模块用于在所述个数大于或等于所述预设个数时判断两个所述文档相似。所述第三判断模块用于在所述个数小于所述预设个数时判断两个所述文档不相似。本专利技术实施方式的一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行上述数据存储方法和/或上述内容相似检测方法。本专利技术实施方式的计算机设备,包括存储器及处理器,所述存储器中储存有计算机可读指令,所述指令被所述处理器执行时,使得所述处理器执行上述数据存储方法和/或上述内容相似检测方法。本专利技术实施方式的数据存储方法、内容相似检测方法、内容相似检测系统、计算机可读存储介质和计算机设备利用一个结点的数据域存储多组数据,从而减少结点的数量,进而减少指针所需的存储空间。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术某些实施方式的倒排索引存储结构的结构示意图。图2是传统的链式结构的结构示意图。图3是传统的数组结构的结构示意图。图4是本专利技术某些实施方式的倒排索引存储结构的结构示意图。图5是本专利技术某些实施方式的倒排索引存储结构的结构示意图。图6是本专利技术某些实施方式的数据存储方法的流程示意图。图7是本专利技术某些实施方式的内容相似检测方法的流程示意图。图8是本专利技术某些实施方式的内容相似检测系统的示意图。图9是本专利技术某些实施方式的内容相似检测方法的应用场景示意图。图10是本专利技术某些实施方式的计算机可读存储介质的示意图。图11是本专利技术某些实施方式的计算机设备的示意图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。下文的公开提供了许多不同的实施方式或例子用来实现本专利技术的不同结构。为了简化本专利技术的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本专利技术。此外,本专利技术可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本专利技术提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。请参阅图1,本专利技术实施方式的倒排索引存储结构100,包括至少一个结点10。每个结点10包括数据域12和指针域14。一个结点10的数据域12用于存储多组数据。指针域14用于存储指针。本专利技术实施方式的倒排索引存储结构100利用一个结点10的数据域12存储多组数据,其中每组数据可以对应一个文档的信息,从而减少结点10的数量,进而减少指针所需的存储空间。本专利技术实施方式的倒排索引存储结构100还包括特征信息20,特征信息20例如为单词,通过倒排索引存储结构100可以获得该特征信息20与数据(文档的信息)的对应关系。请参阅图2,现有的倒排索引存储结构一般采用传统的链式结构。传统的链式结构的每个结点的数据域只能存储一组数据,即只能存储一个文档的信息,在数据库中的文档比较多时,每个特征信息对应的文档的信息也比较多,例如特征信息“人们本文档来自技高网...

【技术保护点】
1.一种数据存储方法,用于将待存储数据存储到倒排索引存储结构,其特征在于,所述倒排索引存储结构包括至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,所述结点包括当前结点,所述数据存储方法包括:判断所述待存储数据是否可以全部写入所述当前结点的所述数据域;当所述待存储数据可以全部写入所述当前结点的所述数据域时,在所述当前结点的所述指针域写入空指针;当所述当前结点的所述数据域无法存储全部所述待存储数据时,生成所述倒排索引存储结构的下一结点;在所述当前结点的所述指针域写入指向所述下一结点的指针;将剩余的所述待存储数据写入所述下一结点的所述数据域;和令所述下一结点为所述当前结点并进入所述判断所述待存储数据是否可以全部写入所述当前结点的所述数据域的步骤。

【技术特征摘要】
1.一种数据存储方法,用于将待存储数据存储到倒排索引存储结构,其特征在于,所述倒排索引存储结构包括至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,所述结点包括当前结点,所述数据存储方法包括:判断所述待存储数据是否可以全部写入所述当前结点的所述数据域;当所述待存储数据可以全部写入所述当前结点的所述数据域时,在所述当前结点的所述指针域写入空指针;当所述当前结点的所述数据域无法存储全部所述待存储数据时,生成所述倒排索引存储结构的下一结点;在所述当前结点的所述指针域写入指向所述下一结点的指针;将剩余的所述待存储数据写入所述下一结点的所述数据域;和令所述下一结点为所述当前结点并进入所述判断所述待存储数据是否可以全部写入所述当前结点的所述数据域的步骤。2.根据权利要求1所述的数据存储方法,其特征在于,所述倒排索引存储结构包括多个所述结点,每个所述结点的所述数据域存储的所述数据的组数相同。3.根据权利要求1所述的数据存储方法,其特征在于,所述倒排索引存储结构包括多个所述结点,所述结点的所述数据域存储的所述数据的组数与所述结点的顺序呈正相关。4.根据权利要求1所述的数据存储方法,其特征在于,所述倒排索引存储结构包括多个所述结点,在所述结点的所述数据域存储的所述数据的组数小于预设组数时,所述结点的所述数据域存储的所述数据的组数与所述结点的顺序呈正相关,在所述结点的所述数据域存储的所述数据的组数等于所述预设组数时,所述结点的后续结点的所述数据域存储的所述数据的组数均为所述预设组数。5.根据权利要求4所述的数据存储方法,其特征在于,所述预设组数为4096。6.根据权利要求1所述的数据存储方法,其特征在于,每组所述数据对应一个文档的信息,所述文档的信息包括所述文档的编号。7.一种内容相似检测方法,用于倒排索引存储结构,其特征在于,所述倒排索引存储结构包括特征信息和至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,每组所述数据对应一个文档的信息,所述指针域用于存储指针,所述文本相似检索方法包括:根据所述倒排索引存储结构中所述特征信息与所述文档的信息的对应关系获取两个所述文档相同的所述特征信息的个数;判断所述个数是否大于或等于预设个数;在所述个数大于或等于所述预设个数时,判断两个所述文...

【专利技术属性】
技术研发人员:白帆
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1