【技术实现步骤摘要】
数据存储方法、检测方法及系统、存储介质和计算机设备
本专利技术涉及存储技术,特别涉及一种数据存储方法、内容相似检测方法、内容相似检测系统、非易失性计算机可读存储介质和计算机设备。
技术介绍
为了实现在大量文档中快速找到所需的内容,数据库一般通过建立索引表来将文档中的内容与文档之间进行关联。然而,现有的索引表存在存储空间较大等问题。
技术实现思路
本专利技术的实施例提供了一种数据存储方法、内容相似检测方法、内容相似检测系统、非易失性计算机可读存储介质和计算机设备。本专利技术实施方式的数据存储方法,用于将待存储数据存储到倒排索引存储结构,所述倒排索引存储结构包括至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,所述结点包括当前结点,所述数据存储方法包括:判断所述待存储数据是否可以全部写入所述当前结点的所述数据域;当所述待存储数据可以全部写入所述当前结点的所述数据域时,在所述当前结点的所述指针域写入空指针;当所述当前结点的所述数据域无法存储全部所述待存储数据时,生成所述倒排索引存储结构的下一结点;在所述当前结点的所述指针域写入指向所述下一结点的指针; ...
【技术保护点】
1.一种数据存储方法,用于将待存储数据存储到倒排索引存储结构,其特征在于,所述倒排索引存储结构包括至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,所述结点包括当前结点,所述数据存储方法包括:判断所述待存储数据是否可以全部写入所述当前结点的所述数据域;当所述待存储数据可以全部写入所述当前结点的所述数据域时,在所述当前结点的所述指针域写入空指针;当所述当前结点的所述数据域无法存储全部所述待存储数据时,生成所述倒排索引存储结构的下一结点;在所述当前结点的所述指针域写入指向所述下一结点的指针;将剩余的所述待存储数据写入所述下一结点的所述数据域;和令所述下一 ...
【技术特征摘要】
1.一种数据存储方法,用于将待存储数据存储到倒排索引存储结构,其特征在于,所述倒排索引存储结构包括至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,所述结点包括当前结点,所述数据存储方法包括:判断所述待存储数据是否可以全部写入所述当前结点的所述数据域;当所述待存储数据可以全部写入所述当前结点的所述数据域时,在所述当前结点的所述指针域写入空指针;当所述当前结点的所述数据域无法存储全部所述待存储数据时,生成所述倒排索引存储结构的下一结点;在所述当前结点的所述指针域写入指向所述下一结点的指针;将剩余的所述待存储数据写入所述下一结点的所述数据域;和令所述下一结点为所述当前结点并进入所述判断所述待存储数据是否可以全部写入所述当前结点的所述数据域的步骤。2.根据权利要求1所述的数据存储方法,其特征在于,所述倒排索引存储结构包括多个所述结点,每个所述结点的所述数据域存储的所述数据的组数相同。3.根据权利要求1所述的数据存储方法,其特征在于,所述倒排索引存储结构包括多个所述结点,所述结点的所述数据域存储的所述数据的组数与所述结点的顺序呈正相关。4.根据权利要求1所述的数据存储方法,其特征在于,所述倒排索引存储结构包括多个所述结点,在所述结点的所述数据域存储的所述数据的组数小于预设组数时,所述结点的所述数据域存储的所述数据的组数与所述结点的顺序呈正相关,在所述结点的所述数据域存储的所述数据的组数等于所述预设组数时,所述结点的后续结点的所述数据域存储的所述数据的组数均为所述预设组数。5.根据权利要求4所述的数据存储方法,其特征在于,所述预设组数为4096。6.根据权利要求1所述的数据存储方法,其特征在于,每组所述数据对应一个文档的信息,所述文档的信息包括所述文档的编号。7.一种内容相似检测方法,用于倒排索引存储结构,其特征在于,所述倒排索引存储结构包括特征信息和至少一个结点,每个所述结点包括数据域和指针域,所述数据域用于存储多组数据,每组所述数据对应一个文档的信息,所述指针域用于存储指针,所述文本相似检索方法包括:根据所述倒排索引存储结构中所述特征信息与所述文档的信息的对应关系获取两个所述文档相同的所述特征信息的个数;判断所述个数是否大于或等于预设个数;在所述个数大于或等于所述预设个数时,判断两个所述文...
【专利技术属性】
技术研发人员:白帆,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。