System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 邮件索引的构建方法、装置、设备和计算机可读存储介质制造方法及图纸_技高网

邮件索引的构建方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:39959328 阅读:8 留言:0更新日期:2024-01-08 23:55
本申请的实施例提供了邮件索引的构建方法、装置、设备和计算机可读存储介质。所述方法包括获取已构建的邮件的目标数据库;按照从小到大的顺序对所述目标数据库中的整形数据进行排序;将排序后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据;对排序后的相邻的两个整型数据进行差运算,得到相邻的两个整型数据的差的集合;将所述差的集合中的数据分别和所述预设的字符进行逻辑或运算,得到编码数据集合;基于所述目标编码数据和所述编码数据集合,构建邮件索引。以此方式,可以大幅度减少磁盘读取次数,提高检索速度和用户体验。

【技术实现步骤摘要】

本申请的实施例涉及数据处理领域,尤其涉及邮件索引的构建方法、装置、设备和计算机可读存储介质


技术介绍

1、在倒排索引技术中,通常会采用btree作为基本数据结构、以词条作为btree的key值,每个key可以分配多个数据块。在上述存储结构中,有大量的整型数需要存储,比如邮件id,一个邮件中所含词条的总数、一个词条在某个邮件中出现的次数、一个词条在倒排索引数据库中出现的总次数。邮件系统的倒排索引库中一般不超过42亿个邮件,当超过这个数量后需要建立新的倒排索引库。

2、当前的倒排索引库中,通常以固定长度的字节数保存整形数,比如integer型4个字节,short型2个字节,long型8个字节;将一个词条所隶属的所有document的id以固定长度的整数存储在该词条所辖的数据块内。可见,通过现有的索引存储方法,会占用较多的btree 数据块,造成更多的延迟,严重影响了用户体验。


技术实现思路

1、根据本申请的实施例,提供了一种邮件索引的构建方案,能够减少每个term所占block数量,大幅度减少了磁盘读取次数,提高了检索速度和用户体验。

2、在本申请的第一方面,提供了一种邮件索引的构建方法。该方法包括:

3、获取已构建的邮件的目标数据库;

4、按照从小到大的顺序所述目标数据库中的整形数据进行排序;

5、将排序后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据;

6、对排序后的相邻的两个整型数据进行差运算,得到相邻的两个整型数据的差的集合;

7、将所述差的集合中的数据分别和所述预设的字符进行逻辑或运算,得到编码数据集合;

8、基于所述目标编码数据和所述编码数据集合,构建邮件索引。

9、进一步地,所述目标数据库包括:

10、获取待处理邮件中的整形数据;

11、对所述整形数据进行倒排索引,构建目标数据库。

12、进一步地,还包括:

13、按照bit从低到高的方式,对所述差的集合中的整形数据进行排列。

14、进一步地,所述将排列后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据包括:

15、提取排列后的第一个整形数据的前n位与预设的字符进行逻辑或运算,得到目标编码数据;n为正整数。

16、在本申请的第二方面,提供了一种邮件索引的构建装置。该装置包括:

17、获取模块,用于获取已构建的邮件的目标数据库;

18、排列模块,用于按照从小到大的顺序对所述目标数据库中的整形数据进行排序;

19、第一运算模块,用于将排序后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据;

20、第二运算模块,用于对排序后的相邻的两个整型数据进行差运算,得到相邻的两个整型数据的差的集合;

21、第三运算模块,用于将所述差的集合中的数据分别和所述预设的字符进行逻辑或运算,得到编码数据集合;

22、构建模块,用于基于所述目标编码数据和所述编码数据集合,构建邮件索引。

23、进一步地,所述目标数据库包括:

24、获取待处理邮件中的整形数据;

25、对所述整形数据进行倒排索引,构建目标数据库。

26、进一步地,还包括:

27、按照bit从低到高的方式,对所述差的集合中的整形数据进行排列。

28、进一步地,所述将排列后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据包括:

29、提取排列后的第一个整形数据的前n位与预设的字符进行逻辑或运算,得到目标编码数据;n位正整数。

30、在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。

31、在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。

32、本申请实施例提供的邮件索引的构建方法,通过获取已构建的邮件的目标数据库;基于所述目标数据库中的整形数据的bit,对所述目标数据库中的整型数据进行排列;将排列后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据;对排列后的相邻的两个整型数据进行差运算,得到相邻的两个整型数据的差的集合;将所述差的集合中的数据分别和所述预设的字符进行逻辑或运算,得到编码数据集合;基于所述目标编码数据和所述编码数据集合,构建邮件索引,大量减少每个term所占block数量,提高了检索效率,提升了客户体验。

33、应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种邮件索引的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标数据库包括:

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,所述将排列后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据包括:

5.一种邮件索引的构建装置,其特征在于,包括:

6.根据权利要求5所述的装置,其特征在于,所述目标数据库包括:

7.根据权利要求6所述的装置,其特征在于,还包括:

8.根据权利要求7所述的装置,其特征在于,所述将排列后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据包括:

9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~4中任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~4中任一项所述的方法。

【技术特征摘要】

1.一种邮件索引的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述目标数据库包括:

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求3所述的方法,其特征在于,所述将排列后的第一个整型数据和预设的字符进行逻辑或运算,得到目标编码数据包括:

5.一种邮件索引的构建装置,其特征在于,包括:

6.根据权利要求5所述的装置,其特征在于,所述目标数据库包括:

7.根据权利...

【专利技术属性】
技术研发人员:杨良志白琳汪志新卢业波白小刚瞿勇金王向军
申请(专利权)人:彩讯科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1