词表的存储管理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:21089749 阅读:33 留言:0更新日期:2019-05-11 10:01
本申请提出一种词表的存储管理方法、装置、电子设备及存储介质。其中,该方法包括:获取预先构建的第一词表和第二词表,第一词表和第二词表具有一一对应的前缀词语,第二词表还包括前缀词语的后缀词语;将第一词表中前缀词语的属性、第二词表中前缀词语在第二词表中的位置信息、第二词表中与前缀词语对应的后缀词语的个数、第二词表中与前缀词语对应的后缀词语的词标识、第二词表中与后缀词语的属性分别存储在一维数组中。由此,通过多个一维数组分别对第一词表以及第二词表中的内容进行保存,减少了保存结构树中每个节点的性质所需要的存储空间,大大降低了存储输入法的词库所占用的存储空间。

Storage management methods, devices, electronic devices and storage media of vocabulary

【技术实现步骤摘要】
词表的存储管理方法、装置、电子设备及存储介质
本申请涉及计算机应用
,尤其涉及一种词表的存储管理方法词表的存储管理方法、装置、电子设备及存储介质。
技术介绍
目前,为了提高用户的输入效率,终端设备中的输入法通常会提供一个词组推荐功能,例如,在用户通过输入法输入“清华”后,输入法的输入界面可能会推荐“大学”、“北大”、“同方”等。然而,词组与词组之间的存在海量的组合,例如,在中文中,字词与词之间的组合有很多种组合情况,如果在终端设备中把所有的词组(一元&二元关系)都存储下来会占用巨大的存储空间,如何降低输入法词组在终端设备中所占用的存储空间是十分必要的。相关技术中,一般是通过树形结构表示词组之间的关系,并对树形结构上的每个节点,通常采用结构体的方式存储每个节点对应的描述信息。然而,在存储的过程中,需要存储大量的与词组关系无关的描述信息,例如,节点属性等,其占用大量的存储空间。并且,在采用结构体的方式存储词组之间的关系时,在后续使用输入法输入词组的过程中,所需要的查询步骤较多,查询比较耗时,词组查询效率不高。因此,基于树形存储结构存储词组之间的关系所需要的存储空间仍然很高。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的第一个目的在于提出一种词表的存储管理方法,该方法通过多个一维数组分别对第一词表以及第二词表中的内容进行保存,减少了保存结构树中每个节点的性质所需要的存储空间,大大降低了存储输入法的词库所占用的存储空间。本申请的第二个目的在于提出一种词表的存储管理装置。本申请的第三个目的在于提出一种电子设备。本申请的第四个目的在于提出一种存储介质。本申请的第五个目的在于提出一种计算机程序产品。为实现上述目的,本申请第一方面实施例提出了一种词表的存储管理方法,包括:获取预先构建的第一词表和第二词表,所述第一词表和所述第二词表具有一一对应的前缀词语,所述第二词表还包括所述前缀词语的后缀词语;将所述第一词表中所述前缀词语的属性、所述第二词表中所述前缀词语在所述第二词表中的位置信息、所述第二词表中与所述前缀词语对应的后缀词语的个数、所述第二词表中与所述前缀词语对应的后缀词语的词标识、所述第二词表中与所述后缀词语的属性分别存储在一维数组中。可选的,遍历所述第一词表,以获取保存在所述第一词表中的各个前缀词语的词频;所述将所述第一词表中所述前缀词语的属性存储在一维数组中,包括:根据遍历的顺序,将各个前缀词语的词频存储在第一一维数组中,其中,所述第一一维数组中数组元素的下标为对应前缀词语的词标识。可选的,遍历所述第一词表,以获取保存在所述第一词表中的各个前缀词语的词频和敏感属性;所述将所述第一词表中所述前缀词语的属性存储在一维数组中,包括:根据遍历的顺序,将各个前缀词语的词频存储在第二一维数组中;根据遍历的顺序,将各个前缀词语的敏感属性存储在第三一维数组中,其中,所述第二一维数组和所述第三一维数组中数组元素的下标均为对应的前缀词语的词标识。可选的,所述将所述第二词表中所述前缀词语在所述第二词表中的位置信息、所述第二词表中与所述前缀词语对应的后缀词语的个数、所述第二词表中与所述前缀词语对应的后缀词语的词标识、所述第二词表中与所述后缀词语的属性分别存储在一维数组中,包括:将所述第二词表中所述前缀词语在所述第二词表中的位置信息保存在第四一维数组中,所述第四一维数组中数组元素的下标为对应的前缀词语的词标识;将所述第二词表中与所述前缀词语对应的后缀词语的个数保存在第五一维数组中,其中,所述第五一维数组中数组元素的下标为对应的前缀词语的词标识;将所述第二词表中与所述前缀词语对应的后缀词语的词标识保存在第六一维数组,其中,所述第六一维数组中数组元素的个数与所述后缀词语的个数相同;将所述第二词表中与所述后缀词语的属性保存在第七一维数组中,其中,所述第七一维数组中数组元素的个数与所述后缀词语的个数相同。可选的,遍历所述第二词表,以获取保存在所述第二词表中的各个后缀词语的词频;所述将所述第二词表中与所述后缀词语的属性保存在第七一维数组中,包括:根据遍历的顺序,将各个后缀词语的词频存储在所述第七一维数组中。可选的,所述方法还包括:遍历所述第二词表,以获取保存在所述第二词表中的各个后缀词语的词频和敏感属性;所述将所述第二词表中与所述后缀词语的属性保存在第七一维数组中,包括:根据遍历的顺序,将各个后缀词语的词频存储在第八一维数组中;根据遍历的顺序,将各个后缀词语的敏感属性存储在第九一维数组中。可选的,还包括:对于所述第二词表中与所述前缀词语对应的后缀词语,根据与对应后缀词语的词标识,对对应后缀词语和所述对应后缀词语的属性同时排序。为实现上述目的,本申请第二方面实施例提出了一种词表的存储管理装置,包括:获取模块,用于获取预先构建的第一词表和第二词表,所述第一词表和所述第二词表具有一一对应的前缀词语,所述第二词表还包括所述前缀词语的后缀词语;存储管理模块,用于将所述第一词表中所述前缀词语的属性、所述第二词表中所述前缀词语在所述第二词表中的位置信息、所述第二词表中与所述前缀词语对应的后缀词语的个数、所述第二词表中与所述前缀词语对应的后缀词语的词标识、所述第二词表中与所述后缀词语的属性分别存储在一维数组中。可选的,第一遍历模块,用于遍历所述第一词表,以获取保存在所述第一词表中的各个前缀词语的词频;所述存储管理模块,具体用于:根据遍历的顺序,将各个前缀词语的词频存储在第一一维数组中,其中,所述第一一维数组中数组元素的下标为对应前缀词语的词标识。可选的,还包括:第二遍历模块,用于遍历所述第一词表,以获取保存在所述第一词表中的各个前缀词语的词频和敏感属性;所述存储管理模块,具体用于:根据遍历的顺序,将各个前缀词语的词频存储在第二一维数组中;根据遍历的顺序,将各个前缀词语的敏感属性存储在第三一维数组中,其中,所述第二一维数组和所述第三一维数组中数组元素的下标均为对应的前缀词语的词标识。可选的,所述存储管理模块,具体用于:将所述第二词表中所述前缀词语在所述第二词表中的位置信息保存在第四一维数组中,所述第四一维数组中数组元素的下标为对应的前缀词语的词标识;将所述第二词表中与所述前缀词语对应的后缀词语的个数保存在第五一维数组中,其中,所述第五一维数组中数组元素的下标为对应的前缀词语的词标识;将所述第二词表中与所述前缀词语对应的后缀词语的词标识保存在第六一维数组中,其中,所述第六一维数组中数组元素的个数与所述后缀词语的个数相同;将所述第二词表中与所述后缀词语的属性保存在第七一维数组中,其中,所述第七一维数组中数组元素的个数与所述后缀词语的个数相同。可选的,所述装置还包括:第三遍历模块,用于遍历所述第二词表,以获取保存在所述第二词表中的各个后缀词语的词频;所述存储管理模块,具体用于:根据遍历的顺序,将各个后缀词语的词频存储在第七一维数组中。可选的,所述装置还包括:第四遍历模块,用于遍历所述第二词表,以获取保存在所述第二词表中的各个后缀词语的词频和敏感属性;所述存储管理模块,具体用于:根据遍历的顺序,将各个后缀词语的词频存储在第八一维数组中;根据遍历的顺序,将各个后缀词语的敏感属性存储在第九一维数组中。可选的,还包本文档来自技高网...

【技术保护点】
1.一种词表的存储管理方法,其特征在于,包括:获取预先构建的第一词表和第二词表,所述第一词表和所述第二词表具有一一对应的前缀词语,所述第二词表还包括所述前缀词语的后缀词语;将所述第一词表中所述前缀词语的属性、所述第二词表中所述前缀词语在所述第二词表中的位置信息、所述第二词表中与所述前缀词语对应的后缀词语的个数、所述第二词表中与所述前缀词语对应的后缀词语的词标识、所述第二词表中与所述后缀词语的属性分别存储在一维数组中。

【技术特征摘要】
1.一种词表的存储管理方法,其特征在于,包括:获取预先构建的第一词表和第二词表,所述第一词表和所述第二词表具有一一对应的前缀词语,所述第二词表还包括所述前缀词语的后缀词语;将所述第一词表中所述前缀词语的属性、所述第二词表中所述前缀词语在所述第二词表中的位置信息、所述第二词表中与所述前缀词语对应的后缀词语的个数、所述第二词表中与所述前缀词语对应的后缀词语的词标识、所述第二词表中与所述后缀词语的属性分别存储在一维数组中。2.如权利要求1所述的方法,其特征在于,还包括:遍历所述第一词表,以获取保存在所述第一词表中的各个前缀词语的词频;所述将所述第一词表中所述前缀词语的属性存储在一维数组中,包括:根据遍历的顺序,将各个前缀词语的词频存储在第一一维数组中,其中,所述第一一维数组中数组元素的下标为对应前缀词语的词标识。3.如权利要求1所述的方法,其特征在于,还包括:遍历所述第一词表,以获取保存在所述第一词表中的各个前缀词语的词频和敏感属性;所述将所述第一词表中所述前缀词语的属性存储在一维数组中,包括:根据遍历的顺序,将各个前缀词语的词频存储在第二一维数组中;根据遍历的顺序,将各个前缀词语的敏感属性存储在第三一维数组中,其中,所述第二一维数组和所述第三一维数组中数组元素的下标均为对应的前缀词语的词标识。4.如权利要求1所述的方法,其特征在于,所述将所述第二词表中所述前缀词语在所述第二词表中的位置信息、所述第二词表中与所述前缀词语对应的后缀词语的个数、所述第二词表中与所述前缀词语对应的后缀词语的词标识、所述第二词表中与所述后缀词语的属性分别存储在一维数组中,包括:将所述第二词表中所述前缀词语在所述第二词表中的位置信息保存在第四一维数组中,所述第四一维数组中数组元素的下标为对应的前缀词语的词标识;将所述第二词表中与所述前缀词语对应的后缀词语的个数保存在第五一维数组中,其中,所述第五一维数组中数组元素的下标为对应的前缀词语的词标识;将所述第二词表中与所述前缀词语对应的后缀词语的词标识保存在第六一维数组,其中,所述第六一维数组中数组元素的个数与所述后缀词语的个数相同;将所述第二词表中与所述后缀词语的属性保存在第七一维数组中,其中,所述第七一维数组中数组元素的个数与...

【专利技术属性】
技术研发人员:沈强
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1