文字编码和译码方法、装置及电子设备制造方法及图纸

技术编号:13200793 阅读:122 留言:0更新日期:2016-05-12 10:14
本发明专利技术实施例提供了文字编码和译码方法、装置及电子设备,在分词编码库中找到根节点为当前分词首字的树,在子节点中找到下一个字所在的节点,将该下一个字作为当前分词尾字,在其子节点中查找下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字,返回执行在其子节点中查找下一个字所在的节点的步骤;如果未找到,则将以当前分词首字为开始且以当前分词尾字为结束的分词转换为预设长度的编码,将编码存储到编码文件中,并将当前分词尾字的下一个字确定为当前分词首字,返回执行找到根节点为当前分词首字的树的步骤,本发明专利技术在分词编码库中查找待转换文本中的分词,并将查找到的分词转换为预设长度的编码达到减少占用存储空间的目的。

【技术实现步骤摘要】

本专利技术涉及计算机应用
,特别是涉及文字编码和译码方法、装置及电子设备
技术介绍
随着科学技术的发展,人们在纸上撰写文章并保留文章的情况越来越少,人们更多的使用计算机来撰写文章并存储文章。在计算机中,对于长篇幅的文本而言,在进行存储时会占用较多存储空间。对于中文而言,现有的方法用二进制编码来表示中文,每个中文至少占双字节。例如:中华人民共和国,每个中文用双字节编码,需要占用14字节。可见,这种方法占用存储空间较多。当然,其他文字,如日文、韩文的编码方式也存在占用存储空间较多的情况。
技术实现思路
本专利技术实施例的目的在于提供文字编码和译码方法、装置及电子设备,将分词转换为预设长度的编码,减少占用的存储空间。具体技术方案如下:本专利技术实施例提供的一种文字编码方法,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述方法包括:获得待转换文本中的当前分词首字本文档来自技高网...

【技术保护点】
一种文字编码方法,其特征在于,应用于电子设备中,所述电子设备中存储有分词编码库,所述分词编码库包含有多个字典树,各字典树中的每个节点中均包含一个文字且各字典树的根节点中包含的文字不同,每个字典树包含以其根节点为分词首字的所有预设分词,且每个预设分词的分词尾字所在的节点对应有预设长度的编码,所述方法包括:获得待转换文本中的当前分词首字,其中,在开始对所述待转换文本进行转换时,所述当前分词首字为所述待转换文本中的首个文字;在所述分词编码库中找到根节点为当前分词首字的树;在所述根节点的子节点中查找当前分词首字的下一个字所在的节点,如果找到,则将该下一个字作为当前分词尾字;在确定的当前分词尾字的子节点...

【技术特征摘要】

【专利技术属性】
技术研发人员:潘洪安
申请(专利权)人:北京金山安全软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1