基于短报文通讯的语义提取检索方法、装置及设备制造方法及图纸

技术编号:40948593 阅读:23 留言:0更新日期:2024-04-18 20:22
本公开的实施例提供了基于短报文通讯的语义提取检索方法、装置及设备。该方法包括:建立短报文通讯词典,根据短报文通讯词典,构建短报文通讯分词模型;利用短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储;根据分词结果及分词位置,对短报文通讯文本的语义进行提取检索。以此方式,通过采用高效的分词方法进行语义的提取,使得分词变得高效且简洁;通过对短报文通讯相关的专业训练语料进行标注,提升了分词的准确性,让短报文通讯领域的分词效果更好;通过采用适应性哈夫曼编码对索引进行压缩,采用静态哈夫曼编码对短报文进行压缩,能够将数据量压缩到最小。

【技术实现步骤摘要】

本公开的实施例一般涉及短报文通讯领域,并且更具体地,涉及基于短报文通讯的语义提取检索方法、装置及设备


技术介绍

1、短报文相当于现在人们平时用的“短消息”,它可以发布120个字节的信息,并能够提供定位信息。另外,在没有通信网络的海洋、沙漠和野外,安装了短报文通讯系统终端的用户可以确定自己的位置,并能够向外界发布文字信息。

2、短报文出现的词汇是被人们较普遍使用,并且极少出现生僻字,这种类型的信息,具有天然的分词条件。但是,目前常用分词技术存在以下不足:一、不必要的数据冗余,短报文的自动语义提取时会发生不必要的数据冗余,不必要的数据冗余不仅会占据的存储硬件资源,造成资源的浪费,还会提高维护的成本。二、语义提取产生的二义性,传统分词技术产生二义性在所难免,我们要做的是尽可能减少二义性的出现,尤其是针对专业性较强的短报文,因此采用专业领域分词技术应用在短报文中很有必要。三、检索关键词的速度也是一大痛点,随着报文越来越多,索引占用的空间会越来越大,再加上数据冗余的情况,检索速度下降是必然的。

3、一般汉语常用字数量在5000左右,但是词汇本文档来自技高网...

【技术保护点】

1.一种基于短报文通讯的语义提取检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯词典包括英文、数字、符号字典和汉字字典。

3.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯分词模型包括主分词器和多个子分词器。

4.根据权利要求3所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储,包括:

5.根据权利要求4所述的基于短报文通讯的语义提取检索方法,其特征...

【技术特征摘要】

1.一种基于短报文通讯的语义提取检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯词典包括英文、数字、符号字典和汉字字典。

3.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯分词模型包括主分词器和多个子分词器。

4.根据权利要求3所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储,包括:

5.根据权利要求4所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用主分词器对经排序或编码处理后的短报文通讯文本输入流进行分词处理,获得分词结果及分词位置,并对分词结果进行分类,包括:

【专利技术属性】
技术研发人员:熊兆杨晶
申请(专利权)人:中科星图数字地球合肥有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1