System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开的实施例一般涉及短报文通讯领域,并且更具体地,涉及基于短报文通讯的语义提取检索方法、装置及设备。
技术介绍
1、短报文相当于现在人们平时用的“短消息”,它可以发布120个字节的信息,并能够提供定位信息。另外,在没有通信网络的海洋、沙漠和野外,安装了短报文通讯系统终端的用户可以确定自己的位置,并能够向外界发布文字信息。
2、短报文出现的词汇是被人们较普遍使用,并且极少出现生僻字,这种类型的信息,具有天然的分词条件。但是,目前常用分词技术存在以下不足:一、不必要的数据冗余,短报文的自动语义提取时会发生不必要的数据冗余,不必要的数据冗余不仅会占据的存储硬件资源,造成资源的浪费,还会提高维护的成本。二、语义提取产生的二义性,传统分词技术产生二义性在所难免,我们要做的是尽可能减少二义性的出现,尤其是针对专业性较强的短报文,因此采用专业领域分词技术应用在短报文中很有必要。三、检索关键词的速度也是一大痛点,随着报文越来越多,索引占用的空间会越来越大,再加上数据冗余的情况,检索速度下降是必然的。
3、一般汉语常用字数量在5000左右,但是词汇的数量可以达到8000-16000词。如果假设一个文档信息节点的大小是4字节,每个短文本平均包含50个字节,那么按照字建立倒排索引,每个文档生成的检索信息为4*50为200个字节,比这个短信息本身的大小还要大。而按照词建索引的话,假设平均每个词包含2.5个字节,那么每个文档生成的检索信息为4*(50/2.5)为80个字节,数据冗余减少了60%。目前,常用的减少数据冗余的办法是在
4、分词的二义性是一直困扰自然语言处理的问题之一,从最早的字典分析法,再到基于字典分词演进出的最少分词理论,再到后来基于用统计学方法来完善中文分词,降低中文分析的错误率等。每种方法都有它的局限性,针对特定的短报文分析应用,以及考虑短报文通讯在民用和军用的重要位置,需要将二义性出现的概率降到最低,目前,现有的分析方法还不满足准确率要求。
5、数据冗余能够产生更多的磁盘i/o次数,从而造成查询效率低下。目前常用的数据压缩算法是哈夫曼压缩算法,静态哈夫曼方法的最大缺点就是它需要对原始数据进行两遍扫描:第一遍统计原始数据中各字符出现的频率,利用得到的频率值创建哈夫曼树并将树的有关信息保存起来,便于解压使用;第二遍扫描则根据前面得到的哈夫曼树对原始数据进行编码,并将编码信息存储起来。静态哈夫曼方法如果用于短报文通信中,将会引起较大的计算延时。
技术实现思路
1、根据本公开的实施例,提供了一种基于短报文通讯的语义提取检索方法、装置、设备及计算机可读存储介质。
2、在本公开的第一方面,提供了一种基于短报文通讯的语义提取检索方法。该方法包括:
3、建立短报文通讯词典,根据所述短报文通讯词典,构建短报文通讯分词模型;
4、利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储;
5、根据分词结果及分词位置,对短报文通讯文本的语义进行提取检索。
6、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述短报文通讯词典包括英文、数字、符号字典和汉字字典。
7、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述短报文通讯分词模型包括主分词器和多个子分词器。
8、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储,包括:
9、加载短报文通讯文本输入流,将短报文通讯文本的内容按序号排列,或通过哈夫曼编码方法进行编码;
10、利用主分词器对经排序或编码处理后的短报文通讯文本输入流进行分词处理,获得分词结果及分词位置,并对分词结果进行分类;
11、利用各子分词器对不同分类的分词结果进行校正处理;
12、将各所述子分词器的处理结果进行合并,得到最终的文本。
13、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用主分词器对经排序或编码处理后的短报文通讯文本输入流进行分词处理,获得分词结果及分词位置,并对分词结果进行分类,包括:
14、对经排序或编码处理后的短报文通讯文本输入流进行关键词抽取;
15、使用预设的条件随机场crf模型搜索新词,并将新词纳入短报文通讯词典;
16、使用短报文通讯词典中的全部已有词构建双数组tire树;
17、将所述关键词与所述双数组tire树进行单串模式匹配,使用双数组tire树来对当前抽取的关键词进行分词,得到分词结果及分词位置;
18、对分词结果进行分类。
19、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用各子分词器对不同分类的分词结果进行校正处理,包括:
20、构建隐马尔科夫模型,将分词词典中每个已有词作为观察状态序列,每个词的词性作为隐含状态序列进行隐马尔科夫模型训练,得到训练好的隐马尔科夫模型;
21、使用训练好的隐马尔科夫模型对分类后的分词结果进行词性标注;
22、根据标注的词性,对分词结果进行校正处理。
23、如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述使用训练好的隐马尔科夫模型对分类后的分词结果进行词性标注,包括:
24、将所述分类后的分词结果中的词序列作为观察状态序列输入到训练好的隐马尔科夫模型,通过viterbi算法产生当前观察状态序列的隐含状态序列,得到相应的隐藏状态,隐藏状态即为待分词文本的词性,完成词性标注。
25、在本公开的第二方面,提供了一种基于短报文通讯的语义提取检索装置。该装置包括:短报文通讯分词模型建立模块、分词处理模块和语义提取检索模块。
26、所述短报文通讯分词模型建立模块,用于建立短报文通讯词典,根据所述短报文通讯词典,构建短报文通讯分词模型;
27、所述分词处理模块,用于利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储;
28、所述语义提取检索模块,用于根据分词结果及分词位置,对短报文通讯文本的语义进行提取检索。
29、在本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
30、在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。
31、本公开的有益效果为:
32、本公开采用高效的分词方法进行语义的提取,使得分词变得高效且简洁;通过对短报文通讯相关的专业训练语料进行标注,来提升分词的准确性,让短报本文档来自技高网...
【技术保护点】
1.一种基于短报文通讯的语义提取检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯词典包括英文、数字、符号字典和汉字字典。
3.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯分词模型包括主分词器和多个子分词器。
4.根据权利要求3所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储,包括:
5.根据权利要求4所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用主分词器对经排序或编码处理后的短报文通讯文本输入流进行分词处理,获得分词结果及分词位置,并对分词结果进行分类,包括:
6.根据权利要求5所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用各子分词器对不同分类的分词结果进行校正处理,包括:
7.根据权利要求6所述的基于短报文通讯的语义提取检索方法,其特征在于,所述使用训练好的隐马尔科夫模型对分类后的分词
8.一种基于短报文通讯的语义提取检索装置,其特征在于,所述装置包括:短报文通讯分词模型建立模块、分词处理模块和语义提取检索模块;
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
...【技术特征摘要】
1.一种基于短报文通讯的语义提取检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯词典包括英文、数字、符号字典和汉字字典。
3.根据权利要求1所述的基于短报文通讯的语义提取检索方法,其特征在于,所述短报文通讯分词模型包括主分词器和多个子分词器。
4.根据权利要求3所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用所述短报文通讯分词模型对短报文通讯文本进行分词,将分词结果及分词位置进行存储,包括:
5.根据权利要求4所述的基于短报文通讯的语义提取检索方法,其特征在于,所述利用主分词器对经排序或编码处理后的短报文通讯文本输入流进行分词处理,获得分词结果及分词位置,并对分词结果进行分类,包括:
【专利技术属性】
技术研发人员:熊兆,杨晶,
申请(专利权)人:中科星图数字地球合肥有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。