泰语词语识别的方法及装置制造方法及图纸

技术编号:17486064 阅读:179 留言:0更新日期:2018-03-17 10:26
本发明专利技术公开了泰语词语识别的方法及装置,属于信息检索技术领域。该方法包括:根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的泰语词语。这样,可通过信息熵处理,从泰语文档中识别出泰语词语,这样,提高了泰语词语识别的效率,还可增加泰语文档的浏览阅读速度。

Methods and devices for the recognition of Thai words

The invention discloses a method and device for identifying the words of the Thai language, which belongs to the field of information retrieval technology. The method includes: step according to the set, with the identification document filtering Thai segmentation, obtained includes at least one slice of Thai string slicing; according to each section of Thai string information entropy parameter values were excluded out of the slice set, form the vocabulary output section set from the vocabulary output section; in the collection, will set the number of slices of Thai Thai word string identified as identified. In this way, Thai words can be identified from Thai documents through information entropy processing, thus improving the efficiency of Thai word recognition and increasing the browsing speed of Thai documents.

【技术实现步骤摘要】
泰语词语识别的方法及装置
本专利技术涉及信息检索
,特别涉及泰语词语识别的方法及装置。
技术介绍
泰语也称傣语(Dailanguage),是傣泰民族的语言,属于东亚语系/汉藏语系的一种语言。全球有约6800万人口使用泰语。泰语的文档中,词与词之间不用标点,不留空格,一句话从头到尾连续不断的拼写,一般,以空两个字母的间隔或句子当中的小停顿表示一个句子。这样,对于泰语学习者、翻译者、或者其他泰语用户,很难依靠词频、词语长度、空格或标点符号等现有的词语识别的方法,从泰文文档中识别出泰语词语。
技术实现思路
本专利技术实施例提供了一种泰语词语识别的方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。根据本专利技术实施例的第一方面,提供了一种泰语词语识别的方法,包括:根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷本文档来自技高网...
泰语词语识别的方法及装置

【技术保护点】
一种泰语词语识别的方法,其特征在于,包括:根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的泰语词语。

【技术特征摘要】
1.一种泰语词语识别的方法,其特征在于,包括:根据设定步长,对待识别泰语文档进行过滤分割处理,获得包括至少一个切片泰文字符串的切片集合;根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合;从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的泰语词语。2.如权利要求1所述的方法,其特征在于,当所述信息熵处理参数值包括出现频数、凝固程度值、以及信息熵自由度值时,所述根据每个切片泰文字符串的信息熵处理参数值,对所述切片集合进行刷选,形成词汇输出切片集合包括:根据出现频数超过设定频数的切片泰文字符串,形成第一待输出切片集合;确定所述第一待输出切片集合中每个切片泰文字符串的凝固程度值,并根据凝固程度值大于第一设定值的切片泰文字符串,形成第二待输出切片集合;确定所述第二待输出切片集合中每个切片泰文字符串的信息熵自由度值,并根据信息熵自由度值大于第二设定值的切片泰文字符串,形成词汇输出切片集合。3.如权利要求2所述的方法,其特征在于,所述确定所述第一待输出切片集合中每个切片泰文字符串的凝固程度值包括:根据公式(2),确定所述第一待输出切片集合中当前切片泰文字符串的凝固程度值;其中,Pi为当前切片泰文字符串的出现频数,Pij为当前切片泰文字符串中对应的子切片泰文字符串的出现频数,co为凝固程度值。4.如权利要求2所述的方法,其特征在于,所述确定所述第二待输出切片集合中每个切片泰文字符串的信息熵自由度值包括:根据公式(3),确定当前切片泰文字符串的左邻字信息熵和右邻字信息熵;根据公式(4),将所述左邻字信息熵和右邻字信息熵中的较小值,确定为所述当前切片泰文字符串的信息熵自由度值;其中,Pi为每个切片泰文字符串的出现频数,H(U)为信息熵;free=min{H(U)1,H(U)2,...H(U)n}---------------公式(4)其中,H(U)为信息熵,free为信息熵自由度值。5.如权利要求1所述的方法,其特征在于,所述从所述词汇输出切片集合中,将设定个数的切片泰文字符串确定为识别出的泰语词语包括:根据出现频率的高低对所述词汇输出切片集合中的每个切片泰文...

【专利技术属性】
技术研发人员:张凯闫昊车双武
申请(专利权)人:传神联合北京信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1