一种中文语句识别方法和装置制造方法及图纸

技术编号:10170407 阅读:130 留言:0更新日期:2014-07-02 12:03
本发明专利技术实施例公开了一种中文语句的识别方法和装置,方法为:接收用户输入的待识别中文语句;获取待识别中文语句的歧义链;根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。本发明专利技术考虑不同切分方式下得到的分词结果中分词的词频、分词间词性标注的移转概率来计算得到歧义链的最终结果,使得对待识别中文语句中的歧义链部分进行切分的结果更准确,更符合用户真实的语义表达,提高中文语句的识别准确率,从而提高了根据该中文语句进行查询的成功率。

【技术实现步骤摘要】
一种中文语句识别方法和装置
本专利技术涉及数据处理领域,具体涉及一种中文语句识别方法和装置。
技术介绍
“中文语句识别”,顾名思义,就是对存在多个语义的中文语句进行识别,从而识别出最符合人类语言表述特点、用户意图的语义。而语义即是对于一个中文语句进行不同的切分时,由于切分方式不同而产生的含义。在对中文语句处理较多的地理信息领域,是通过地址处理系统处理各种地址的描述信息,为上层应用提供数据支撑。例如地名索引、地名相似度计算、地图导航等,经常需要对用户输入的地址进行切分处理,然后再根据切分结果进行相应的地址查询操作。目前,在对用户输入的中文地址信息进行切分时,完全基于字典或自然语言来处理,如对于中文地址信息“平顶山西服务区”,根据前述方式既可以切分成“平顶/山西/服务区”也可以切分成“平顶山/西/服务区”,采用这种切分方式对包含有多种理解的中文地址信息将可能会切分成多种结果,如何克服中文地址信息中的歧义,找到最符合用户意图的切分方式,将直接影响地址查询的准确性。若切分不准确,根据切分结果进行地址查询将可能会导致查询不成功或查询不准确的问题。在地理信息领域中,如何有效的对用户输入的中文地址信息进行切分处理,以得到准确的、符合用户意图的结果,目前还没有提出较为有效的解决方案。
技术实现思路
为了解决中文语句的识别问题,本专利技术提供了一种中文语句识别方法和装置。本专利技术提供一种中文语句的识别方法,其特征在于,所述方法包括:接收用户输入的待识别中文语句;获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句;根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率;根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。优选地,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括:根据不同的切分方式对所述歧义链进行切分,得到每种切分方式对应的切分结果;针对每种切分结果,根据该切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率;将组合概率最大的切分结果确定为所述歧义链的最终切分结果。优选地,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:式中,str为待识别中文语句的歧义链,P<str,i>为歧义链str的第i种切分结果的组合概率,第i种切分结果包括k个分词,k为大于1的自然数,为词性标注为词频为的情况下第i种切分结果中第j个分词的分词概率,为第i种切分结果中第j个分词的词频,为第i种切分结果中第j个分词的词性标注,为从第j个分词的前(j-1)个分词的词性标注转移到第j个分词词性标注的移转概率。优选地,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:式中,str为待识别中文语句的歧义链,P<str,i>为歧义链str的第i种切分结果的组合概率,第i种切分结果包括k个分词,k为大于1的自然数,为词性标注为词频为的情况下第i种切分结果中第j个分词的分词概率,为第i种切分结果中第j个分词的词频,为第i种切分结果中第j个分词的词性标注,为从第j个分词的前一分词的词性标注转移到第j个分词的词性标注的概率。优选地,所述根据下式得到:式中,pj-1为第i种切分结果中第j-1个分词的词性标注,pj为第i种切分结果中第j个分词的词性标注,为从第i种切分结果的第(j-1)个分词的词性标注移转到第j个分词的词性标注的移转概率,Count(pj-1)为预置的表示词性标注为pj-1出现的次数,Count(pj,pj-1)为预置的表示当前词词性标注为pj-1且当前词的后一个词词性标注为Pj出现的次数,所述Count(pj-1)、Count(pj,pj-1)根据统计数据获得。优选地,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括:步骤1、采用多种切分方式对歧义链进行切分,得到多种切分方式对应的第一首分词,将多种切分方式对应的第一首分词中词频最高的首分词,确定为当前歧义链的最终首分词;步骤2、将所述最终首分词从歧义链中删除,得到第二歧义链,采用多种切分方式对第二歧义链进行切分,得到多种切分方式对应的第二首分词,计算从所述最终首分词的词性标注分别移转到多种切分方式对应的第二首分词的词性标注的移转概率,将移转概率最大的第二首分词确定为所述歧义链的最终第二分词;步骤3、将所述最终第二分词从所述第二歧义链中删除,得到第三歧义链,针对第三歧义链重复执行步骤2,得到所述歧义链的最终第三分词;依此类推,得到所述歧义链的所有最终分词,将得到的所有最终分词确定为对所述歧义链进行切分的最终切分结果。优选地,所述待识别中文语句为C1C2…Cn,获取所述待识别中文语句的歧义链,包括:步骤1、以C1为首字,查找待识别中文语句中以C1为词头的第一最长组合为C1…Ck,其中k小于n,将所述第一最长组合C1…Ck确定为歧义链;步骤2、依次选择C2、…、Ck为首字,分别查找待识别中文语句中以C2、…、Ck为词头的所有组合,并选择组合中最长的组合作为第二最长组合,第二最长组合为Ci为词头、Cm为词尾的组合,其中i大于1且小于k,m大于i;步骤3、对第一最长组合和第二最长组合进行合并处理,若m小于或等于k,则合并得到的第三最长组合与第一最长组合相同,结束流程,并将歧义链确定为所述待识别中文语句的歧义链;若m大于k,则合并得到的第三最长组合为C1C2…Cm,并将所述歧义链调整为第三最长组合,并执行步骤4;步骤4、对Ck、…、Cm重复执行步骤2-步骤3,直到以Cj为首字查找待识别中文语句中以Cj为词头的组合为单字时为止,以得到所述待识别中文语句的歧义链C1…Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于n;步骤5、判断所述Cs是否为Cn,若不是则以Cs为首字重复执行步骤1-步骤4,以得到所述待识别中文语句的其他歧义链,否则结束流程。本专利技术还提供了一种中文语句的识别装置,所述装置包括:接收模块,用于接收用户输入的待识别中文语句;获取模块,用于获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句;确定模块,用于根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率;识别模块,用于根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。优选地,所述确定模块,包括:切分子模块,用于根据不同的切分方式对所述歧义链进行切分,得到每种切分方式对应的切分结果;第一获取子模块,用于针对所述切分子模块得到的每种切分结果,根据该切分结果中各分词的词频、词性标注和分词之间的移转概率,本文档来自技高网...
一种中文语句识别方法和装置

【技术保护点】
一种中文语句的识别方法,其特征在于,所述方法包括:接收用户输入的待识别中文语句;获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句;根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率;根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。

【技术特征摘要】
1.一种中文语句的识别方法,其特征在于,所述方法包括:接收用户输入的待识别中文语句;获取所述待识别中文语句的歧义链,所述歧义链为所述待识别中文语句中含有歧义的部分语句;根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,所述移转概率是指从当前分词的前一个或前多个分词的词性标注转移到当前分词的词性标注的概率;根据所述歧义链的最终切分结果对所述待识别中文语句进行切分。2.根据权利要求1所述的方法,其特征在于,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括:根据不同的切分方式对所述歧义链进行切分,得到每种切分方式对应的切分结果;针对每种切分结果,根据该切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率;将组合概率最大的切分结果确定为所述歧义链的最终切分结果。3.根据权利要求2所述的方法,其特征在于,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:=P(f(w1i)|p1i)×{Π2k[P(f(wji)|pji)×P(pji|pj-1i,pj-2i,...,p1i)]}]]>式中,str为待识别中文语句的歧义链,P<str,i>为歧义链str的第i种切分结果的组合概率,第i种切分结果包括k个分词,k为大于1的自然数,为词性标注为词频为的情况下第i种切分结果中第j个分词的分词概率,为第i种切分结果中第j个分词的词频,为第i种切分结果中第j个分词的词性标注,为从第j个分词的前(j-1)个分词的词性标注转移到第j个分词词性标注的移转概率。4.根据权利要求2所述的方法,其特征在于,根据切分结果中各分词的词频、词性标注和分词之间的移转概率,得到该种切分结果的组合概率,根据下式得到:=P(f(w1i)|p1i)×{Π2k[P(f(wji)|pji)×P(pji|pj-1i)]}]]>式中,str为待识别中文语句的歧义链,P<str,i>为歧义链str的第i种切分结果的组合概率,第i种切分结果包括k个分词,k为大于1的自然数,为词性标注为词频为的情况下第i种切分结果中第j个分词的分词概率,为第i种切分结果中第j个分词的词频,为第i种切分结果中第j个分词的词性标注,为从第j个分词的前一分词的词性标注转移到第j个分词的词性标注的概率。5.根据权利要求4所述的方法,其特征在于,所述根据下式得到:式中,pj-1为第i种切分结果中第j-1个分词的词性标注,pj为第i种切分结果中第j个分词的词性标注,为从第i种切分结果的第(j-1)个分词的词性标注移转到第j个分词的词性标注的移转概率,Count(pj-1)为预置的表示词性标注为pj-1出现的次数,Count(pj,pj-1)为预置的表示当前词词性标注为pj-1且当前词的后一个词词性标注为Pj出现的次数,所述Count(pj-1)、Count(pj,pj-1)根据统计数据获得。6.根据权利要求1所述的方法,其特征在于,根据不同的切分方式对所述歧义链进行切分,并根据切分得到的分词的词频、词性标注以及分词之间的移转概率,确定所述歧义链的最终切分结果,包括:步骤1、采用多种切分方式对歧义链进行切分,得到多种切分方式对应的第一首分词,将多种切分方式对应的第一首分词中词频最高的首分词,确定为当前歧义链的最终首分词;步骤2、将所述最终首分词从歧义链中删除,得到第二歧义链,采用多种切分方式对第二歧义链进行切分,得到多种切分方式对应的第二首分词,计算从所述最终首分词的词性标注分别移转到多种切分方式对应的第二首分词的词性标注的移转概率,将移转概率最大的第二首分词确定为所述歧义链的最终第二分词;步骤3、将所述最终第二分词从所述第二歧义链中删除,得到第三歧义链,针对第三歧义链重复执行步骤2,得到所述歧义链的最终第三分词;依此类推,得到所述歧义链的所有最终分词,将得到的所有最终分词确定为对所述歧义链进行切分的最终切分结果。7.根据权利要求1-6任一项所述的方法,其特征在于,所述待识别中文语句为C1C2…Cn,获取所述待识别中文语句的歧义链,包括:步骤1、以C1为首字,查找待识别中文语句中以C1为词头的第一最长组合为C1…Ck,其中k小于n,将所述第一最长组合C1…Ck确定为歧义链;步骤2、依次选择C2、…、Ck为首字,分别查找待识别中文语句中以C2、…、Ck为词头的所有组合,并选择组合中最长的组合作为第二最长组合,第二最长组合为Ci为词头、Cm为词尾的组合,其中i大于1且小于k,m大于i;步骤3、对第一最长组合和第二最长组合进行合并处理,若m小于或等于k,则合并得到的第三最长组合与第一最长组合相同,结束流程,并将歧义链确定为所述待识别中文语句的歧义链;若m大于k,则合并得到的第三最长组合为C1C2…Cm,并将所述歧义链调整为第三最长组合,并执行步骤4;步骤4、对Ck、…、Cm重复执行步骤2-步骤3,直到以Cj为首字查找待识别中文语句中以Cj为词头的组合为单字时为止,以得到所述待识别中文语句的歧义链C1…Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于n;步骤5、判断所述Cs是否为Cn,若不是则以Cs为首字重复执行步骤1-步骤4,以得到所述待识别中文语句的其他歧义链,否则结束流程。8.一种中文语句的识别装置,其特征在于,所述装置包括:接收模块,用于接收用户输入的待识别中文语句;获...

【专利技术属性】
技术研发人员:郭涛
申请(专利权)人:高德软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1