中文文本识别方法及装置制造方法及图纸

技术编号:18940486 阅读:26 留言:0更新日期:2018-09-15 11:03
本发明专利技术涉及一种中文文本识别方法及装置,该方法中首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中,从而相比于现有的识别方法,本发明专利技术实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。

Chinese text recognition method and device

The invention relates to a Chinese text recognition method and device, in which the keywords reported by the application program of each terminal in the PS domain signaling are first acquired, and the keywords are classified and processed according to the category of the application program, and the keywords stored in different search corpuses are based on different preset algorithms for the keywords. Words are segmented, preliminary identified, and probabilistic filtered. Finally, the selected results are added to the preset lexicon. Compared with the existing recognition methods, the method provided by the embodiment of the present invention can perform specific processing of different words according to the application categories of the declaration keywords, and is more targeted. So that we can get more accurate recognition results and improve the efficiency of recognition.

【技术实现步骤摘要】
中文文本识别方法及装置
本专利技术实施例涉及软件
,具体涉及一种中文文本识别方法及装置。
技术介绍
随着互联网时代的到来,人们越来越依赖于搜索引擎进行信息检索,然而传统的机械分词方法对于日新月异的网络用词和新兴词组的识别效果并不理想。中文分词技术是搜索引擎和中文自然语言处理的基础,未登录词识别中文分词的一大瓶颈。其中,未登录词是指未被分词系统所收录的词语。针对未登录新词的识别,目前较为常用的方法为获取网页内容、搜索日志或查询日志,根据网页内容、搜索日志或查询日志中的内容基于规则方法或基于统计方法进行新词识别。然而,在实施本专利技术实施例的过程中专利技术人发现,由于汉语存在多样性,各个领域的词汇都有着自身的特点。尤其是地名、人名等词汇,很多情况下没有特殊的含义,无法仅从语义分析或数据统计上能够将地名或者人名进行很好的划分。而采用这样的识别方法虽然容易实现,但在新词的识别过程中,对所有待确认的词汇均采用一种规则或方式来进行识别,从而不利于识别地名、人名等特殊词汇,识别率较低。
技术实现思路
本专利技术提供了一种中文文本识别方法及装置,用于克服现有的新词识别方法对于所有的待确认词汇采用统一的方式来识别,对于特殊词汇的识别率较低的缺陷。第一方面,本专利技术实施例提供了一种中文文本识别方法,包括:获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。第二方面,本专利技术实施例提供了一种中文文本识别装置,包括:关键词获取单元,用于获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;字符串切分单元,用于针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;初步识别单元,用于根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;概率筛选单元,用于当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。本专利技术实施例提供的中文文本识别方法中,首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中。从而相比于现有的识别方法,本专利技术实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术提供的一种中文文本分词方法实施例流程图;图2是本专利技术提供的基于中文检索关键词的新词识别流程图;图3是本专利技术提供的基于BI-gram模型及词位置统计信息的通用未登录词识别流程图;图4是本专利技术提供的基于概率识别器的中文姓名未登录词识别方法的流程图;图5是本专利技术提供的基于地址后缀规则和统计相结合的地址新词识别流程图;图6是本专利技术提供的基于动态词库更新的中文分词方法的流程图;图7是本专利技术提供的一种中文文本分词装置实施例结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。第一方面,本专利技术实施例提供了一种中文文本识别方法,如图1所示,包括:S101、获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中;S102、针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;S103、根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;S104、当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。本专利技术实施例提供的中文文本识别方法中,首先获取PS域信令中各个终端的应用程序上报的关键词,并根据应用程序的类别对关键词进行分类处理,针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选,最后将筛选得到的结果加入到预设词库中。从而相比于现有的识别方法,本专利技术实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理,更具有针对性,从而能够得到更准确的识别结果,提高识别的效率。在实际应用中,这里终端可以通过PS域上报关键词。这里的PS域具体是指运营商提供的在2G、3G或4G网络中传输的信令。本专利技术实施例可以基于运营商的优势获取PS域的信令,从而相比于现有的基于某一应用自身搜索引擎获取关键词的方式,能够获取更多的关键词资源,进而能够及时识别当下流行的新词。在实际应用中,这里的关键词的类别属性具体可以理解为根据关键词的属性所确定的关键词的所属类别。在实际应用中,需要注意的是,这里的单字符串并代表其是单独一个汉字,其只是在经过预设的切分算法进行切分后无法再继续切分的字符串。可以理解的是,只有将待识别的字符串切分至最小的单元才可以方便的对每个最小单元的字符串进行识别。在具体实施时,由于中文的地名具有特殊性,其设置可能不符合语义或者有比较独特的含义,将其与其他词汇一起识别很难获得好的识别效果,因此,上述方法实施例中的步骤S101进一步包括:S1011、将携带地理位置信息的关键词存储在地址搜索语料库中;将未携带地理位置信息的关键词存储在通用搜索语料库中。这里的携带的地理位置信息例如可以为“村”、“市”、“站”、“机场”、“车站”等能够表明地点的词语。也就是说携带类似这些词语的关键词很有可能是一个地名,因此将这样的关键词存储在地址搜索语料库中,而将未携带地理位置信息的关键词存储在通用搜索语料库中。当然,除了地名之外,还可以对其他特定应用程序上报的特定类的词汇进行类似于上述过程的分类处理,本专利技术对此不作具体限定。在这一基础上,在具体实施时,针对于地名类关键词的特殊识别处理,上述方法实施例中的步骤S103具体可以包括:S1031、对于属于地址搜索语料库本文档来自技高网...

【技术保护点】
1.一种中文文本识别方法,其特征在于,包括:获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的搜索类别属性,将所述关键词存储至对应类别的搜索语料库中;针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。

【技术特征摘要】
1.一种中文文本识别方法,其特征在于,包括:获取各终端应用程序上报的用户在应用程序搜索的关键词,并根据所述关键词的搜索类别属性,将所述关键词存储至对应类别的搜索语料库中;针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串;根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别,筛选出初步识别字符,并将所述初步识别字符加入到候选新词词库中;当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符添加到所述预设词库中。2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词的类别属性,将所述关键词存储至对应类别的搜索语料库中包括:将携带地理位置信息的关键词存储在地址搜索语料库中;将未携带地理位置信息的关键词存储在通用搜索语料库中。3.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:对于属于地址搜索语料库中单字符串,筛选出包含预设地址后缀关键词的单字符串,并将预设的地址后缀关键词为分隔符,将所述单字符串划分为若干个词条,将所述若干个词条作为初步识别字符加入到候选地址新词词库中;相应地,所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到对应的现有词库中,包括:在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到地址搜索新词词库中。4.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:对于属于通用搜索语料库中单字符串,在判断其为非中文姓名单字符串时,基于BI-gram模型筛选出初步识别字符,并将所述初步识别字符加入到候选通用新词词库中;相应地,所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到对应的现有词库中,包括:在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时,将所述初步识别字符加入到通用搜索新词词库中。5.根据权利要求2所述的方法,其特征在于,所述根据所述单字符串所属的搜索语料库的类别,基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别,筛选出初步识别字符,并加所述初步识别字符加入到候选新词词库中,包括:对于属于通用搜索语料库中单字符串,在判断其为中文姓名单字符串时,将所述单字符串划分为姓字符以及若干个名字字符,在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0...

【专利技术属性】
技术研发人员:徐志焕陈文鸿陈利青郑丽燕吴锐彬徐睿张晓川
申请(专利权)人:中国移动通信集团广东有限公司中国移动通信集团公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1