中文文本识别方法及装置制造方法及图纸

技术编号：18940486 阅读：26 留言：0更新日期：2018-09-15 11:03

本发明专利技术涉及一种中文文本识别方法及装置，该方法中首先获取PS域信令中各个终端的应用程序上报的关键词，并根据应用程序的类别对关键词进行分类处理，针对存储在不同搜索语料库中的关键词基于不同的预设算法对所述关键词进行切分、初步识别以及概率筛选，最后将筛选得到的结果加入到预设词库中，从而相比于现有的识别方法，本发明专利技术实施例提供的方法能够根据上报关键词的应用程序的类别不同对不同的词汇进行特定的处理，更具有针对性，从而能够得到更准确的识别结果，提高识别的效率。

Chinese text recognition method and device

The invention relates to a Chinese text recognition method and device, in which the keywords reported by the application program of each terminal in the PS domain signaling are first acquired, and the keywords are classified and processed according to the category of the application program, and the keywords stored in different search corpuses are based on different preset algorithms for the keywords. Words are segmented, preliminary identified, and probabilistic filtered. Finally, the selected results are added to the preset lexicon. Compared with the existing recognition methods, the method provided by the embodiment of the present invention can perform specific processing of different words according to the application categories of the declaration keywords, and is more targeted. So that we can get more accurate recognition results and improve the efficiency of recognition.

全部详细技术资料下载

【技术实现步骤摘要】
中文文本识别方法及装置
本专利技术实施例涉及软件
，具体涉及一种中文文本识别方法及装置。
技术介绍
随着互联网时代的到来，人们越来越依赖于搜索引擎进行信息检索，然而传统的机械分词方法对于日新月异的网络用词和新兴词组的识别效果并不理想。中文分词技术是搜索引擎和中文自然语言处理的基础，未登录词识别中文分词的一大瓶颈。其中，未登录词是指未被分词系统所收录的词语。针对未登录新词的识别，目前较为常用的方法为获取网页内容、搜索日志或查询日志，根据网页内容、搜索日志或查询日志中的内容基于规则方法或基于统计方法进行新词识别。然而，在实施本专利技术实施例的过程中专利技术人发现，由于汉语存在多样性，各个领域的词汇都有着自身的特点。尤其是地名、人名等词汇，很多情况下没有特殊的含义，无法仅从语义分析或数据统计上能够将地名或者人名进行很好的划分。而采用这样的识别方法虽然容易实现，但在新词的识别过程中，对所有待确认的词汇均采用一种规则或方式来进行识别，从而不利于识别地名、人名等特殊词汇，识别率较低。
技术实现思路
本专利技术提供了一种中文文本识别方法及装置，用于克服现有的新词识别方法对于所有的待确认词汇采用统一的方式来识别，对于特殊词汇的识别率较低的缺陷。第一方面，本专利技术实施例提供了一种中文文本识别方法，包括：获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中；针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；根据所述单字符串所属的搜索语料库的类别，基于对应预设的规...

【技术保护点】
1.一种中文文本识别方法，其特征在于，包括：获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的搜索类别属性，将所述关键词存储至对应类别的搜索语料库中；针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别，筛选出初步识别字符，并将所述初步识别字符加入到候选新词词库中；当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符添加到所述预设词库中。

【技术特征摘要】
1.一种中文文本识别方法，其特征在于，包括：获取各终端应用程序上报的用户在应用程序搜索的关键词，并根据所述关键词的搜索类别属性，将所述关键词存储至对应类别的搜索语料库中；针对各个搜索语料库采用对应的预设算法对存储的关键词进行多次切分直至得到无法继续切分的单字符串；根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于预设词库对所述单字符串进行识别，筛选出初步识别字符，并将所述初步识别字符加入到候选新词词库中；当所述初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符添加到所述预设词库中。2.根据权利要求1所述的方法，其特征在于，所述根据所述关键词的类别属性，将所述关键词存储至对应类别的搜索语料库中包括：将携带地理位置信息的关键词存储在地址搜索语料库中；将未携带地理位置信息的关键词存储在通用搜索语料库中。3.根据权利要求2所述的方法，其特征在于，所述根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别，筛选出初步识别字符，并加所述初步识别字符加入到候选新词词库中，包括：对于属于地址搜索语料库中单字符串，筛选出包含预设地址后缀关键词的单字符串，并将预设的地址后缀关键词为分隔符，将所述单字符串划分为若干个词条，将所述若干个词条作为初步识别字符加入到候选地址新词词库中；相应地，所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到对应的现有词库中，包括：在初步识别字符在候选地址新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到地址搜索新词词库中。4.根据权利要求2所述的方法，其特征在于，所述根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别，筛选出初步识别字符，并加所述初步识别字符加入到候选新词词库中，包括：对于属于通用搜索语料库中单字符串，在判断其为非中文姓名单字符串时，基于BI-gram模型筛选出初步识别字符，并将所述初步识别字符加入到候选通用新词词库中；相应地，所述在初步识别字符在所述候选新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到对应的现有词库中，包括：在所述初步识别字符在所述候选通用新词词库中出现的概率达到预设的概率阈值时，将所述初步识别字符加入到通用搜索新词词库中。5.根据权利要求2所述的方法，其特征在于，所述根据所述单字符串所属的搜索语料库的类别，基于对应预设的规则识别算法或基于对应的现有词库对所述单字符串进行识别，筛选出初步识别字符，并加所述初步识别字符加入到候选新词词库中，包括：对于属于通用搜索语料库中单字符串，在判断其为中文姓名单字符串时，将所述单字符串划分为姓字符以及若干个名字字符，在所述姓字符在现有的汉语姓字库中出现的第一概率大于0且所述名字字符在现有的汉语名字字库中出现的第二概率大于0...

【专利技术属性】
技术研发人员：徐志焕，陈文鸿，陈利青，郑丽燕，吴锐彬，徐睿，张晓川，
申请(专利权)人：中国移动通信集团广东有限公司，中国移动通信集团公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人