一种机构名称识别处理方法、智能终端及存储介质技术

技术编号:19056905 阅读:58 留言:0更新日期:2018-09-29 12:11
本发明专利技术公开了一种机构名称识别处理方法、智能终端及存储介质,所述方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。本发明专利技术实现了对机构名称的进行有效和正确切分,以及词性的正确识别,提高了中文机构名称的识别准确性和识别效率。

【技术实现步骤摘要】
一种机构名称识别处理方法、智能终端及存储介质
本专利技术涉及中文信息处理
,尤其涉及一种机构名称识别处理方法、智能终端及存储介质。
技术介绍
近年来,随着自然语言处理技术的发展,越来越多的中文文本处理任务通过程序自动完成,在文本处理中,可以提取出大量的机构名称;比如用户在申请信用卡时,银行需要将用户录入的工作单位跟其它信息源(比如社保系统)的工作单位进行比对校验,而由于缩写等原因,许多中文机构名称存在不统一和不规范的表述。例如“ABCD有限公司”还可能被表述为:“ABCD”、“ABCD公司”、“广东省深圳市ABCD有限公司”等名称,为判断不同表示的机构名称是否指代统一机构,需要对机构名称各元素进行切分,并识别每个元素的类型;比如,“广东省深圳市ABCD有限公司”切分并识别为“广东省/d深圳市/dAB/sCD/h有限公司/j”(其中,小写字母表示不同词性的类型);此外,通过对机构名称的切分,还可以得到该机构的行政区划、商号、行业、机构性质等信息。目前,成熟的分词系统主要是针对新闻领域的、长文本的,对机构名称的处理以整体识别为主,并不能对机构名称中的各元素进行准确切分;特别是机构名本文档来自技高网...

【技术保护点】
1.一种机构名称识别处理方法,应用于智能终端,其特征在于,所述机构名称识别处理方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。

【技术特征摘要】
1.一种机构名称识别处理方法,应用于智能终端,其特征在于,所述机构名称识别处理方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。2.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:根据机构名称中出现的词性类型定义词性系统;搜集行业词用于补充词库。3.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:根据给出的机构名称进行全切分,生成词图;识别标准区划地名并设置区划编码,调整存在冲突的地名词。4.根据权利要求3所述的机构名称识别处理方法,其特征在于,所述识别标准区划地名并设置区划编码,调整存在冲突的地名词具体包括:当识别出机构名称中的多个地名时,判断地名之间是否为上下级关系;标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并根据地名后缀消除地名变更的影响;设置区划编码,对存在冲突的地名进行调节。5.根据权利要求4所述的机构名称识别处理方法,其特征在于,为降低无地名词后缀的地名成词的概率,以pre表示节点地名,suc表示其后继节点,则:其中,P(suc|pre)为条件概率,f(suc)是suc的词频,f(pre)是pre的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N,f(pre,suc)是(pre,suc)的词频,θ是调节率,调节率越大,不匹配地名词的成词概率越小,通过上述处理降低地名词对商号识别的影响。6.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述当检测到机构名称中出现词库中不存在的地名词和商号时,...

【专利技术属性】
技术研发人员:谷国良彭青齐宋智刚罗学权王方罗毅虎樊洋佟禹周太威张昕
申请(专利权)人:鹏元征信有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1