一种机构名称识别处理方法、智能终端及存储介质技术

技术编号:19056905 阅读:34 留言:0更新日期:2018-09-29 12:11
本发明专利技术公开了一种机构名称识别处理方法、智能终端及存储介质,所述方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。本发明专利技术实现了对机构名称的进行有效和正确切分,以及词性的正确识别,提高了中文机构名称的识别准确性和识别效率。

【技术实现步骤摘要】
一种机构名称识别处理方法、智能终端及存储介质
本专利技术涉及中文信息处理
,尤其涉及一种机构名称识别处理方法、智能终端及存储介质。
技术介绍
近年来,随着自然语言处理技术的发展,越来越多的中文文本处理任务通过程序自动完成,在文本处理中,可以提取出大量的机构名称;比如用户在申请信用卡时,银行需要将用户录入的工作单位跟其它信息源(比如社保系统)的工作单位进行比对校验,而由于缩写等原因,许多中文机构名称存在不统一和不规范的表述。例如“ABCD有限公司”还可能被表述为:“ABCD”、“ABCD公司”、“广东省深圳市ABCD有限公司”等名称,为判断不同表示的机构名称是否指代统一机构,需要对机构名称各元素进行切分,并识别每个元素的类型;比如,“广东省深圳市ABCD有限公司”切分并识别为“广东省/d深圳市/dAB/sCD/h有限公司/j”(其中,小写字母表示不同词性的类型);此外,通过对机构名称的切分,还可以得到该机构的行政区划、商号、行业、机构性质等信息。目前,成熟的分词系统主要是针对新闻领域的、长文本的,对机构名称的处理以整体识别为主,并不能对机构名称中的各元素进行准确切分;特别是机构名中普遍存在的商号,一般在词库中是没有的,称之为未登录词;目前未登录词的识别技术,一般是人名、地名、机构名称的,并没有未登录商号的自动识别技术;人名的识别,姓氏是明显的触发点;地名的识别,“省”、“市”等地名后缀是明显的触发点;而“商号”的组成千变万化,并没有明显的触发点,这也就增加了商号识别的难度。也就是说,现有技术中,对于中文机构名称细分分词的准确性和效率都不高,很多商号、地名识别不准确,不能对机构名称中的各元素进行准确切分,无法及时、有效识别新的行业词。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术缺陷,本专利技术提供一种机构名称识别处理方法、智能终端及存储介质,旨在实现对机构名称的进行有效和正确切分,以及词性的正确识别,提高中文机构名称的识别准确性和识别效率。本专利技术解决技术问题所采用的技术方案如下:一种机构名称识别处理方法,应用于智能终端,其中,所述机构名称识别处理方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。所述的机构名称识别处理方法,其中,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:根据机构名称中出现的词性类型定义词性系统;搜集行业词用于补充词库。所述的机构名称识别处理方法,其中,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:根据给出的机构名称进行全切分,生成词图;识别标准区划地名并设置区划编码,调整存在冲突的地名词。所述的机构名称识别处理方法,其中,所述识别标准区划地名并设置区划编码,调整存在冲突的地名词具体包括:当识别出机构名称中的多个地名时,判断地名之间是否为上下级关系标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并根据地名后缀消除地名变更的影响;设置区划编码,对存在冲突的地名进行调节。所述的机构名称识别处理方法,其中,为降低无地名词后缀的地名成词的概率,以pre表示节点地名,suc表示其后继节点,则:其中,P(suc|pre)为条件概率,f(suc)是suc的词频,f(pre)是pre的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N,f(pre,suc)是(pre,suc)的词频,θ是调节率,调节率越大,不匹配地名词的成词概率越小,通过上述处理降低地名词对商号识别的影响。所述的机构名称识别处理方法,其中,所述当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别具体包括:从机构名称数据库中,按照机构名称类别分层抽样预设数量的机构名称,并对抽样的机构名称进行人工分词和词性标注;定义商号和地名词存在的概率;其中,假设一个分词序列为:(w1,w2,…,wn);定义该序列是商号的概率为:其中,count(s)是语料中商号词总数,count(ns)是语料中n字商号词个数,count(w1)是语料中w1出现的次数,count(w1,SB)是语料中w1作为角色SB出现的次数;其中,SB为商号词开头,SM为商号词中间,SE为商号词结尾;同样的,对于一个分词序列(w1,w2,…,wm);定义该序列是地名词的概率为:其中,count(d)是语料中地名词总数,count(ns)是语料中m字地名词个数,count(w1)是语料中w1出现的次数,count(w1,DB)是语料中w1作为角色DB出现的次数;其中,DB为地名词开头,DM为地名词中间,DE为地名词结尾。所述的机构名称识别处理方法,其中,定义一种词性组合存在的概率;其中,定义词性组合“s-h-j”存在的概率为:s、h、j分别表示机构名称中不同类型的词性;N是训练语料总数,count(s-h-j)是训练语料中机构名称的词性组合是“s-h-j”的数量。所述的机构名称识别处理方法,其中,当初分结果存在单字时,触发未登录地名词或者商号的识别功能,计算各个分词序列存在的概率,选择概率大的作为分词结果;预先设置一个阈值,当概率高于阈值时,执行切分结果;否则保持单字的状态,不执行合并。一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机构名称识别处理程序,所述机构名称识别处理程序被所述处理器执行时实现如上所述的机构名称识别处理方法的步骤。一种存储介质,其中,所述存储介质存储有机构名称识别处理程序,所述机构名称识别处理程序被处理器执行时实现如上所述机构名称识别处理方法的步骤。本专利技术公开了一种机构名称识别处理方法、智能终端及存储介质,所述方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。本专利技术实现了对机构名称的进行有效和正确切分,以及词性的正确识别,提高了中文机构名称的识别准确性和识别效率。附图说明图1是本专利技术机构名称识别处理方法的较佳实施例的流程图;图2是本专利技术机构名称识别处理方法的较佳实施例中步骤S10的流程图;图3是本专利技术机构名称识别处理方法的较佳实施例中步骤S20的流程图;图4是本专利技术机构名称识别处理方法的较佳实施例中以某一机构名称生成的词图的示意图;图5是本专利技术机构名称识别处理方法的较佳实施例中步骤S30的流程图;图6为本专利技术智能终端的较佳实施例的运行环境示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附本文档来自技高网
...

【技术保护点】
1.一种机构名称识别处理方法,应用于智能终端,其特征在于,所述机构名称识别处理方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。

【技术特征摘要】
1.一种机构名称识别处理方法,应用于智能终端,其特征在于,所述机构名称识别处理方法包括:预先定义机构名称中不同词性的字母名称,搜集并补充词库;通过改进的隐马尔科夫模型对机构名称进行初步划分,并标出词性和地名词区划编码;当检测到机构名称中出现词库中不存在的地名词和商号时,对未登录地名词和商号进行识别;通过可配置化的规则对分词结果进一步优化,满足不同用户的定制化需求;将出现频率超出预设次数的未登录词,统计分析是否为新的行业词,如果判断为新的行业词,则自动加入词库。2.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:根据机构名称中出现的词性类型定义词性系统;搜集行业词用于补充词库。3.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述预先定义机构名称中不同词性的字母名称,搜集并补充词库具体包括:根据给出的机构名称进行全切分,生成词图;识别标准区划地名并设置区划编码,调整存在冲突的地名词。4.根据权利要求3所述的机构名称识别处理方法,其特征在于,所述识别标准区划地名并设置区划编码,调整存在冲突的地名词具体包括:当识别出机构名称中的多个地名时,判断地名之间是否为上下级关系;标识出地名词所有可能的区划编码,再进行前后地名词区划编码的匹配,并根据地名后缀消除地名变更的影响;设置区划编码,对存在冲突的地名进行调节。5.根据权利要求4所述的机构名称识别处理方法,其特征在于,为降低无地名词后缀的地名成词的概率,以pre表示节点地名,suc表示其后继节点,则:其中,P(suc|pre)为条件概率,f(suc)是suc的词频,f(pre)是pre的词频,a是平滑因子,N是训练语料中词的总数量,λ=1/N,f(pre,suc)是(pre,suc)的词频,θ是调节率,调节率越大,不匹配地名词的成词概率越小,通过上述处理降低地名词对商号识别的影响。6.根据权利要求1所述的机构名称识别处理方法,其特征在于,所述当检测到机构名称中出现词库中不存在的地名词和商号时,...

【专利技术属性】
技术研发人员:谷国良彭青齐宋智刚罗学权王方罗毅虎樊洋佟禹周太威张昕
申请(专利权)人:鹏元征信有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1