一种基于无词典的中文地址分词方法技术

技术编号:16528915 阅读:55 留言:0更新日期:2017-11-09 20:39
本发明专利技术公开了一种基于无词典的中文地址分词方法,包括以下步骤:1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频,互信息,信息熵;2)通过正则表达式对地址字符串进行预处理;对输入地址字符串进行全切分;3)根据互信息和信息熵算法得到弧段花费最小的分词方案;4)根据置信度方法对该分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。

【技术实现步骤摘要】
一种基于无词典的中文地址分词方法
本专利技术涉及互联网技术及数据挖掘
,具体涉及一种利用中文地址的互信息和信息熵以及置信度对中文地址中的地址要素进行切分的无词典中文地址分词方法。
技术介绍
随着互联网技术的快速发展,网络成为信息传播交流的重要平台。在网络空间中每天都有大量的数据或信息产生,其中大部分都以自然语言文本的形式存在,如何从中挖掘出有用的信息成为当前的研究热点。这些文本中蕴含着大量的空间信息,据抽样统计,全球约70%的网页中含有位置信息。但是,与传统的地理信息或数据相比,文本中的地理信息是非结构化的,只有在形式化处理后,才能进行分析和挖掘。文本中的空间信息形式化包括地名地址分词、空间关系提取、事件提取等方面。地名地址分词作为空间信息形式化最基础、最底层的工作,其准确性将直接影响到后续工作的有效性。地名地址分词是中文分词在地名地址中的应用。它是将地名地址串拆分成若干地理要素的过程。中文分词算法大体可以分为3类:基于词典的分词方法、基于统计的分词方法以及基于理解的分词方法。由于我国地址名称多而杂乱,没有一个完整的词典包含所有的地址信息,因此,本文针对地名地址串,提出一种无词典的中文地址分词方法。
技术实现思路
针对现有技术的问题,本专利技术的目的在于提供一种基于无词典的中文地址分词方法,通过统计地址语料库的词频,互信息,信息熵,对字符串进行全切分得到所有切分方式集合,计算出弧度花费最小的切分方式,然后对切分方式做置信度处理进行二次切分,得到最优结果。本专利技术为解决上述技术问题所采用的技术方案是:本专利技术提供一种基于无词典的中文地址分词方法,包括以下步骤;S1,统计地址语料库中任意长度大于1小于等于8的字符串的词频、互信息和信息熵;S2,对输入的地址字符串利用正在表达式进行预处理,对处理后得到的字符串进行全切分处理,得到切分集合;S3,根据步骤S1统计得到的字符串的互信息和信息熵,计算得到弧段花费最小的分词方案;S4,根据置信度方法对该步骤S3得到的分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。作为优选,所述步骤S1包括以下子步骤:S11,统计地址语料库中的每条地址中任意字符长度大于1小于等于8的字串的频度,存入词频词典Word_dic中;S12,利用公式(1)统计字符串之间的互信息,存入MI_map中;其中p(xy)是字符x和字符y在语料里同时出现的概率;p(x)是字符x单独出现的概率;p(y)是字符y单独出现的概率;S13,利用公式(2)和公式(3)统计字符串的左熵、右熵,并存入LR_map中,左熵、右熵分别指字符串左边界和右边界的信息熵;其中w表示字符串,A表示字串左邻字的集合,a表示左邻字,B表示字串右邻字的集合,b表示右邻字,aw、wb分别表示字串w与左邻字a和右邻字b组合形成的字符串。作为优选,所述步骤S2具体为:对输入的地址字符串利用正则表达式进行预处理,对处理后字符串W进行全切分处理,连续的数字中间不插入分隔符,得到切分集合W={wi},1≤i≤2l-1,其中l表示字符串的长度。作为优选,根据步骤S1中得到的词频字典中字符串的词频、字符串间的互信息以及字符串的信息熵,利用公式(4)计算步骤S2中得到的切分集合W={wi}中每一个wi的概率,并保存结果,选取计算结果最小的分词方案,记作segment_result;M表示地址字符串切分点的左字符串、N表示地址字符串切分点的右字符串,m、n表示左字符串最右侧的字和右字符串最左侧的字。作为优选,所述步骤S4具体为:利用置信度公式(5)依次判断segment_result中的切分出来的字符串T1,T2,...,Tn是否为真实词条,并将真实词条放入结果集last_result中并输出;其中,fre(w1)和fre(w)分别表示字符串w1和w在语料库中出现的次数,conf(w1|w)表示词条w1相对于词条w的置信度。具体的:步骤S4包括以下子步骤:S41,设置取大阈值α和取小阈值β;S42,针对字符串T1=Q1,Q2,...,Qn,其中Q1代表单个字,n为字符串T1的长度,若n=2,则将T1放入结果集last_result中,否则跳转至步骤S43;S43,定义firstword=Q1Q2,secondword=Q1Q2Q3,利用公式(5)计算置信度,若conf<α则保留secondword,否则跳转至步骤S44;同时判断secondword是否等于T1,若是则循环结束,并输出last_result,否则进行增词比较,令firstword=secondword,secondword=Q1Q2Q3Q4,循环执行该步骤S43;S44,若conf>β,则保留firstword,否则跳转至步骤S45;同时判断secondword是否等于T1,若是则将firstword放入结果集last_result中,并令T1等于去除firstword后的字符串,否则进行增词比较,保持firstword不变,令secondword=Q1Q2Q3Q4,并跳转至步骤S43;S45,若α<conf<β,则比较字符串的词频,若fre(firstword)>fre(secondword),则将firstword放入结果集last_result中,并令T1等于去除firstword后的字符串,跳转至步骤S42;若fre(firstword)<fre(secondword),则判断secondword是否等于T1,若是则将secondword放入结果集last_result中,循环结束,并输出last_result,否则进行增词比较,令firstword=secondword,secondword=Q1Q2Q3Q4并跳转至步骤S43。本专利技术的有益效果是:本专利技术主要应用于地理位置信息服务中中文地址的解析,该方法能够实现对中文地址的分词,具有较强的可行性和有效性。具体实施方式下面结合实施例对本专利技术作进一步说明。本专利技术提供一种基于无词典的中文地址分词方法,这里选取中文地址“武汉市洪山区落雁路郑家湾105号”对本专利技术的具体实施过程进行说明。S1、数据准备:(1)统计地址语料库中的每条地址中任意字符长度大于1小于等于8的字串的频度,存入词频词典Word_dic中。(2)统计字符串之间的互信息,存入MI_map中。其中p(xy)是字符x和字符y在语料里同时出现的概率;p(x)是字符x单独出现的概率;p(y)是字符y单独出现的概率;(3)统计字符串的左熵,右熵,存入LR_map中,左熵、右熵分别指字串左边界和右边界的信息熵。其中w表示字符串,A表示字串左邻字的集合,a表示左邻字,B表示字串右邻字的集合,b表示右邻字,aw、wb分别表示字串w与左邻字a和右邻字b组合形成的字符串。S2、对输入的地址字符串利用正则表达式进行预处理,对处理后字符串W进行全切分处理,连续的数字中间不插入分隔符,得到切分集合W={wi},1≤i≤2l-1,其中l表示字符串的长度。S3、根据步骤S1中得到的词频字典中字符串的词频、字符串间的互信息以及字符串的信息熵,利用公式(4)计算步骤S2中得到的切分集合W={wi}中每一个wi的概率,并保存结果,选取计算结果最小的分词方案,记作segm本文档来自技高网...

【技术保护点】
一种基于无词典的中文地址分词方法,其特征在于:包括以下步骤:S1,统计地址语料库中任意长度大于1小于等于8的字符串的词频、互信息和信息熵;S2,对输入的地址字符串利用正在表达式进行预处理,对处理后得到的字符串进行全切分处理,得到切分集合;S3,根据步骤S1统计得到的字符串的互信息和信息熵,计算得到弧段花费最小的分词方案;S4,根据置信度方法对该步骤S3得到的分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。

【技术特征摘要】
1.一种基于无词典的中文地址分词方法,其特征在于:包括以下步骤:S1,统计地址语料库中任意长度大于1小于等于8的字符串的词频、互信息和信息熵;S2,对输入的地址字符串利用正在表达式进行预处理,对处理后得到的字符串进行全切分处理,得到切分集合;S3,根据步骤S1统计得到的字符串的互信息和信息熵,计算得到弧段花费最小的分词方案;S4,根据置信度方法对该步骤S3得到的分词方案的字符串集合进行二次计算,判断该字符串是否为真实词条,得到最优的分词方案。2.根据权利要求1所述的一种基于无词典的中文地址分词方法,其特征在于:所述步骤S1包括以下子步骤:S11,统计地址语料库中的每条地址中任意字符长度大于1小于等于8的字串的频度,存入词频词典Word_dic中;S12,利用公式(1)统计字符串之间的互信息,存入MI_map中;其中p(xy)是字符x和字符y在语料里同时出现的概率;p(x)是字符x单独出现的概率;p(y)是字符y单独出现的概率;S13,利用公式(2)和公式(3)统计字符串的左熵、右熵,并存入LR_map中,左熵、右熵分别指字符串左边界和右边界的信息熵;其中w表示字符串,A表示字串左邻字的集合,a表示左邻字,B表示字串右邻字的集合,b表示右邻字,aw、wb分别表示字串w与左邻字a和右邻字b组合形成的字符串。3.根据权利要求2所述的一种基于无词典的中文地址分词方法,其特征在于:所述步骤S2具体为:对输入的地址字符串利用正则表达式进行预处理,对处理后字符串W进行全切分处理,连续的数字中间不插入分隔符,得到切分集合W={wi},1≤i≤2l-1,其中l表示字符串的长度。4.根据权利要求3所述的一种基于无词典的中文地址分词方法,其特征在于:所述步骤S3具体为:根据步骤S1中得到的词频字典中字符串的词频、字符串间的互信息以及字符串的信息熵,利用公式(4)计算步骤S2中得到的切分集合W={wi}中每一个wi的概率,并保存结果,选取计算结果最小的分词方案,记作segment_result;M表示地址字符串切分点的左字符串、N表示地址字符串切分点的右字符串,m、n表示左字符串最右侧的字和右字符串最左侧的字。5...

【专利技术属性】
技术研发人员:谢婷婷李晓林严柯张懿刘志杰
申请(专利权)人:武汉工程大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1