一种基于无词典的中文地址分词方法技术

技术编号：16528915 阅读：55 留言：0更新日期：2017-11-09 20:39

本发明专利技术公开了一种基于无词典的中文地址分词方法，包括以下步骤：1)通过统计得到训练语料中任意长度大于1小于等于8的字符串的词频，互信息，信息熵；2)通过正则表达式对地址字符串进行预处理；对输入地址字符串进行全切分；3)根据互信息和信息熵算法得到弧段花费最小的分词方案；4)根据置信度方法对该分词方案的字符串集合进行二次计算，判断该字符串是否为真实词条，得到最优的分词方案。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于无词典的中文地址分词方法
本专利技术涉及互联网技术及数据挖掘
，具体涉及一种利用中文地址的互信息和信息熵以及置信度对中文地址中的地址要素进行切分的无词典中文地址分词方法。
技术介绍
随着互联网技术的快速发展，网络成为信息传播交流的重要平台。在网络空间中每天都有大量的数据或信息产生，其中大部分都以自然语言文本的形式存在，如何从中挖掘出有用的信息成为当前的研究热点。这些文本中蕴含着大量的空间信息，据抽样统计，全球约70％的网页中含有位置信息。但是，与传统的地理信息或数据相比，文本中的地理信息是非结构化的，只有在形式化处理后，才能进行分析和挖掘。文本中的空间信息形式化包括地名地址分词、空间关系提取、事件提取等方面。地名地址分词作为空间信息形式化最基础、最底层的工作，其准确性将直接影响到后续工作的有效性。地名地址分词是中文分词在地名地址中的应用。它是将地名地址串拆分成若干地理要素的过程。中文分词算法大体可以分为3类：基于词典的分词方法、基于统计的分词方法以及基于理解的分词方法。由于我国地址名称多而杂乱，没有一个完整的词典包含所有的地址信息，因此，本文针对地名地址串，提出一种无词典的中文地址分词方法。
技术实现思路
针对现有技术的问题，本专利技术的目的在于提供一种基于无词典的中文地址分词方法，通过统计地址语料库的词频，互信息，信息熵，对字符串进行全切分得到所有切分方式集合，计算出弧度花费最小的切分方式，然后对切分方式做置信度处理进行二次切分，得到最优结果。本专利技术为解决上述技术问题所采用的技术方案是：本专利技术提供一种基于无词典的中文地址分词方法，包括以...

【技术保护点】
一种基于无词典的中文地址分词方法，其特征在于：包括以下步骤：S1，统计地址语料库中任意长度大于1小于等于8的字符串的词频、互信息和信息熵；S2，对输入的地址字符串利用正在表达式进行预处理，对处理后得到的字符串进行全切分处理，得到切分集合；S3，根据步骤S1统计得到的字符串的互信息和信息熵，计算得到弧段花费最小的分词方案；S4，根据置信度方法对该步骤S3得到的分词方案的字符串集合进行二次计算，判断该字符串是否为真实词条，得到最优的分词方案。

【技术特征摘要】
1.一种基于无词典的中文地址分词方法，其特征在于：包括以下步骤：S1，统计地址语料库中任意长度大于1小于等于8的字符串的词频、互信息和信息熵；S2，对输入的地址字符串利用正在表达式进行预处理，对处理后得到的字符串进行全切分处理，得到切分集合；S3，根据步骤S1统计得到的字符串的互信息和信息熵，计算得到弧段花费最小的分词方案；S4，根据置信度方法对该步骤S3得到的分词方案的字符串集合进行二次计算，判断该字符串是否为真实词条，得到最优的分词方案。2.根据权利要求1所述的一种基于无词典的中文地址分词方法，其特征在于：所述步骤S1包括以下子步骤：S11，统计地址语料库中的每条地址中任意字符长度大于1小于等于8的字串的频度，存入词频词典Word_dic中；S12，利用公式(1)统计字符串之间的互信息，存入MI_map中；其中p(xy)是字符x和字符y在语料里同时出现的概率；p(x)是字符x单独出现的概率；p(y)是字符y单独出现的概率；S13，利用公式(2)和公式(3)统计字符串的左熵、右熵，并存入LR_map中，左熵、右熵分别指字符串左边界和右边界的信息熵；其中w表示字符串，A表示字串左邻字的集合，a表示左邻字，B表示字串右邻字的集合，b表示右邻字，aw、wb分别表示字串w与左邻字a和右邻字b组合形成的字符串。3.根据权利要求2所述的一种基于无词典的中文地址分词方法，其特征在于：所述步骤S2具体为：对输入的地址字符串利用正则表达式进行预处理，对处理后字符串W进行全切分处理，连续的数字中间不插入分隔符，得到切分集合W＝{wi},1≤i≤2l-1，其中l表示字符串的长度。4.根据权利要求3所述的一种基于无词典的中文地址分词方法，其特征在于：所述步骤S3具体为：根据步骤S1中得到的词频字典中字符串的词频、字符串间的互信息以及字符串的信息熵，利用公式(4)计算步骤S2中得到的切分集合W＝{wi}中每一个wi的概率，并保存结果，选取计算结果最小的分词方案，记作segment_result；M表示地址字符串切分点的左字符串、N表示地址字符串切分点的右字符串，m、n表示左字符串最右侧的字和右字符串最左侧的字。5...

【专利技术属性】
技术研发人员：谢婷婷，李晓林，严柯，张懿，刘志杰，
申请(专利权)人：武汉工程大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人