【技术实现步骤摘要】
一种基于地址的单字权重统计方法
本专利技术涉及地理信息领域,计算机应用领域,尤其涉及的是一种基于地址的单字权重统计方法。
技术介绍
近年来随着我国信息化进程的加快,每天都会有海量的地址数据产生。现今电子设备的大力普及和通信网络的搭建,使得电子设备可以作为地址搜索的应用端,保障出行寻路的效率得到提升,进而在一定程度上解决诸如物流货物堆积、配送错误和能源消耗等成本问题,其中地址单字权重是实现地址搜索高效率的基础。真实地址信息内容复杂,信息中会包含中文、数字、英文字母、符号四大信息,同时地址搜索是以相同权重进行匹配标准地址库。当搜索栏中出现生僻字、错别字、谐音字,这些特殊情况我们需要审核地址信息是否正确输入,因为字的重要性要随着它在总数据表中出现的次数正比增大,同时要随该字在各条数据出现的频率反比下降。城市化程度与地址命名多样化随着中国发展而深化,地址信息的复杂度的提升与不恰当的匹配方式,对GIS系统是在系统计算资源利用率与系统有效性能率上都造成了一定的影响,而现有的地址单字权重统计方法还存在着一定的缺陷,难以支撑 ...
【技术保护点】
1.一种基于地址的单字权重统计方法,其特征在于,所述方法包括以下步骤:/n1)输入待统计的总数据表,记为T,其地址数据条数为N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;/n2)首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下:/n2.1)选取的第n行数据,记为T
【技术特征摘要】
1.一种基于地址的单字权重统计方法,其特征在于,所述方法包括以下步骤:
1)输入待统计的总数据表,记为T,其地址数据条数为N,表中保存着大量标准地址数据,同时创建一个Result表,每行数据存储为{w,perWordSum,perWordRow,wfItw},w字段代表该行的单字,perWordSum字段代表该单字在表T中出现的总次数,perWordRow字段代表该单字在表T中出现的总行数,wfItw字段代表该单字在表T中的权重值;
2)首先使用逐字加一法对表T进行总字数统计,总字数记为AllWordSum,过程如下:
2.1)选取的第n行数据,记为Tn,n初始值为1,通过移动数据字符下标j的方式判断是否将AllWordSum加1,j初始值为0;
2.2)若Tn下标j对应的字符非标点符号与空格符则将AllWordSum加1,并将下标j加1,移动到该行数据的下一个字符上,重复2.2)操作;
2.3)若Tn下标j已移动到该行的最后一个字符则将n加1,返回2.1)继续操作,直至n等于N,将n重置为1,j重置为0;
3)其次使用逐字加一法统计表T中每个单字的出现次数perWordSum和表T中每个单字的出现条数perWordRow,a代表在Result表对应的行下标,初始值为0,过程如下:
3.1)选取表T的第n行数据,记为Tn,逐一移动Tn字符下标j;
3.2)若该下标j对应的字符w非标点符号与空格符,且没有在Result表中出...
【专利技术属性】
技术研发人员:张贵军,张晨,武楚雄,熊章宗,周晓根,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。