一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法技术

技术编号：20221734 阅读：34 留言：0更新日期：2019-01-28 20:15

本发明专利技术提出了一种基于K‑means算法模型的纳税人税务登记注册地址信息聚类方法，属于计算机技术领域。首先，将注册地址进行自然语言的语义挖掘处理，其中，包括词库的扩充、分词操作。对于地址分词后的结果，利用空间向量模型(VSM,Vector Space Model)转化文本向量，再采用K‑means算法对转化为文本向量地址进行聚类，采用无监督的方式选取合适聚类个数K，并将聚类结果根据需要指定结构。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
本专利技术涉及一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，属于计算机

技术介绍
当前，面对纳税人信息分析时，存在纳税人企业注册地址登记中地址模糊，填写不准确，导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且，由于汉字的异构性提升了对同一地址识别的难度，进而导致无法对纳税人企业注册地址登记中的地址信息进行准确识别。
技术实现思路
本专利技术为了解决现有技术中无法对纳税人企业注册地址登记中的地址信息进行准确识别的技术问题，提出了一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，所采取的技术方案如下：一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，所述地址信息聚类方法包括：步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘；步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量；步骤四、利用TF-IDF方法度量所述地址向量中的特征...

【技术保护点】
1.一种基于K‑means算法模型的纳税人税务登记注册地址信息聚类方法，其特征在于，所述地址信息聚类方法包括：步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘；步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量；步骤四、利用TF‑IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值；步骤五、利用手肘法与K‑means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合，确定SSE减幅最小时所对应的K值，作为地址聚类...

【技术特征摘要】
1.一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法，其特征在于，所述地址信息聚类方法包括：步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘；步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量；步骤四、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值；步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合，确定SSE减幅最小时所对应的K值，作为地址聚类个数；利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理，对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标，具有相同类标的地址归为一类，进而获得纳税人税务登记注册地址信息的聚类结果。2.根据权利要求1所述纳税人税务登记注册地址信息聚类方法，其特征在于，步骤二所述的语义挖掘具体过程包括：第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描，对所述纳税人税务登记注册地址的文字进行分词过程处理，将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图；第二步、利用HttpClient爬取网络页面，Jsoup拆分页面数据，获取所述纳税人税务登记注册地址所在区域的个行政区划、街道和小区的地址数据，并将所述地址数据补充到分词的补充字典中。3.根据权利要求1所述纳税人税务登记注册地址信息聚类方法，其特征在于，步骤四所述每一个地址词在总样本中的权重值的具体过程包括：第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w，d)和文档d中的总次数size(d)的比值模型计算获得词频值，所述比值模型为：其中，文档d代表所述总样本中的一个文档；第2步、...

【专利技术属性】
技术研发人员：杨为琛，伺彦伟，张婷，李慧，祁洪波，郭冰洁，徐爱华，
申请(专利权)人：河北航天信息技术有限公司，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人