一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法技术

技术编号:20221734 阅读:18 留言:0更新日期:2019-01-28 20:15
本发明专利技术提出了一种基于K‑means算法模型的纳税人税务登记注册地址信息聚类方法,属于计算机技术领域。首先,将注册地址进行自然语言的语义挖掘处理,其中,包括词库的扩充、分词操作。对于地址分词后的结果,利用空间向量模型(VSM,Vector Space Model)转化文本向量,再采用K‑means算法对转化为文本向量地址进行聚类,采用无监督的方式选取合适聚类个数K,并将聚类结果根据需要指定结构。

【技术实现步骤摘要】
一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法
本专利技术涉及一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,属于计算机

技术介绍
当前,面对纳税人信息分析时,存在纳税人企业注册地址登记中地址模糊,填写不准确,导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且,由于汉字的异构性提升了对同一地址识别的难度,进而导致无法对纳税人企业注册地址登记中的地址信息进行准确识别。
技术实现思路
本专利技术为了解决现有技术中无法对纳税人企业注册地址登记中的地址信息进行准确识别的技术问题,提出了一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,所采取的技术方案如下:一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,所述地址信息聚类方法包括:步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;步骤四、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标,具有相同类标的地址归为一类,进而获得纳税人税务登记注册地址信息的聚类结果。进一步地,步骤二所述的语义挖掘具体过程包括:第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描,对所述纳税人税务登记注册地址的文字进行分词过程处理,将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图;第二步、利用HttpClient爬取网络页面,Jsoup拆分页面数据,获取所述纳税人税务登记注册地址所在区域的个行政区划、街道和小区的地址数据,并将所述地址数据补充到分词的补充字典中。进一步地,步骤四所述每一个地址词在总样本中的权重值的具体过程包括:第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w,d)和文档d中的总次数size(d)的比值模型计算获得词频值,所述比值模型为:其中,文档d代表所述总样本中的一个文档;第2步、利用逆向文件词频计算模型获取地址信息此在文档中的逆向文件词频值,所述逆向文件词频计算模型为:其中,n表示总文档中的文件个数,docs(w,D)表示包含地址词w的文件数量;第3步、利用TF-IDF权重模型计算所述地址词w的TF-IDF值,所述TF-IDF权重模型如下:wTF-IDF=TF×IDF通过获得TF-IDF值即为所述地址词w在总样本中的权重值。进一步地,所述TF-IDF值高低判断原则为:所述地址词w在文档d中出现的频率越高,并且在总文档中出现的频率最低时,所述地址词w具有的TF-IDF值为高。进一步地,步骤五获得所述纳税人税务登记注册地址信息的聚类结果的具体过程包括:步骤1、将样本数据划分为K个类簇:利用K-means++的方式选取K个地址向量作为初始聚类中心{μ1,μ2,…,μn},并且每个聚类中心对应一个类簇;步骤2、利用采用欧氏距离模型计算每个样本与聚类中心的距离:所述欧氏距离模型如下:dist=||xj-μi||2其中,xj表示样本;μi表示聚类中心;步骤3、根据每个样本与聚类中心的距离最近原则,将各个样本分别分配到样本与聚类中心距离最近的一个类簇中;步骤4、计算各类簇的样本均值,判断前后计算的两次样本均值是否收敛;如果不收敛,则更新聚类中心,重复步骤2和步骤3的内容直至聚类中心不再发生改变;如果收敛,则对本次聚类过程中的SSE值进行计算,获得SSE值;其中,所述样本均值计算的模型为:其中,xi为地址样本,并且如果xi属于第K个类,dik=1,反之,则dik=0;步骤5、判断步骤4中获得的SSE值所对应的K值是否为拐点,如果SSE值所对应的K值不是拐点,则重复步骤1至步骤4的内容直至SSE值所对应的K值为拐点;如果SSE值所对应的K值是拐点,则确定聚类个数K,得出聚类结果;其中,所述拐点为SSE减幅最小时的点。本专利技术有益效果:当前,面对纳税人信息分析时,存在纳税人企业注册地址登记中地址模糊,填写不准确,导致无法用匹配的方式判断是否存在多个纳税人在同一地址进行了注册。并且,对于由于汉字的异构性提升了对同一地址识别的难度。本专利技术解决了上述问题,可对存在一个地址多个纳税人进行注册进行检测,以预警存在潜在危险的企业,发现团伙企业。利用该专利技术对于纳税人企业注册地址信息进行聚类,对得到的结果进行分析,同一地址识别率为百分之八十五。以上可见,对于税务工作中对于一个地址多个纳税人注册的情况可以有效地处理分析。附图说明图1为本专利技术所述聚类方法的整体流程图;图2为本专利技术所述K-means算法聚类过程的流程图。具体实施方式下面结合具体实施例对本专利技术做进一步说明,但本专利技术不受实施例的限制。实施例1:一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,首先,将注册地址进行自然语言的语义挖掘处理,其中包括词库的扩充、分词操作。对于地址分词后的结果,利用空间向量模型(VSM,VectorSpaceModel)转化文本向量,再采用聚类算法中基于划分的聚类算法——K-means算法对转化为文本向量地址进行聚类,采用无监督的方式选取合适聚类个数K,并将聚类结果根据需要指定结构。其中,分词:分词过程是将汉字序列按语义分为相互独立词语的过程,根据研究表明词的特征粒度与字特征粒度相比具有更好的效果,可以保留更多的“n-gram”信息,因此需对地址信息进行分词。不同于英文具有天然的分隔性,中文的分词更加复杂,本专利技术选用JieBa分词策略,基于Trie树结构实现高效的词图扫描,将句子中可能分为词的的所有情况,生成有向无环图(DAG)。扩充字典:由于本专利针对注册地址信息进行分析,分词字典中缺乏地址信息的词典,为保证分词准确度,本专利利用HttpClient爬取网络页面,Jsoup拆分页面数据,获取河北省的各个行政区划、街道和小区的地址数据,用以分词的补充字典。具体的,如图1所示,所述地址信息聚类方法包括:步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;步骤三、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;步骤四、采用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记本文档来自技高网...

【技术保护点】
1.一种基于K‑means算法模型的纳税人税务登记注册地址信息聚类方法,其特征在于,所述地址信息聚类方法包括:步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;步骤四、利用TF‑IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;步骤五、利用手肘法与K‑means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K‑means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标,具有相同类标的地址归为一类,进而获得纳税人税务登记注册地址信息的聚类结果。

【技术特征摘要】
1.一种基于K-means算法模型的纳税人税务登记注册地址信息聚类方法,其特征在于,所述地址信息聚类方法包括:步骤一、获取地址样本数据步骤二、利用分词过程和补充字典方式对所述纳税人税务登记注册地址中的文字信息进行语义挖掘;步骤三、利用向量空间模型将所述纳税人税务登记注册地址中的地址文本信息转化为地址向量;步骤四、利用TF-IDF方法度量所述地址向量中的特征向量并获得所述纳税人税务登记注册地址信息中的每一个地址词在总样本中的权重值;步骤五、利用手肘法与K-means聚类算法中当聚类个数小于实际聚类个数后SSE值随着聚类个数K的增加而骤减的特性相结合,确定SSE减幅最小时所对应的K值,作为地址聚类个数;利用已确定聚类个数K的K-means聚类算法对所述地址向量进行聚类处理,对所述纳税人税务登记注册地址中包含的每个地址信息返回相应的类标,具有相同类标的地址归为一类,进而获得纳税人税务登记注册地址信息的聚类结果。2.根据权利要求1所述纳税人税务登记注册地址信息聚类方法,其特征在于,步骤二所述的语义挖掘具体过程包括:第一步、利用JieBa分词策略结合Trie树结构对所述纳税人税务登记注册地址的文字进行词图扫描,对所述纳税人税务登记注册地址的文字进行分词过程处理,将所述纳税人税务登记注册地址中的文字信息按照能分为词的所有情况生成有向无环图;第二步、利用HttpClient爬取网络页面,Jsoup拆分页面数据,获取所述纳税人税务登记注册地址所在区域的个行政区划、街道和小区的地址数据,并将所述地址数据补充到分词的补充字典中。3.根据权利要求1所述纳税人税务登记注册地址信息聚类方法,其特征在于,步骤四所述每一个地址词在总样本中的权重值的具体过程包括:第1步、利用纳税人税务登记注册地址信息中出现的地址词w在文档d中出现的次数count(w,d)和文档d中的总次数size(d)的比值模型计算获得词频值,所述比值模型为:其中,文档d代表所述总样本中的一个文档;第2步、...

【专利技术属性】
技术研发人员:杨为琛伺彦伟张婷李慧祁洪波郭冰洁徐爱华
申请(专利权)人:河北航天信息技术有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1