一种统计表格有效内容的方法技术

技术编号:11685503 阅读:50 留言:0更新日期:2015-07-06 17:34
本发明专利技术涉及计算机的数据挖掘应用技术领域,尤其涉及到电子数据表格的内容统计。本发明专利技术自动的过滤掉文档中的噪音部分,然后计算两笔数据的相似度,依据相似度的值对数据进行分类,然后依次统计每个分类中数据集合的有效部分,最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明专利技术自动避免掉重复内容的重复计算,对有效部分的统计准确率高;同时无需人工处理,统计效率高。值得推广应用。

【技术实现步骤摘要】

本专利技术涉及计算机的数据挖掘应用
,尤其涉及到电子数据表格的内容统 计。
技术介绍
目前统计电子数据表格文档内容,都是采用excel自带的统计功能,但这样统计 出来的数据仅仅是excel文档中所有内容的总和,而这些内容并不全是有效内容,里面充 满部分的html代码,url连接地址,标点符号等噪音部分,以及相同列下不同数据之间重复 的部分。因此,按照现有统计方式统计出的电子数据表格内容数量远远大于文档中有效的 部分,无法适应人们对表格中有效内容的统计需求。例如,当此excel是需要作为翻译的原 文件,这些噪音部分是不需要作为翻译的字数统计,而且相同列下不同数据之间重复的部 分也不需要在作为翻译的字数统计,那么要完成此项工作,需要人为的去判断和剔除噪音 部分和去除同一列数据相同重复的部分,当excel数据越来越多的时候,人工干预成本也 会越来越高,效率也会越来越低,出错几率会越来越高,最终统计出的数值准确率也会越来 越低。
技术实现思路
本专利技术所要解决的技术问题是提供,克服现有技术 存在的无效内容统计的缺陷。 为解决上述技术问题,本专利技术提供,包括以下步 骤: 步骤I、文档预处理,过滤掉文档中的噪音部分; 步骤II、通过计算数据的相似度,依据相似度的值对数据进行分类; 步骤III、计算每个分类中数据集合的有效部分数; 步骤IV、将所有分类中的有效部分数累加得出最后有效部分数。 所述过滤掉文档中的噪音部分为,去除每笔数据中跟文档内容不相关的html标 签,url连接地址,标点符号,空格。 优选的,所述步骤II包括以下步骤: i、首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序, 也就是将长度最长的排在第一位,长度最短的排在最后一位。 ii、取出集合G中一笔数据D,将其保存在分类集合L1中,并将该数据D从集合G 中删除。 iii、计算数据D依次与集合G中的其他数据GD的相似度,当该相似度数值大于等 于预先设置好的文本相似度阀值时,则将GD也存入集合L1中,并且保存D->GD的最小编辑 数S1,并在集合G中删除数据GD。 iv、重复步骤ii、iii的方式,形成分类集合L2,?'Ln。 优选的,所述计算数据的相似度,包括如下步骤: 通过编辑距离算法计算出两笔数据之间的最小编辑数, 根据所述编辑次数来计算出两笔数据的相似度。 所述计算每个分类中数据集合的有效部分数,包括以下步骤: 3. 1、循环遍历L1集合,以第一笔数据LD1为参照对象,依次取出第二笔数据对象 LD2,并取出LD2对象中的最小编辑次数S1,计算出这两笔数据的有效内容数据L1A1,L1A1 =S1+(LD2对象文本数据长度); 3. 2、根据3. 1的方式,依次取出第三笔数据LD3直到LDn,最终得出L1A2… LlA(n-l),最后统计出集合L1有效内容数L1A, L1A = (L1A1+L1A2+…? +L1A1 (n-1) )-(LDl 对象文本数据长度)*(集合 L1 长 度 _1); 3. 3、重复步骤3. 1到3. 2的操作,依次计算出分类集合L2,…,Ln分别对应的有 效内容数L2A,…,LnA; 3. 4、无法匹配集合W中有效内容数WA为该集合中每笔对象文本长度之和的累加。 本专利技术自动的过滤掉文档中的噪音部分,然后计算两笔数据的相似度,依据相似 度的值对数据进行分类,然后依次统计每个分类中数据集合的有效部分,最终在将所有分 类中的数据汇总累加得出最后的总体有效部分数据。本专利技术自动避免掉重复内容的重复计 算,对有效部分的统计准确率高;同时无需人工处理,统计效率高。值得推广应用。【附图说明】 下面结合附图和【具体实施方式】对本专利技术的技术方案作进一步具体说明。 图1为本专利技术【具体实施方式】的流程图。【具体实施方式】 结合图1所示,本专利技术主要包括如下步骤: 步骤1、文档预处理,清除文档中相关内容噪音部分内容。 为了提高模块效率和统计准确性,在模块执行之前,首先要对文档中相关内容进 行过滤。去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号,空格等 等噪音内容。这些内容严格意义上说并不属于文档中的有效内容,因此在统计的时候并不 需要将这些内容统计在最后的结果中。 步骤2、数据归类,通过计算数据的相似度将同类数据归为一类。 2. 1首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序, 也就是将长度最长的排在第一位,长度最短的排在最后一位。 2. 2取出集合G中一笔数据D,将其保存在分类集合L1中,并将该数据D从集合G 中删除。 2. 3将数据D依次与集合G中的其他数据GD通过编辑距离算法得出最小编辑数, 根据最小编辑数得出D、GD两笔文本数据的相似度,当该相似度数值大于等于预先设置好 的文本相似度阀值时,则将GD也存入集合L1中,并且保存D->GD的最小编辑数S1,并在集 合G中删除数据GD。 2. 4重复步骤2. 2、2. 3的操作,并将新的数据存入新的分类集合L2…Ln中。 2. 5整理分类集合L1…Ln,取出集合长度为1的集合,这些集合数据都为无法匹配 数据,将这些数据全部取出,保存入无法匹配集合W中。 此刻数据的分类完成,最终得出分类集合L1,….,Ln,以及无法匹配集合W。 上述的编辑距离指的是两个字符串之间,由一个转换成另一个所需的最少编辑操 作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字 符。本专利技术为了减少算法复杂度,将替换,插入,删除的权重都设成1。编辑距离算法包括以 下步骤: 步骤(1)、设置n为字符串s ('最新最热最好')的长度。设置m为字符串t ('最 新最热')的长度。并构造如下二维数组d,如下表1所示。表1【主权项】1. ,其特征在于,包括以下步骤: 步骤I、文档预处理,过滤掉文档中的噪音部分; 步骤II、通过计算数据的相似度,依据相似度的值对数据进行分类; 步骤III、计算每个分类中数据集合的有效部分数; 步骤IV、将所有分类中的有效部分数累加得出所有有效部分数。2. 根据权利要求1所述的统计表格有效内容的方法,其特征在于,所述过滤掉文档中 的噪音部分为,去除每笔数据中跟文档内容不相关的html标签,url连接地址,标点符号和 空格。3. 根据权利要求1所述的统计表格有效内容的方法,其特征在于,所述步骤II包括以 下步骤: i、 首先将所有数据加载到集合G中,然后按照文本大小对集合G进行倒序排序,也就 是将长度最长的排在第一位,长度最短的排在最后一位; ii、 取出集合G中一笔数据D,将其保存在分类集合Ll中,并将该数据D从集合G中删 除; iii、 计算数据D依次与集合G中的其他数据GD的相似度,当该相似度数值大于等于预 先设置好的文本相似度阀值时,则将GD也存入集合Ll中,并且保存D->GD的最小编辑数 Sl,并在集合G中删除数据⑶; iv、 重复步骤ii、iii的方式,形成分类集合L2,…,Ln。4. 根据权利要求3所述的统计表格有效内容的方法,其特征在于,所述计算数据的相 似度,包括如下步骤: 通过编辑距离算法比较两笔数据最小编辑次数; 通过所述编辑次数来计算本文档来自技高网...
一种统计表格有效内容的方法

【技术保护点】
一种统计表格有效内容的方法,其特征在于,包括以下步骤:步骤Ⅰ、文档预处理,过滤掉文档中的噪音部分;步骤Ⅱ、通过计算数据的相似度,依据相似度的值对数据进行分类;步骤Ⅲ、计算每个分类中数据集合的有效部分数;步骤Ⅳ、将所有分类中的有效部分数累加得出所有有效部分数。

【技术特征摘要】

【专利技术属性】
技术研发人员:江潮贺建华蒋汉华
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1