一种统计表格有效内容的方法技术

技术编号：11685503 阅读：50 留言：0更新日期：2015-07-06 17:34

本发明专利技术涉及计算机的数据挖掘应用技术领域，尤其涉及到电子数据表格的内容统计。本发明专利技术自动的过滤掉文档中的噪音部分，然后计算两笔数据的相似度，依据相似度的值对数据进行分类，然后依次统计每个分类中数据集合的有效部分，最终在将所有分类中的数据汇总累加得出最后的总体有效部分数据。本发明专利技术自动避免掉重复内容的重复计算，对有效部分的统计准确率高；同时无需人工处理，统计效率高。值得推广应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机的数据挖掘应用
，尤其涉及到电子数据表格的内容统计。
技术介绍
目前统计电子数据表格文档内容，都是采用excel自带的统计功能，但这样统计出来的数据仅仅是excel文档中所有内容的总和，而这些内容并不全是有效内容，里面充满部分的html代码，url连接地址，标点符号等噪音部分，以及相同列下不同数据之间重复的部分。因此，按照现有统计方式统计出的电子数据表格内容数量远远大于文档中有效的部分，无法适应人们对表格中有效内容的统计需求。例如，当此excel是需要作为翻译的原文件，这些噪音部分是不需要作为翻译的字数统计，而且相同列下不同数据之间重复的部分也不需要在作为翻译的字数统计，那么要完成此项工作，需要人为的去判断和剔除噪音部分和去除同一列数据相同重复的部分，当excel数据越来越多的时候，人工干预成本也会越来越高，效率也会越来越低，出错几率会越来越高，最终统计出的数值准确率也会越来越低。
技术实现思路
本专利技术所要解决的技术问题是提供，克服现有技术存在的无效内容统计的缺陷。为解决上述技术问题，本专利技术提供，包括以下步骤：步骤I、文档预处理，过滤掉文档中的噪音部分；步骤II、通过计算数据的相似度，依据相似度的值对数据进行分类；步骤III、计算每个分类中数据集合的有效部分数；步骤IV、将所有分类中的有效部分数累加得出最后有效部分数。所述过滤掉文档中的噪音部分为，去除每笔数据中跟文档内容不相关的html标签，url连接地址，标点符号，空格。优选的，所述步骤II包括以下步骤： i、首先...
一种统计表格有效内容的方法

【技术保护点】
一种统计表格有效内容的方法，其特征在于，包括以下步骤：步骤Ⅰ、文档预处理，过滤掉文档中的噪音部分；步骤Ⅱ、通过计算数据的相似度，依据相似度的值对数据进行分类；步骤Ⅲ、计算每个分类中数据集合的有效部分数；步骤Ⅳ、将所有分类中的有效部分数累加得出所有有效部分数。

【技术特征摘要】

【专利技术属性】
技术研发人员：江潮，贺建华，蒋汉华，
申请(专利权)人：语联网武汉信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人