一种确定语料的来源的方法、设备及计算设备技术

技术编号:15691111 阅读:125 留言:0更新日期:2017-06-24 04:03
本发明专利技术公开了一种确定语料的来源的方法,适于在计算设备中执行,计算设备与语料样本存储设备相耦接,语料样本存储设备存储来自至少一个来源的语料样本,该方法包括步骤:从语料样本存储设备中获取至少一个来源的语料样本;对每个来源的语料样本,将该语料样本和要确定来源的语料组合在一起,并按照预定编码算法进行数据压缩,以生成一个压缩文件;计算每个压缩文件的压缩率;以及将所获得的至少一个压缩文件中、压缩率最高的一个压缩文件所对应的来源确定为要确定来源的语料的来源。本发明专利技术还公开一种确定确定语料的来源的设备及计算设备。

Method, apparatus and computing device for determining source of corpus

The invention discloses a method for determining the source of the corpus, suitable for implementation in a computing device, a computing device and a storage device is coupled with the sample data, data storage device for storing samples from at least one source of data samples, the method comprises the following steps: at least one source storage device from the corpus corpus samples for each sample; the source of corpus samples, the corpus samples and to determine the source of the data together, and according to a predetermined encoding data compression algorithm, to generate a compressed file; the compression ratio is calculated for each compressed file; and will receive at least one compressed file, a source compression rate the highest compressed file corresponding to the identified as to determine the source of the corpus. The invention also discloses a device and a computing device for determining the source of the corpus.

【技术实现步骤摘要】
一种确定语料的来源的方法、设备及计算设备
本专利技术涉及计算机
,尤其涉及一种确定语料的来源的方法、设备及计算设备。
技术介绍
随着网络通信技术的迅速发展、互联网应用的持续深化、所承载信息的日益丰富,互联网已成为人类社会重要的基础设施。截至2016年6月,中国网民规模达7.10亿,其中上半年新增网民2132万人,增长率为3.1%。互联网普及率达到51.7%,超过全球平均水平3.1个百分点。在这7.1亿的网民中,每天都会有大量的匿名语料(例如匿名言论和匿名恶意代码)产生,给社会的安定和谐以及群众的信息安全造成了巨大的影响。因此,确定这些语料的来源十分必要。通常地,可以通过查找发布语料的设备的IP地址和MAC地址来确定其来源。然而,此种方式成本较高,花费时间较长,同时难以查找到精心伪装过的语料,比如发布者利用公共场所的网络、再通过多层代理发布的匿名言论。因此,迫切需要一种更先进的更有效的确定语料的来源的方案。
技术实现思路
为此,本专利技术提供一种确定语料的来源的方案,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种确定语料的来源的方法,适于在计算设备本文档来自技高网...
一种确定语料的来源的方法、设备及计算设备

【技术保护点】
一种确定语料的来源的方法,适于在计算设备中执行,所述计算设备与语料样本存储设备相耦接,所述语料样本存储设备存储来自至少一个来源的语料样本,所述方法包括步骤:从语料样本存储设备中获取至少一个来源的语料样本;对每个来源的语料样本,将该语料样本和要确定来源的语料组合在一起,并按照预定编码算法进行数据压缩,以生成一个压缩文件;计算每个压缩文件的压缩率;以及将所获得的至少一个压缩文件中、压缩率最高的一个压缩文件所对应的来源确定为所述要确定来源的语料的来源。

【技术特征摘要】
1.一种确定语料的来源的方法,适于在计算设备中执行,所述计算设备与语料样本存储设备相耦接,所述语料样本存储设备存储来自至少一个来源的语料样本,所述方法包括步骤:从语料样本存储设备中获取至少一个来源的语料样本;对每个来源的语料样本,将该语料样本和要确定来源的语料组合在一起,并按照预定编码算法进行数据压缩,以生成一个压缩文件;计算每个压缩文件的压缩率;以及将所获得的至少一个压缩文件中、压缩率最高的一个压缩文件所对应的来源确定为所述要确定来源的语料的来源。2.如权利要求1所述的方法,其中,还包括步骤:在将该语料样本和要确定来源的语料组合在一起之后,对组合在一起的语料样本和要确定来源的语料按照词语或短句进行分割。3.如权利要求1所述的方法,其中,所述语料样本被按照词语或短句进行分割,所述方法还包括步骤:在将该语料样本和要确定来源的语料组合在一起之前,对所述要确定来源的语料按照与所述语料样本相同的方式进行分割。4.如权利要求1-3中任一项所述的方法,其中,计算压缩文件的压缩率的步骤还包括:根据压缩文件的大小、该压缩文件所包含的语料样本和要确定来源的语料的大小计算该压缩文件的压缩率。5.如权利要求4所述的方法,其中,计算压缩文件的压缩率公式如下:压缩率=1-压缩文件大小/(语料样本大小+要确定来源的语料大小)。6.一种确定语料的来源的设备,与语料样本存储设备相耦接,所述语料样本存储设备存储...

【专利技术属性】
技术研发人员:马东辰
申请(专利权)人:北京知道创宇信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1