【技术实现步骤摘要】
一种文档分析方法
本专利技术涉及一种文档收集处理和检索系统,其包括文档收集模块、文档处理模块、检索模块以及文档库。
技术介绍
随着时代与技术的发展,在报刊、图书、地图、声像资料等众多公开文档来源当中,互联网已经成了进行公开文档收集的一个重要渠道。但是,Internet是海量信源,而且是一个开放、分布的信息空间,它本身所固有的三个特点已经明显阻碍了人们对Internet上信息资源的充分使用:1、Internet上可利用的信息是无组织的,多种结构形式的,并且分布在全世界的各个站点上;2、资料和服务的类型以及数量每天都在大量增加,使信息可利用性和可靠性也在不断地变化;3、由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常是模糊的,有时甚至是错误的。如何确定文档搜集的方向,并找到一种高效的收集方式,也就是在互联网上如何找、以及怎样找,是进行公开文档收集的一个急需解决的问题。目前所提供的信息检索方式,如搜索引擎,并不能从根本上解决这方面的问题。其原因有以下几点:1、在检索过程中,会有大量不相关的信息被提供给用户,产生“信息过载”的现象;2、几乎所有的搜索引擎都不能对互联网的所有信息进行索引,所涵盖的只是其中的一部分,因此不能保证文档的查全率;3、搜索引擎在寻找信息过程中,不能对有限制的站点进行破解与索引。因此,这些站点的信息会被遗漏;4、搜索引擎在检索信息时,不能保证信息的时效性和权威性,这对进行文档收集来说,也是一个非常严重、甚至是致命的弱点。
技术实现思路
为了解决现有技术中存在的问题,本专利技术公开了一种文档分析方法,实现了文档的过滤与分类,并能够较好 ...
【技术保护点】
1.一种文档分析方法,其特征在于,所述文档分析是通过如下步骤实现:(1)文档用户以专题来表达并提交他的兴趣;(2)去除虚词,为了突出文档所要表达的语义,将词汇中的虚词去除,以获取不包含虚词的文档词汇;(3)文本分词,采用现有基于词典的分词方法对个文档进行分词,获取文档所包含的词汇;(4)文档分析,设置所述专题为T、关键词为K1,K2,……Kn,所述关键词K1,K2,……Kn的字符长度分别为l1,l2,……ln,文档D中出现K1,K2,……Kn,的频率分别为f1,f2,……,fn,文档D的字符数为L;(5)令所述关键词Ki的权重wi为:
【技术特征摘要】
1.一种文档分析方法,其特征在于,所述文档分析是通过如下步骤实现:(1)文档用户以专题来表达并提交他的兴趣;(2)去除虚词,为了突出文档所要表达的语义,将词汇中的虚词去除,以获取不包含虚词的文档词汇;(3)文本分词,采用现有基于词典的分词方法对个文档进行分词,获取文档所包含的词汇;(4)文档分析,设置所述专题为T、关键词为K1,K2,……Kn,所述关键词K1,...
【专利技术属性】
技术研发人员:付立伟,秦小红,闫伟,韩长青,李治俞,刘禾雨,钟明,
申请(专利权)人:长治市科技情报研究所,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。