一种文档分析方法技术

技术编号:21034743 阅读:38 留言:0更新日期:2019-05-04 05:35
本发明专利技术公开了一种文档分析方法,通过文档用户以专题来表达并提交他的兴趣→去除虚词→文本分词→文档分析→代入公式→对互联网上公开文档的收集实现的。本发明专利技术实现了文档的过滤与分类,并能够较好地实现互联网上公开文档信息的收集、处理与管理问题,解决了用户的兴趣表达方式与计算机对用户兴趣的理解与识别之间存在相当的距离的技术问题。

A Document Analysis Method

【技术实现步骤摘要】
一种文档分析方法
本专利技术涉及一种文档收集处理和检索系统,其包括文档收集模块、文档处理模块、检索模块以及文档库。
技术介绍
随着时代与技术的发展,在报刊、图书、地图、声像资料等众多公开文档来源当中,互联网已经成了进行公开文档收集的一个重要渠道。但是,Internet是海量信源,而且是一个开放、分布的信息空间,它本身所固有的三个特点已经明显阻碍了人们对Internet上信息资源的充分使用:1、Internet上可利用的信息是无组织的,多种结构形式的,并且分布在全世界的各个站点上;2、资料和服务的类型以及数量每天都在大量增加,使信息可利用性和可靠性也在不断地变化;3、由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常是模糊的,有时甚至是错误的。如何确定文档搜集的方向,并找到一种高效的收集方式,也就是在互联网上如何找、以及怎样找,是进行公开文档收集的一个急需解决的问题。目前所提供的信息检索方式,如搜索引擎,并不能从根本上解决这方面的问题。其原因有以下几点:1、在检索过程中,会有大量不相关的信息被提供给用户,产生“信息过载”的现象;2、几乎所有的搜索引擎都不能对互联网的所有信息进行索引,所涵盖的只是其中的一部分,因此不能保证文档的查全率;3、搜索引擎在寻找信息过程中,不能对有限制的站点进行破解与索引。因此,这些站点的信息会被遗漏;4、搜索引擎在检索信息时,不能保证信息的时效性和权威性,这对进行文档收集来说,也是一个非常严重、甚至是致命的弱点。
技术实现思路
为了解决现有技术中存在的问题,本专利技术公开了一种文档分析方法,实现了文档的过滤与分类,并能够较好地实现互联网上公开文档信息的收集、处理与管理问题,解决了用户的兴趣表达方式与计算机对用户兴趣的理解与识别之间存在相当的距离的技术问题。本专利技术是通过如下技术方案实现的:本专利技术公开了一种文档分析方法,是通过如下步骤实现:(1)文档用户以专题来表达并提交他的兴趣;(2)去除虚词,为了突出文档所要表达的语义,将词汇中的虚词去除,以获取不包含虚词的文档词汇;(3)文本分词,采用现有基于词典的分词方法对个文档进行分词,获取文档所包含的词汇;(4)文档分析,设置所述专题为T、关键词为K1,K2,……Kn,所述关键词K1,K2,……Kn的字符长度分别为l1,l2,……ln,文档D中出现K1,K2,……Kn,的频率分别为f1,f2,……,fn,文档D的字符数为L;(5)令所述关键词Ki的权重wi为:(6)对互联网上公开文档的收集,通过设计主动式专题搜索引擎来完成,该引擎以知识库为基础,由用户定制兴趣专题、信息收集的方向与内容以及网址列表和下载信息的格式进行进一步的浏览、检索与查询。具体实施方式下面将结合本专利技术实施例中,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一种文档分析方法,是通过如下步骤实现:(1)文档用户以专题来表达并提交他的兴趣;(2)去除虚词,为了突出文档所要表达的语义,将词汇中的虚词去除,以获取不包含虚词的文档词汇;(3)文本分词,采用现有基于词典的分词方法对个文档进行分词,获取文档所包含的词汇;(4)文档分析,设置所述专题为T、关键词为K1,K2,……Kn,所述关键词K1,K2,……Kn的字符长度分别为l1,l2,……ln,文档D中出现K1,K2,……Kn,的频率分别为f1,f2,……,fn,文档D的字符数为L;(5)令所述关键词Ki的权重wi为:(6)对互联网上公开文档的收集,通过设计主动式专题搜索引擎来完成,该引擎以知识库为基础,由用户定制兴趣专题、信息收集的方向与内容以及网址列表和下载信息的格式进行进一步的浏览、检索与查询。以上所述仅为本专利技术的较佳实施例而已,并不用以限制本专利技术,凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种文档分析方法,其特征在于,所述文档分析是通过如下步骤实现:(1)文档用户以专题来表达并提交他的兴趣;(2)去除虚词,为了突出文档所要表达的语义,将词汇中的虚词去除,以获取不包含虚词的文档词汇;(3)文本分词,采用现有基于词典的分词方法对个文档进行分词,获取文档所包含的词汇;(4)文档分析,设置所述专题为T、关键词为K1,K2,……Kn,所述关键词K1,K2,……Kn的字符长度分别为l1,l2,……ln,文档D中出现K1,K2,……Kn,的频率分别为f1,f2,……,fn,文档D的字符数为L;(5)令所述关键词Ki的权重wi为:

【技术特征摘要】
1.一种文档分析方法,其特征在于,所述文档分析是通过如下步骤实现:(1)文档用户以专题来表达并提交他的兴趣;(2)去除虚词,为了突出文档所要表达的语义,将词汇中的虚词去除,以获取不包含虚词的文档词汇;(3)文本分词,采用现有基于词典的分词方法对个文档进行分词,获取文档所包含的词汇;(4)文档分析,设置所述专题为T、关键词为K1,K2,……Kn,所述关键词K1,...

【专利技术属性】
技术研发人员:付立伟秦小红闫伟韩长青李治俞刘禾雨钟明
申请(专利权)人:长治市科技情报研究所
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1