一种文档分析方法技术

技术编号：21034743 阅读：54 留言：0更新日期：2019-05-04 05:35

本发明专利技术公开了一种文档分析方法，通过文档用户以专题来表达并提交他的兴趣→去除虚词→文本分词→文档分析→代入公式→对互联网上公开文档的收集实现的。本发明专利技术实现了文档的过滤与分类，并能够较好地实现互联网上公开文档信息的收集、处理与管理问题，解决了用户的兴趣表达方式与计算机对用户兴趣的理解与识别之间存在相当的距离的技术问题。

A Document Analysis Method

全部详细技术资料下载

【技术实现步骤摘要】
一种文档分析方法
本专利技术涉及一种文档收集处理和检索系统，其包括文档收集模块、文档处理模块、检索模块以及文档库。
技术介绍
随着时代与技术的发展，在报刊、图书、地图、声像资料等众多公开文档来源当中，互联网已经成了进行公开文档收集的一个重要渠道。但是，Internet是海量信源，而且是一个开放、分布的信息空间，它本身所固有的三个特点已经明显阻碍了人们对Internet上信息资源的充分使用:1、Internet上可利用的信息是无组织的，多种结构形式的，并且分布在全世界的各个站点上；2、资料和服务的类型以及数量每天都在大量增加，使信息可利用性和可靠性也在不断地变化；3、由于信息源的动态性以及潜在的有用信息的更新和保存问题，信息常常是模糊的，有时甚至是错误的。如何确定文档搜集的方向，并找到一种高效的收集方式，也就是在互联网上如何找、以及怎样找，是进行公开文档收集的一个急需解决的问题。目前所提供的信息检索方式，如搜索引擎，并不能从根本上解决这方面的问题。其原因有以下几点:1、在检索过程中，会有大量不相关的信息被提供给用户，产生“信息过载”的现象；2、几乎所有的搜索引擎都不...

【技术保护点】
1.一种文档分析方法，其特征在于，所述文档分析是通过如下步骤实现：（1）文档用户以专题来表达并提交他的兴趣；（2）去除虚词，为了突出文档所要表达的语义，将词汇中的虚词去除，以获取不包含虚词的文档词汇；（3）文本分词，采用现有基于词典的分词方法对个文档进行分词，获取文档所包含的词汇；（4）文档分析，设置所述专题为T、关键词为K1，K2，……Kn，所述关键词K1，K2，……Kn的字符长度分别为l1，l2，……ln，文档D中出现K1，K2，……Kn，的频率分别为f1，f2，……，fn，文档D的字符数为L；（5）令所述关键词Ki的权重wi为：

【技术特征摘要】
1.一种文档分析方法，其特征在于，所述文档分析是通过如下步骤实现：（1）文档用户以专题来表达并提交他的兴趣；（2）去除虚词，为了突出文档所要表达的语义，将词汇中的虚词去除，以获取不包含虚词的文档词汇；（3）文本分词，采用现有基于词典的分词方法对个文档进行分词，获取文档所包含的词汇；（4）文档分析，设置所述专题为T、关键词为K1，K2，……Kn，所述关键词K1，...

【专利技术属性】
技术研发人员：付立伟，秦小红，闫伟，韩长青，李治俞，刘禾雨，钟明，
申请(专利权)人：长治市科技情报研究所，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人