一种基于文本数据的资料管理系统及方法技术方案

技术编号:21571521 阅读:34 留言:0更新日期:2019-07-10 15:24
本发明专利技术公开了一种基于文本数据的资料管理系统及方法,属于信息管理系统领域。资料管理系统包括数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块,然后数据解析模块对上传文件进行解析处理,得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术,利用数据检索模块对存储到数据库中的资料进行检索;利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明专利技术提高了工作效率,提升了对战略研究素材的管理能力。

A Data Management System and Method Based on Text Data

【技术实现步骤摘要】
一种基于文本数据的资料管理系统及方法
本专利技术属于信息管理系统领域,具体涉及一种基于文本数据的资料管理系统及方法。
技术介绍
随着互联网技术的不断发展与数字化时代的到来,基于文本数据的电子文档的数量在过去的十几年中激增,各行各业在日常业务工作中都积累了大量的文档素材及稿件。由于在工作中需要经常查询或调阅往期同类型同主题的文档作为参考,然而,面对数量庞大,主题多样,格式各异,且分散在不同的人员手中的材料文档,难以进行统一检索,且目前市面上现有的文档管理系统,只是简单的存储功能和展示,需要耗费大量人工成本进行归纳整理。因此,急需设计一套资料管理系统,能对文本材料进行自动归纳整理,对历史数据和新创作的素材进行统一的存储,并提供便捷的查询或调阅方式。数据挖掘技术和数据库系统的迅猛发展,为文本数据的自动分类、篇章结构提取、存储和检索提供了基础。
技术实现思路
本专利技术针对工作中产生的大量的各式各样的电子化文档,构建了一种基于文本数据的资料管理系统和方法,实现对素材的自动归档、分类、篇章结构提取、主题标注,并提供便捷的查询调阅方法。所述的资料管理系统具体包括:数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台。数据上传模块能实现压缩上传和普通上传;压缩上传利用断点技术,解决大批量文本同时上传,并可以拓展。普通上传支持指定分类体系上传。数据存储模块包括三种数据库:关系型数据库,全文索引搜索引擎数据库和文件服务器;其中关系型数据库采用SQLite集成框架,由底向上分别为:Connect:负责生成指定库的Connection;SQL构建层:负责将各种条件组装为SQLite支持的sql语句;Result层:负责将原生检索结果转换为实体;Manager层:提供对外操作接口。关系型数据库用于存储各种关系型数据,比如日志文件;全文索引搜索引擎数据库用于存储文件处理后的内容;文件服务器用于存储上传源文件。数据解析模块能实现文档解析,自动分类和内容抽取;其中内容抽取包括主题词标引,文本自动摘要和实体抽取。数据检索模块包括一般搜索和高级搜索,均采用相似性判断技术实现检索。数据可视化模块包括统计展示,搜索推荐和分类列表。统计展示采用数据列表形式;搜索推荐采用关键词云和热点分析;分类列表对文章详情进行展示。工具箱包括收藏夹,统计分析和资料导出管理。管理台包括系统管理,用户管理,任务管理,资料管理和日志管理。系统管理包括配置项管理和数据库管理;任务管理包括后台任务管理和Adapter管理;日志管理采用高并发操作。所述的资料管理方法步骤如下:步骤一、针对多种格式的文档,用户将本地文件利用数据上传模块上传至数据存储模块中进行存储。大批量文件断点上传的具体过程为:首先,批量文件上传时发送前置请求Q1,生成本批次文件上传的TokenKey;TokenKey生成规则为:TokenKey=MD5(FileName+UID+UUID);FileName为上传文件的文件名;UID为上传用户id;UUID为UUID算法生成值。使用MD5对所有参数的累加值进行散列计算,保证并发请求Key值唯一。然后,前端实现队列按照每个文件的顺序上传,携带key值发送前置请求Q2,持久化当前文件的基本信息,处理成功之后给前端返回成功标识;基本信息包括文件名称、文件大小、文件MD5值和文件缓存路径等信息。当后端接收文件切片后上传请求Qs,对文件进行合并,并对合并后文件mergeFile与原文件Fr进行一致性校验;最终确认请求,分以下两种情况:a)、在上传任意阶段,前端发送Qc取消请求,则终止并清空请求队列,对该tokenKey对应的批次数据进行清理,包含临时文件和Sql记录等,返回指定状态码,并在清理完成之后再次对临时数据进行清理,从而防止极限情况下垃圾数据的生成,并对tokenKey进行销毁;b)、在上传请求队列全部请求完成后,前端发送Qs确定请求,应用根据Q2记录的信息,对文件分发到FTP的生产目录,并销毁tokenKey;自此,完成大批量的文件断点上传过程。步骤二、数据解析模块对上传文件进行解析处理,得到上传文件的属性并存储到数据存储模块中。文档解析包括解析上传文件的格式和抽取上传文件的字段;自动分类是基于内容和基于规则相结合的方式对文档进行分类;针对基于内容的分类,首先对文本进行分词和词性标注;使用特征提取技术,抽取有用的文本特征,将提取的文本特征表示成文本向量并送入分类器,分类器计算文本向量与分类模板之间的距离,确定该文本的类别。具体为:首先获取文档中具有分类价值的词语作为分类知识,具体采用期望交叉熵作为特征评估函数对特征集中的每个特征独立计算评估值,然后进行排序,选取预定数目的最佳特征作为结果的特征子集,根据统计方法计算每个词对于分类的作用大小,选择其中分类作用大的作为分类知识,过滤掉无关特征词。当获取分类知识后,采用集成学习的算法联合SVM和KNN模型构造多分类器引擎,从而提高系统的分类性能。针对基于规则的分类:从文本中抽取关键词,计算关键词之间的逻辑关系和数量关系,采用统计算法,对文本、规则、类别之间进行精确处理,确定文本的类别。最后,将规则分类结果和内容分类结果进行合并,输出最后的类别。内容抽取包括:主题词标引、文本自动摘要和实体抽取。主题词标引包括实体标引、关键词标引、关键词组配和特殊符号标引。实体标引:根据实体库(人名库、地名库、机构名库)和TRS的人名地名机构名自动识别获得实体关键词,加入到候选关键词中;关键词标引:根据关键词库获得关键词,加入到候选关键词中;关键词组配:根据组配规则,对得到的关键词按句进行组配,将结果加入到候选关键词中;特殊符号词标引:出现在《》等特殊符号的词,将满足条件的加入到候选关键词中。文本自动摘要是将文本视为句子的线性序列,将句子视为词的线性序列。通常分以下几步进行:首先,分析文本的篇章结构,识别出段落、大小标题和句子等信息。然后,对文本进行分词和词性标注,根据语言知识统计词典,计算词在句子中的加权值。利用词权、篇章结构信息等特征计算句子的权值。对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。对文摘句进行片段去重分析,把重复的文摘句去掉。最后,对文摘句进行平滑处理,提高可读性。将所有文摘句按照它们在原文中的出现顺序输出。实体抽取基于规则与统计相结合的技术,从非结构的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式进行描述,并存入结构化数据库中。抽取的信息包括命名实体和术语等信息。其中命名实体包括:人名、组织机构名、地点、时间、Email、电话号码、身份证信息、银行帐号、护照信息、案件名称、QQ、MSN、Email、车牌号等。其中术语主要指领域词汇。新增加简历抽取功能:可以抽取基本信息、教育背景、工作经历、培训经历、求职意愿等五类信息。实体抽取的工作流程是:首先将输入文本分割为不同的块,将得到的文本块转换为句子序列,每个句子由词汇项(词或特定类型短语)及相关的属性(如词类)组成。然后,过滤掉不相关的句子,对过滤后的句子进行预分析:在词汇项序列中识别确定的结构,如名词短语、动词短语、并列结构等。最后分析文本,自动抽取出各种命名实体和术语。上传文件的属性本文档来自技高网...

【技术保护点】
1.一种基于文本数据的资料管理系统,其特征在于,具体包括:数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台;数据上传模块能实现压缩上传和普通上传;压缩上传利用断点技术,解决大批量文本同时上传;普通上传支持指定分类体系上传;数据存储模块包括三种数据库:关系型数据库,全文索引搜索引擎数据库和文件服务器;关系型数据库用于存储各种关系型数据;全文索引搜索引擎数据库用于存储文件处理后的内容;文件服务器用于存储上传源文件;数据解析模块能实现文档解析,自动分类和内容抽取;所述的内容抽取包括主题词标引,文本自动摘要和实体抽取;数据检索模块包括一般搜索和高级搜索,均采用相似性判断技术实现检索;数据可视化模块包括统计展示,搜索推荐和分类列表;统计展示采用数据列表形式;搜索推荐采用关键词云和热点分析;分类列表对文章详情进行展示。

【技术特征摘要】
1.一种基于文本数据的资料管理系统,其特征在于,具体包括:数据上传模块,数据存储模块,数据解析模块,数据检索模块,数据可视化模块,工具箱和管理台;数据上传模块能实现压缩上传和普通上传;压缩上传利用断点技术,解决大批量文本同时上传;普通上传支持指定分类体系上传;数据存储模块包括三种数据库:关系型数据库,全文索引搜索引擎数据库和文件服务器;关系型数据库用于存储各种关系型数据;全文索引搜索引擎数据库用于存储文件处理后的内容;文件服务器用于存储上传源文件;数据解析模块能实现文档解析,自动分类和内容抽取;所述的内容抽取包括主题词标引,文本自动摘要和实体抽取;数据检索模块包括一般搜索和高级搜索,均采用相似性判断技术实现检索;数据可视化模块包括统计展示,搜索推荐和分类列表;统计展示采用数据列表形式;搜索推荐采用关键词云和热点分析;分类列表对文章详情进行展示。2.如权利要求1所述的一种基于文本数据的资料管理系统,其特征在于,所述的关系型数据库采用SQLite集成框架,由底向上分别为:Connect:负责生成指定库的Connection;SQL构建层:负责将各种条件组装为SQLite支持的sql语句;Result层:负责将原生检索结果转换为实体;Manager层:提供对外操作接口。3.如权利要求1所述的一种基于文本数据的资料管理系统,其特征在于,所述的工具箱包括收藏夹,统计分析和资料导出管理;管理台包括系统管理,用户管理,任务管理,资料管理和日志管理;系统管理包括配置项管理和数据库管理;任务管理包括后台任务管理和Adapter管理;日志管理采用高并发操作。4.基于权利要求1所述的一种基于文本数据的资料管理系统的资料管理方法,其特征在于,步骤如下:步骤一、针对多种格式的文档,用户将本地文件利用数据上传模块上传至数据存储模块中进行存储;大批量文件断点上传的具体过程为:首先,批量文件上传时发送前置请求Q1,生成本批次文件上传的TokenKey;TokenKey生成规则为:TokenKey=MD5(FileName+UID+UUID);FileName为上传文件的文件名;UID为上传用户id;UUID为UUID算法生成值;使用MD5对所有参数的累加值进行散列计算,保证并发请求Key值唯一;然后,前端实现队列按照每个文件的顺序上传,携带key值发送前置请求Q2,持久化当前文件的基本信息,处理成功之后给前端返回成功标识;当后端接收文件切片后上传请求Qs,对文件进行合并,并对合并后文件mergeFile与原文件Fr进行一致性校验;最终确认请求,分以下两种情况:a)、在上传任意阶段,前端发送Qc取消请求,则终止并清空请求队列,对该tokenKey对应的批次数据进行清理,包含临时文件和Sql记录,返回指定状态码,并在清理完成之后再次对临时数据进行清理,从而防止极限情况下垃圾数据的生成,并对tokenKey进行销毁;b)、在上传请求队列全部请求完成后,前端发送Qs确定请求,应用根据Q2记录的信息,对文件分发到FTP的生产目录,并销毁tokenKey;自此,完成大批量的文件断点上传过程;步骤二、数据解析模块对上传文件进行解析处理,得到上传文件的属性并存储到数据存储模块中;数据解析模块的文档解析包括解析上传文件的格式和抽取上传文件的字段;数据解析模块的自动分类是基于内容和基于规则相结合的方式对文档进行分类;数据解析模块的内容抽取中主题词标引包括实体标引、关键词标引、关键词组配和特殊符号标引;数据解析模块的内容抽取中文本自动摘要是将文本视为句子的线性序列,将句子视为词的线性序列;通常分以下几步进行:首先,分析文本的篇章结构,识别出段落、大小标题和句子;然后,对文本进行分词和词性标注,根据语言知识统计词典,计算词在句子中的加权值;利用词权、篇章结构信息特征计算句子的权值;对原文中的所有句子按权值高低降序排列,权值最高的若干句子被...

【专利技术属性】
技术研发人员:王禄恒赵忠华付培国赵志云孙小宁李欣万欣欣胡芳闫长江乔春庚谷泽昊宁云龙马文史翔
申请(专利权)人:国家计算机网络与信息安全管理中心拓尔思信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1