一种基于文本数据的资料管理系统及方法技术方案

技术编号：21571521 阅读：34 留言：0更新日期：2019-07-10 15:24

本发明专利技术公开了一种基于文本数据的资料管理系统及方法，属于信息管理系统领域。资料管理系统包括数据上传模块，数据存储模块，数据解析模块，数据检索模块，数据可视化模块，工具箱和管理台。所述方法首先将本地文件利用数据上传模块上传至数据存储模块，然后数据解析模块对上传文件进行解析处理，得到上传文件的属性并进行存储。将解析后的资料内容及附件分别存储在数据存储模块中的全文索引搜索引擎数据库和关系型数据库中。最后采用相似性判断技术，利用数据检索模块对存储到数据库中的资料进行检索；利用数据可视化模块对所有资料内容按分类进行展示、文档操作功能和各种可视化展示。本发明专利技术提高了工作效率，提升了对战略研究素材的管理能力。

A Data Management System and Method Based on Text Data

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本数据的资料管理系统及方法
本专利技术属于信息管理系统领域，具体涉及一种基于文本数据的资料管理系统及方法。
技术介绍
随着互联网技术的不断发展与数字化时代的到来，基于文本数据的电子文档的数量在过去的十几年中激增，各行各业在日常业务工作中都积累了大量的文档素材及稿件。由于在工作中需要经常查询或调阅往期同类型同主题的文档作为参考，然而，面对数量庞大，主题多样，格式各异，且分散在不同的人员手中的材料文档，难以进行统一检索，且目前市面上现有的文档管理系统，只是简单的存储功能和展示，需要耗费大量人工成本进行归纳整理。因此，急需设计一套资料管理系统，能对文本材料进行自动归纳整理，对历史数据和新创作的素材进行统一的存储，并提供便捷的查询或调阅方式。数据挖掘技术和数据库系统的迅猛发展，为文本数据的自动分类、篇章结构提取、存储和检索提供了基础。
技术实现思路
本专利技术针对工作中产生的大量的各式各样的电子化文档，构建了一种基于文本数据的资料管理系统和方法，实现对素材的自动归档、分类、篇章结构提取、主题标注，并提供便捷的查询调阅方法。所述的资料管理系统具体包括：数据上传模块，数据存储模块，数据解析模块，数据检索模块，数据可视化模块，工具箱和管理台。数据上传模块能实现压缩上传和普通上传；压缩上传利用断点技术，解决大批量文本同时上传，并可以拓展。普通上传支持指定分类体系上传。数据存储模块包括三种数据库：关系型数据库，全文索引搜索引擎数据库和文件服务器；其中关系型数据库采用SQLite集成框架，由底向上分别为：Connect：负责生成指定库的Connection；SQL构建层...

【技术保护点】
1.一种基于文本数据的资料管理系统，其特征在于，具体包括：数据上传模块，数据存储模块，数据解析模块，数据检索模块，数据可视化模块，工具箱和管理台；数据上传模块能实现压缩上传和普通上传；压缩上传利用断点技术，解决大批量文本同时上传；普通上传支持指定分类体系上传；数据存储模块包括三种数据库：关系型数据库，全文索引搜索引擎数据库和文件服务器；关系型数据库用于存储各种关系型数据；全文索引搜索引擎数据库用于存储文件处理后的内容；文件服务器用于存储上传源文件；数据解析模块能实现文档解析，自动分类和内容抽取；所述的内容抽取包括主题词标引，文本自动摘要和实体抽取；数据检索模块包括一般搜索和高级搜索，均采用相似性判断技术实现检索；数据可视化模块包括统计展示，搜索推荐和分类列表；统计展示采用数据列表形式；搜索推荐采用关键词云和热点分析；分类列表对文章详情进行展示。

【技术特征摘要】
1.一种基于文本数据的资料管理系统，其特征在于，具体包括：数据上传模块，数据存储模块，数据解析模块，数据检索模块，数据可视化模块，工具箱和管理台；数据上传模块能实现压缩上传和普通上传；压缩上传利用断点技术，解决大批量文本同时上传；普通上传支持指定分类体系上传；数据存储模块包括三种数据库：关系型数据库，全文索引搜索引擎数据库和文件服务器；关系型数据库用于存储各种关系型数据；全文索引搜索引擎数据库用于存储文件处理后的内容；文件服务器用于存储上传源文件；数据解析模块能实现文档解析，自动分类和内容抽取；所述的内容抽取包括主题词标引，文本自动摘要和实体抽取；数据检索模块包括一般搜索和高级搜索，均采用相似性判断技术实现检索；数据可视化模块包括统计展示，搜索推荐和分类列表；统计展示采用数据列表形式；搜索推荐采用关键词云和热点分析；分类列表对文章详情进行展示。2.如权利要求1所述的一种基于文本数据的资料管理系统，其特征在于，所述的关系型数据库采用SQLite集成框架，由底向上分别为：Connect：负责生成指定库的Connection；SQL构建层：负责将各种条件组装为SQLite支持的sql语句；Result层：负责将原生检索结果转换为实体；Manager层：提供对外操作接口。3.如权利要求1所述的一种基于文本数据的资料管理系统，其特征在于，所述的工具箱包括收藏夹，统计分析和资料导出管理；管理台包括系统管理，用户管理，任务管理，资料管理和日志管理；系统管理包括配置项管理和数据库管理；任务管理包括后台任务管理和Adapter管理；日志管理采用高并发操作。4.基于权利要求1所述的一种基于文本数据的资料管理系统的资料管理方法，其特征在于，步骤如下：步骤一、针对多种格式的文档，用户将本地文件利用数据上传模块上传至数据存储模块中进行存储；大批量文件断点上传的具体过程为：首先，批量文件上传时发送前置请求Q1，生成本批次文件上传的TokenKey；TokenKey生成规则为：TokenKey＝MD5(FileName+UID+UUID)；FileName为上传文件的文件名；UID为上传用户id；UUID为UUID算法生成值；使用MD5对所有参数的累加值进行散列计算，保证并发请求Key值唯一；然后，前端实现队列按照每个文件的顺序上传，携带key值发送前置请求Q2，持久化当前文件的基本信息，处理成功之后给前端返回成功标识；当后端接收文件切片后上传请求Qs，对文件进行合并，并对合并后文件mergeFile与原文件Fr进行一致性校验；最终确认请求，分以下两种情况：a)、在上传任意阶段，前端发送Qc取消请求，则终止并清空请求队列，对该tokenKey对应的批次数据进行清理，包含临时文件和Sql记录，返回指定状态码，并在清理完成之后再次对临时数据进行清理，从而防止极限情况下垃圾数据的生成，并对tokenKey进行销毁；b)、在上传请求队列全部请求完成后，前端发送Qs确定请求，应用根据Q2记录的信息，对文件分发到FTP的生产目录，并销毁tokenKey；自此，完成大批量的文件断点上传过程；步骤二、数据解析模块对上传文件进行解析处理，得到上传文件的属性并存储到数据存储模块中；数据解析模块的文档解析包括解析上传文件的格式和抽取上传文件的字段；数据解析模块的自动分类是基于内容和基于规则相结合的方式对文档进行分类；数据解析模块的内容抽取中主题词标引包括实体标引、关键词标引、关键词组配和特殊符号标引；数据解析模块的内容抽取中文本自动摘要是将文本视为句子的线性序列，将句子视为词的线性序列；通常分以下几步进行：首先，分析文本的篇章结构，识别出段落、大小标题和句子；然后，对文本进行分词和词性标注，根据语言知识统计词典，计算词在句子中的加权值；利用词权、篇章结构信息特征计算句子的权值；对原文中的所有句子按权值高低降序排列，权值最高的若干句子被...

【专利技术属性】
技术研发人员：王禄恒，赵忠华，付培国，赵志云，孙小宁，李欣，万欣欣，胡芳，闫长江，乔春庚，谷泽昊，宁云龙，马文，史翔，
申请(专利权)人：国家计算机网络与信息安全管理中心，拓尔思信息技术股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人