【技术实现步骤摘要】
基于机器学习的电子文档分析系统及方法
本专利技术涉及计算机信息分析
,具体涉及一种基于机器学习的电子文档分析系统及方法。
技术介绍
电子文档是由文字或文字和图表组成的信息资料,例如电子病历、影像报告和法律文书等。现有的电子文档分析技术多为文档结构化技术。以医学领域的电子病历结构化技术为例,病历结构化多是利用固定的规则和模板,结合机器学习算法,一次性提取病历中尽可能多的信息;然后进行存储和索引,建立类似搜索引擎的应用,方便医生检索和查询。这种结构化技术在从文档提取信息时,存在准确率低、工作量大、灵活性差和与实际分析流程脱节的问题。由于人类文字表达方式多样化的特点,人工定义的规则和模板很难涵盖一种信息所有的表达方式,利用规则或模板提取的信息难免存在遗漏或错误,若单纯依赖计算机算法进行分析,模型训练和信息提取准确率无法保证。为了保证数据分析的准确性,需要提供病历结构化服务的一方投入大量人力进行模板规则完善和错误纠正,而且在类似医学研究等对数据质量要求很高的场景,接受服务的一方也无法避免投入人力进行审核和查漏。这样无形中增加了文档模型训练和信息提取的人力成本。对于电子文档信息特点动态变化的分析,用户所需信息会因分析目的不同而千差万别,而且在分析过程中,所需信息也会随着分析的深入发生动态改变;固定的规则和模板是不能将所有信息描述和收集完整的,无法满足用户个性化的需求,缺乏灵活性。单纯依靠文档结构化技术,不结合用户分析文档的整个流程进行优化,是无法真正改善文档分析用户的工作环境和提升文档分析效率的。以病历结构化和医生进行科研为例,现有的病历结构化及搜索引擎服务, ...
【技术保护点】
1.基于机器学习的电子文档分析系统,其特征在于,所述分析系统包括:用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。
【技术特征摘要】
1.基于机器学习的电子文档分析系统,其特征在于,所述分析系统包括:用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。2.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述分析系统还包括分析结果清洗模块,所述分析结果清洗模块用于在电子文档分析者提取每个电子文档的目标信息之后,对所有信息进行合并、归类及对重复值、缺失值处理并生成处理表格。3.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述分析系统还包括分析结果统计模块,所述分析结果统计模块用于对电子文档内容特征的分析结果进行频率计算、交叉表、相关性统计分析和展示,帮助电子文档分析者剖析电子文档分析结果形成结论。4.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述文档提交模块提交的电子文档信息格式为.txt.word或.xlsx,所述分析系统还包括格式转换模块,所述格式转换模块用于将文档提交模块提交的电子文档信息格式进行统一转换。5.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述文档特征描述模块包含电子文档结构特征描述子模块和内容特征描述子模块,所述电子文档结构特征描述子模块用于描述电子文档的段落结构,将电子文档的文字和图片内容划分单元,组成一个树状结构;所述内容特征描述子模块用于描述电子文档分析者根据所需目标信息在电子文档中的所处单元,以及目标信息在词汇、语句和语法内容上的特点指定目标信息的样式。6.基于机器学习的电子文档分析方法,所述分析方法采用如权利要求1至5任一项所述的分析系统实现,其特征在于,所述分析方法包括以下步骤:步骤一:电子文档分析者通过用户管理模块进入分析系统,并利用文档提交模块提交待分析的电子文档,机器学习算法模块提取电子文档的文字和图像信息进行存储,同时记录文字和图像的位置对应关系;步骤二:利用文档特征描述模块对所提交...
【专利技术属性】
技术研发人员:王欣,杨煜清,施举红,
申请(专利权)人:王欣,杨煜清,施举红,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。