当前位置: 首页 > 专利查询>王欣专利>正文

基于机器学习的电子文档分析系统及方法技术方案

技术编号:18553572 阅读:32 留言:0更新日期:2018-07-28 10:44
本发明专利技术公开一种基于机器学习的电子文档分析系统及方法,利用文档特征描述模块对所提交的电子文档结构进行描述,若描述大于一个的电子文档结构,机器学习算模块判别最符合于当前电子文档的描述类型,再进行结构解析;机器学习算法模块依据电子文档结构解析结果和目标信息内容特征进行模型训练和信息提取,分析者对内容特征描述或机器学习算法提取的目标信息进行修改,机器学习算法模块将对修改内容特征对应的模型重新进行训练;分析结果审核模块将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者。本发明专利技术有效解决机器学习算法文档数量有限和特征动态变化情况下的学习问题,能够让算法真正辅助文档分析,提升分析效率。

【技术实现步骤摘要】
基于机器学习的电子文档分析系统及方法
本专利技术涉及计算机信息分析
,具体涉及一种基于机器学习的电子文档分析系统及方法。
技术介绍
电子文档是由文字或文字和图表组成的信息资料,例如电子病历、影像报告和法律文书等。现有的电子文档分析技术多为文档结构化技术。以医学领域的电子病历结构化技术为例,病历结构化多是利用固定的规则和模板,结合机器学习算法,一次性提取病历中尽可能多的信息;然后进行存储和索引,建立类似搜索引擎的应用,方便医生检索和查询。这种结构化技术在从文档提取信息时,存在准确率低、工作量大、灵活性差和与实际分析流程脱节的问题。由于人类文字表达方式多样化的特点,人工定义的规则和模板很难涵盖一种信息所有的表达方式,利用规则或模板提取的信息难免存在遗漏或错误,若单纯依赖计算机算法进行分析,模型训练和信息提取准确率无法保证。为了保证数据分析的准确性,需要提供病历结构化服务的一方投入大量人力进行模板规则完善和错误纠正,而且在类似医学研究等对数据质量要求很高的场景,接受服务的一方也无法避免投入人力进行审核和查漏。这样无形中增加了文档模型训练和信息提取的人力成本。对于电子文档信息特点动态变化的分析,用户所需信息会因分析目的不同而千差万别,而且在分析过程中,所需信息也会随着分析的深入发生动态改变;固定的规则和模板是不能将所有信息描述和收集完整的,无法满足用户个性化的需求,缺乏灵活性。单纯依靠文档结构化技术,不结合用户分析文档的整个流程进行优化,是无法真正改善文档分析用户的工作环境和提升文档分析效率的。以病历结构化和医生进行科研为例,现有的病历结构化及搜索引擎服务,多是由独立于医院的公司提供,和医生科研的过程是分离的。为了建立搜索引擎服务,公司投入大量人力去进行信息核对,纠正计算机算法的错误;医生为了提取个性化的文档信息,也需要投入时间和精力进行病历阅读。由于这种模型训练和信息提取服务未和医生科研深度结合,导致其无法及时更新病历中医生所需的动态的文档信息,同时也耗费了多余的人力在信息核对上,未体现出文档结构化技术的优势。文档结构化技术通常首先定义固定的规则,建立模板或知识库,对文档的段落结构和句子/段落中的语义信息进行固定的描述。这类规则、模板或知识库多是文档结构化技术提供方自行构建,文档分析用户只能看到解析的结果,而无法根据自己的需求自定义规则、模板或知识库。目前尚未有针对用户设计的,供用户使用的文档特征描述语言,来便捷、灵活的进行文档段落结构和语义信息的描述。以病历结构化和医生科研为例,由于不同背景的医生在所需信息的理解和描述上有差别,很多信息描述无法在选定研究题目之前给定;而且对于医生想要的信息还会随着医生对问题的理解加深而发生变化,这些都是固有的规则和知识库无法表达的。用户提取的文档信息,多是词汇、数字、概念或是对是否满足特定描述的判定。在文档结构化的过程中,为了提取上述信息,通常会用到机器学习算法建立模型进行模型训练和信息提取。目前的技术有传统的贝叶斯模型和深度学习模型两大类。这两类模型在实际文档分析过程中,均易受到文档数量有限和用户所需特征多变的影响,降低准确率和实用性。为了使模型达到较高的准确率,通常需要对固定的特征,标注大量文档进行模型训练;但是实际过程中多数用户的电子文档都是分批次提供,每次数量有限,针对单个用户的数据,很难进行复杂模型的训练。以病历结构化和医生科研为例,每位医生的课题都会针对特定类型的病历,病历数量难以确定;而且医生需要的信息也会随着课题不同或者研究的深入发生变化,单独针对一位医生的课题,难以提前训练模型进行文档模型训练和信息提取。目前缺乏一个通用的电子文档分析自动化系统供文档分析者使用,覆盖其文档分析的整个过程,并且能够做到多人协作交流和与机器学习算法深度融合。以医生科研为例,目前医生科研多靠医生和其学生进行电子病历手工整理和分析,一旦所需的文档信息发生变化,或者电子病历文档分批获取,在不同人员之间进行协调和修改将变得繁琐。在同一个医院内部,尽管医生研究的问题不同,但是其所需的电子文档中的结构和患者信息有很多是相同或者类似的;在对一个医生的文档进行分析时,如果机器学习算法能够有效利用和当前文档类似的、所需信息相近的其他医生的数据和分析结果,无疑能够提升机器学习算法的准确性。因此亟需一种新的技术方案来解决上述问题。
技术实现思路
本专利技术的目的在于提供一种基于机器学习的电子文档分析系统及方法,能够方便文档分析者协作分析和交流;系统内部集成机器学习算法,通过综合利用多个分析者多次分析的文档和结果,有效解决机器学习算法在文档数量有限和特征动态变化情况下的学习问题;能够让算法真正的辅助文档分析,提升分析效率。为实现上述目的,本专利技术的技术方案为:基于机器学习的电子文档分析系统,所述分析系统包括:用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。若经分析者审核对机器学习算法提取结果进行调整修改,机器学习算法模块将重新训练数据迁移模型。如上所述的基于机器学习的电子文档分析系统,所述分析系统还包括分析结果清洗模块,所述分析结果清洗模块用于在电子文档分析者提取每个电子文档的目标信息之后,对所有信息进行合并、归类及对重复值、缺失值处理并生成处理表格。如上所述的基于机器学习的电子文档分析系统,所述分析系统还包括分析结果统计模块,所述分析结果统计模块用于对电子文档内容特征的分析结果进行频率计算、交叉表、相关性统计分析和展示,帮助电子文档分析者剖析电子文档分析结果形成结论。如上所述的基于机器学习的电子文档分析系统,所述文档提交模块提交的电子文档信息格式为.txt、.word或.xlsx,所述分析系统还包括格式转换模块,所述格式转换模块用于将文档提交模块提交的电子文档信息格式进行统一转换。如上所述的基于机器学习的电子文档分析系统,所述文档特征描述模块包含电子文档结构特征描述子模块和内容特征描述子模块,所述电子文档结构特征描述子模块用于描述电子文档的段落结构,将电子文档的文字和图片内容划分单元,组成一个树状结构;所述内容特征描述子模块用于描述电子文档分析者根据所需目标信息在电子文档中的所处单元,以及目标信息在词汇、语句和语法内容上的特点指定目标信息的样式。本专利技术还提供一种基于机器学习的电子文档分析方法,所述分析方法采用上述的分析系统实现,所述分析方法包括以下步骤:步骤一:电子文档分析者通过用户管理模块进本文档来自技高网
...

【技术保护点】
1.基于机器学习的电子文档分析系统,其特征在于,所述分析系统包括:用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。

【技术特征摘要】
1.基于机器学习的电子文档分析系统,其特征在于,所述分析系统包括:用户管理模块,用于为使用分析系统的电子文档分析者创建账号信息,通过注册登录服务进入分析系统;任务管理模块,用于电子文档分析者创建分析任务以及邀请他人参与任务协作进行电子文档分析;文档提交模块,用于将电子文档分析者搜集的电子文档提交到分析系统;文档特征描述模块,用于电子文档分析者通过分析系统提供的电子文档特征描述语言对所提交的电子文档结构和待提取的目标信息进行特征描述;机器学习算法模块,用于根据电子文档分析者描述的电子文档结构特征解析电子文档并依据内容特征进行模型构建,同时根据构建模型进行文字和图像模型训练和信息提取,对于图像信息的处理过程中同时记录文字和图像的位置对应关系;分析结果审核模块,用于将机器学习算法模块的模型训练和信息提取结果呈现给电子文档分析者,供电子文档分析者查阅目标信息在所分析电子文档中的上下文和预测结果,并对预测结果进行纠正和备注。2.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述分析系统还包括分析结果清洗模块,所述分析结果清洗模块用于在电子文档分析者提取每个电子文档的目标信息之后,对所有信息进行合并、归类及对重复值、缺失值处理并生成处理表格。3.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述分析系统还包括分析结果统计模块,所述分析结果统计模块用于对电子文档内容特征的分析结果进行频率计算、交叉表、相关性统计分析和展示,帮助电子文档分析者剖析电子文档分析结果形成结论。4.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述文档提交模块提交的电子文档信息格式为.txt.word或.xlsx,所述分析系统还包括格式转换模块,所述格式转换模块用于将文档提交模块提交的电子文档信息格式进行统一转换。5.根据权利要求1所述的基于机器学习的电子文档分析系统,其特征在于,所述文档特征描述模块包含电子文档结构特征描述子模块和内容特征描述子模块,所述电子文档结构特征描述子模块用于描述电子文档的段落结构,将电子文档的文字和图片内容划分单元,组成一个树状结构;所述内容特征描述子模块用于描述电子文档分析者根据所需目标信息在电子文档中的所处单元,以及目标信息在词汇、语句和语法内容上的特点指定目标信息的样式。6.基于机器学习的电子文档分析方法,所述分析方法采用如权利要求1至5任一项所述的分析系统实现,其特征在于,所述分析方法包括以下步骤:步骤一:电子文档分析者通过用户管理模块进入分析系统,并利用文档提交模块提交待分析的电子文档,机器学习算法模块提取电子文档的文字和图像信息进行存储,同时记录文字和图像的位置对应关系;步骤二:利用文档特征描述模块对所提交...

【专利技术属性】
技术研发人员:王欣杨煜清施举红
申请(专利权)人:王欣杨煜清施举红
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1