【技术实现步骤摘要】
一种多类型文档多模态内容的整合提取方法
[0001]本专利技术涉及自然语言处理
,特别涉及一种多类型文档多模态内容的整合提取方法。
技术介绍
[0002]随着企业和组织对数字化信息的不断增加和处理需求的不断增加,实现自动化的文档内容提取变得越来越重要。在构建文档内容提取系统的过程中,通常首先需要确定文档的类型,去针对不同的非结构化和半结构化的文档数据进行提取和识别。由于在实际生产中文件类型多种多样,所识别内容范围也没有统一标准,如何面向特定的生产环境,使用一种多类型、多模态的文档内容提取和检测方法来满足用户的需要成为了计算机智能技术应用于真实生产环境领域的一大挑战。
[0003]文档内容提取的历史可以追溯到20世纪60年代,当时的研究者开始研究如何从文本中提取出有用的信息。然而,在早期的研究中,文本提取技术比较简单,效率低下,而且需要大量的人力和时间来处理。随着计算机技术和信息处理技术的不断发展,文档内容提取技术也得到了很大的改进。20世纪80年代,基于规则和模板的自动化文档提取脚本开始出现。这些脚本可以通过手 ...
【技术保护点】
【技术特征摘要】
1.一种多类型文档多模态内容的整合提取方法,其特征在于,包括步骤:获得检索关键词和待检索的目标文档;判断目标文档的类型;根据关键词进行检索,得到目标文档的多模态检索信息。2.根据权利要求1所述的一种多类型文档多模态内容的整合提取方法,其特征在于,所述目标文档的类型包括DOC/DOCX文件、EXCEL文件、PDF文件、TXT文件,所述多模态内容包括文本、表格、图片框图。3.根据权利要求2所述的一种多类型文档多模态内容的整合提取方法,其特征在于,所述根据关键词进行检索,得到目标文档的多模态检索信息,具体为:DOC/DOCX文件内容提取方法;EXCEL文件内容提取方法;PDF文件内容提取方法;TXT文件内容提取方法。4.根据权利要求3所述的一种多类型文档多模态内容的整合提取方法,其特征在于,所述DOC/DOCX文件内容提取方法,具体为:用Aspose将目标DOC/DOCX文件转成HTML格式;对文本和表格,使用基于HTML的关键词模糊匹配算法提取;对图片,根据框图标题是否命中检索关键词来提取;对被提取的图片,若它是WMF/EMF/VISIO格式,则用LibreOffice将图片转换为PNG格式,再用python Pillow包去除多余空白;将图片的二进制数据转为base64并返回;文本、表格、图片信息匹配整合,返回所有提取内容。5.根据权利要求4所述的一种多类型文档多模态内容的整合提取方法,其特征在于,所述对文本和表格,使用基于HTML的关键词模糊匹配算法提取,具体包括:检索HTML标签内容;基于莱文斯坦距离进行关键词的模糊匹配,计算匹配度;使用快速排序算法,按匹配度由高到低给关键词匹配的结果排序,并返回。6.根据权利要求3所述的一种多类型文档多模态内容的整...
【专利技术属性】
技术研发人员:阎德劲,赵晓虎,陈凤,黄金元,白建亮,雷文强,刘法,向元新,黎乾隆,郑大安,袁焦,张郭勇,奂锐,吴雪松,
申请(专利权)人:中国电子科技集团公司第十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。