当前位置: 首页 > 专利查询>尚禹辰专利>正文

一种数据库自动分类提取技术制造技术

技术编号:35264667 阅读:28 留言:0更新日期:2022-10-19 10:26
本发明专利技术涉及数据分类提取技术领域,且公开了一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,如下步骤:S1、用户通过计算机上传数据至所述数据库内,所述数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征;S3、将多元特征绑定对应数据;S4、储存数据;S5、用户通过特征检索对应数据,本发明专利技术通过对数据识别分类,提取数据中多元特征,进行绑定储存,方便后续人员进行检索,可快速找到数据材料,减少数据搜寻时间,提高工作效果。提高工作效果。提高工作效果。

【技术实现步骤摘要】
一种数据库自动分类提取技术


[0001]本专利技术涉及数据分类提取
,具体为一种数据库自动分类提取技术。

技术介绍

[0002]数据库可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。
[0003]所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间构成。而现在用户上传数据库数据后,无法自动对上传数据进行提取特征并分类保存,使得人员在提取数据库数据时,无法通过多元特征进行检索,无法快速找到对应数据材料,浪费搜寻时间,工作效率较低。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种数据库自动分类提取技术,解决了上述背景中提出的问题。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供如下技术方案:一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,如下步骤:
[0008]S1、用户通过计算机上传数据至所述数据库内,所述数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;
[0009]S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征
[0010](1)、文字数据识别:统计字数并划分区间;识别文本内容语种;记录内容标题关键词;<br/>[0011](2)、图像数据识别:识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;
[0012](3)、影音数据识别:读取视频与音频数据时长并划分区间,提取并记录标题关键词。
[0013]S3、将多元特征绑定对应数据
[0014](2)、将对应的字数区间、文字语种、标题关键词与文本数据绑定;
[0015](2)、将对应的主体颜色、种类、文字数据与图像数据绑定;
[0016](3)、将对应的时长区间、标题关键词与影音数据绑定。
[0017]S4、储存数据;
[0018]S5、用户通过特征检索对应数据。
[0019]优选的,图像算法识别图像内文字,包括如下步骤:
[0020]第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;
[0021]第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;
[0022]第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。
[0023]优选的,图像算法识别图像种类,种类类型为建筑、风景、人像、动植物等种类。
[0024](三)有益效果
[0025]本专利技术提供了一种数据库自动分类提取技术,具备以下有益效果:
[0026]本专利技术使用过程中,通过对数据识别分类,提取数据中多元特征,进行绑定储存,方便后续人员通过多元特征进行检索,可快速找到对应数据材料,减少数据搜寻时间,提高工作效果。
附图说明
[0027]图1为本专利技术的原理示意图;
[0028]图2为本专利技术的流程示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]如图1

2所示,本专利技术提供一种技术方案:一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,如下步骤:
[0031]S1、用户通过计算机上传数据至数据库内,数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;
[0032]S2、分别通过文字识别模块、图像识别模块、影音识别模块进行识别提取多元特征
[0033](1)、文字数据识别:统计字数并划分区间;识别文本内容语种;记录内容标题关键词;
[0034](2)、图像数据识别:识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;
[0035](3)、影音数据识别:读取视频与音频数据时长并划分区间,提取并记录标题关键词。
[0036]S3、将多元特征绑定对应数据
[0037](1)、将对应的字数区间、文字语种、标题关键词与文本数据绑定;
[0038](2)、将对应的主体颜色、种类、文字数据与图像数据绑定;
[0039](3)、将对应的时长区间、标题关键词与影音数据绑定。
[0040]S4、储存数据;
[0041]S5、用户通过特征检索对应数据。
[0042]进一步的,图像算法识别图像内文字,包括如下步骤:
[0043]第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;
[0044]第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;
[0045]第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取,现有的带有文字的图像图片大多包括以下特点:图像中包含色彩较为丰富的文字与背景;图像背景可能由一些具有较多灰度变化的复杂图案构成;图像中文字的分辨率一般不高,这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti

Aliased)而造成的;图像中文字布局的随意性较大,而且文字与背景的层次关系可能很复杂,这类图像为包含复杂背景及文字的图像,以上的图像需要通过阈值分割、形态学处理、连通域标记来提取文字。
[0046]进一步的,图像算法识别图像种类,种类类型为建筑、风景、人像、动植物等种类,方便人员分类查找。
[0047]综上可得,本专利技术的工作流程:用户通过计算机上传数据至数据库内,数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;再分别通过文字识别模块、图像识别模块、影音识别模块进行识别提取数据中的多元特征:文字数据识别,统计字数并划分区间;识别文本内容语种;记录内容标题关键词;图像数据识别,识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;影音数据识别,读取视频与音频数据时长并划分区间,提取并记录标题关键词;将多元特征绑定对应数据,储存数据;用户通过需要的数据中的多元特征来进行检索对应数据,可以更快减小搜索范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,其特征在于,如下步骤:S1、用户通过计算机上传数据至所述数据库内,所述数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征(1)、文字数据识别:统计字数并划分区间;识别文本内容语种;记录内容标题关键词;(2)、图像数据识别:识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;(3)、影音数据识别:读取视频与音频数据时长并划分区间,提取并记录标题关键词;S3、将多元特征绑定对应数据(1)、将对应的字数区间、文字语种、标题关键词与文本数据绑定;(2)、将对应...

【专利技术属性】
技术研发人员:尚禹辰李涵宇陈昱涛
申请(专利权)人:尚禹辰
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1