一种基于校园题库的数字信息检测方法及检测系统技术方案

技术编号:38672611 阅读:8 留言:0更新日期:2023-09-02 22:49
本发明专利技术涉及数字信息检测技术领域,具体地说,涉及一种基于校园题库的数字信息检测方法及检测系统。包括采集校园题库的数字信息,通过形式识别算法判断数字信息的形式类型,输出判断结果,将多个单一类型组成融合类型,并分割融合类型成多个单一类型,并采用多源数字信息检测算法依次分析单一类型,筛选出多种形式的敏感信息,将多种单一类型的数字信息均转换为文本,根据分析结果对应的敏感信息关键字定位至文本位置查看,比对文本、音频和图片对应的敏感信息的文本特征,输出相似度高的敏感信息作为分析结果。本发明专利技术实现多种形式的数字信息融合检测,提高准确性,且有利于用户快速、直观的查询敏感信息对应的数字信息,提高便捷性。性。性。

【技术实现步骤摘要】
一种基于校园题库的数字信息检测方法及检测系统


[0001]本专利技术涉及数字信息检测
,具体地说,涉及一种基于校园题库的数字信息检测方法及检测系统。

技术介绍

[0002]目前学生的教育与成绩逐渐成为家庭和社会的关注重点,挑选教学条件优质的学校成为了家长与孩子择校的关键考察因素,随着数字技术的发展,越来越多的院校开始建设自己的数字化系统,数字化教学系统的优劣,成为了新一轮各大院校比拼教学资源的前沿阵地,其中,针对与校园题库的数字信息检测为广泛关注,现有技术中校园题库数字信息检测系统的原理是通过计算机技术对文本、音频、图片等不同形式的数字信息进行自动识别、分析和处理,但是,针对不同形式的数字信息进行检测需要切换不同的系统进行处理,操作不便,同时在进行数字信息检测时,有些数字信息是多种形式融合的,若仅进行单一功能的系统进行检测,影响检测的准确性,并且,不同形式的数字信息不方便进行转换,使用户在查看数字信息时,若形式为音频则不方便直观的定位内容,若形式为图片则不方便用户快速复制,鉴于此,我们提出一种基于校园题库的数字信息检测方法及检测系统。

技术实现思路

[0003]本专利技术的目的在于提供基于校园题库的数字信息检测方法及检测系统,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述技术问题的解决,本专利技术的目的之一在于,提供一种基于校园题库的数字信息检测方法,包括如下步骤:S1、采集校园题库的数字信息;S2、通过形式识别算法判断数字信息的形式类型,输出判断结果,形式类型包括单一类型和融合类型,单一类型包括文本、音频和图片的形式类型;S3、若形式类型为单一类型,采集数字信息其他的单一类型,将多个单一类型组成融合类型,并分割融合类型成多个单一类型,并采用多源数字信息检测算法依次分析分割后的多个单一类型,筛选出多种形式的敏感信息;S4、将多种单一类型的数字信息均转换为文本,根据分析结果对应的敏感信息关键字定位至文本位置查看;S5、在接收到多种形式的敏感信息后,比对文本、音频和图片对应的敏感信息的文本特征,输出相似度高的敏感信息作为分析结果。
[0005]优选的,所述S1中采集校园题库的数字信息采用网络爬虫技术,包括以下步骤:构建爬虫程序,确定要爬取的目标网页,设置爬虫的起始点和相关参数,使用HTTP请求库发起请求,获取网页的HTML内容,使用HTML解析库解析网页内容,提取校园题库的数字信息作为目标数字信息,据目标数字信息在页面的特定位置或特定的HTML标签,使用CSS选择器来定位目标元素,从解析后的网页内容中提取目标数字信息,可以使用字符串处理
和正则表达式等方法进行提取和筛选,将提取到的数字信息存储到合适的数据结构中。
[0006]优选的,所述形式识别算法包括以下步骤:构建形式识别训练集,训练集包括字符形式、声波形式和像素形式,其中,字符形式表示文本形式类型,声波形式表示音频形式类型,像素形式表示图片形式类型;将数字信息输入到训练集中,输出情况如下:情况一、识别出数字信息与字符形式特征匹配,则输出文本形式类型的单一类型;情况二、识别出数字信息与声波形式特征匹配,则输出音频形式类型的单一类型;情况三、识别出数字信息与像素形式特征匹配,则输出图片形式类型的单一类型;情况四、识别出数字信息与字符形式、声波形式和像素形式中两个及以上的特征匹配,则输出融合类型。
[0007]优选的,所述多源数字信息检测算法包括文本信息检测技术、音频信息检测技术和图片信息检测技术,其中:所述文本信息检测技术包括以下步骤:建立敏感词库:构建包含敏感词汇和短语的词典,以便快速识别出敏感信息;采用中文分词技术对文本进行分词,并通过实体识别技术实体识别,利用统计和机器学习算法生成相关的语言模型;根据已标注数据训练模型,利用监督学习算法,对每个文本进行分类,自动判断当前文本中是否存在敏感信息,并输出文本形式类型对应数字信息的敏感信息。
[0008]优选的,所述音频信息检测技术包括以下步骤:利用音频转文本技术将音频转换为文本数据,再利用文本信息检测技术对文本数据进行处理和分析,输出音频形式类型对应数字信息的敏感信息。
[0009]优选的,所述图片信息检测技术包括以下步骤:对图片进行噪声去除、二值化和形态学处理的预处理;采用轮廓特征、形状特征和纹理特征提取数字信息的特征;根据特征基于深度学习的卷积神经网络模型进行数字信息的识别,输出敏感信息。
[0010]优选的,所述多源数字信息检测算法还包括信息加密覆盖技术,所述信息加密覆盖技术用于在识别出的敏感信息位置上,采用数字信息覆盖的方法,以保护用户隐私。
[0011]优选的,所述S4中将多种单一类型的数字信息均转换为文本包括将音频转换为文本和将图片转换为文本,其中:将音频转换为文本采用音频转文本技术;将图片转换为文本采用光学字符识别算法,包括以下步骤:输入图片形式类型的数字信息,对图片进行预处理,将图像中的字符区域分割出来,获得单个字符的图像片段,对每个字符图像片段进行特征提取,根据特征,使用分类器对每个字符进行分类,将其识别为对应的字符或符号,输出识别结果,即从图像中提取的文本信息。
[0012]优选的,所述S5中比对文本、音频和图片对应的敏感信息的文本特征采用神经网络训练算法,包括以下步骤:构建神经网络模型,将文本、音频和图片对应的敏感信息的文本特征数据输入神经网络模型,计算文本特征之间的相似度,若相似度大于等于预设的阈值点,则输出对应的
敏感信息作为分析结果,若相似度小于预设的阈值点,则输出提醒信号,实现在相似度高时,表示无论是通过图片、文本还是音频的形式类型表达的敏感信息内容相似,则敏感信息更准确,若相似度达不到阈值点,则可能是识别错误,或者不对应校园题库的用户,可以发出提醒信号提醒老师进行检查,提高准确性。
[0013]本专利技术的目的之二在于,提供了基于校园题库的数字信息检测系统,包括上述中任意一项所述的基于校园题库的数字信息检测方法,包括包括校园题库采集单元、形式类型判断单元、融合切换单元、文本统一转换单元和对比分析单元;所述校园题库采集单元用于采集校园题库的数字信息;所述形式类型判断单元用于通过形式识别算法判断数字信息的形式类型,输出判断结果;所述融合切换单元用于在形式类型为单一类型时,采集数字信息其他的单一类型,将多个单一类型组成融合类型,并分割融合类型成多个单一类型,并采用多源数字信息检测算法依次分析分割后的多个单一类型,筛选出多种形式的敏感信息;所述文本统一转换单元用于将多种单一类型的数字信息均转换为文本,根据分析结果对应的敏感信息关键字定位至文本位置查看;所述对比分析单元用于在接收到多种形式的敏感信息后,比对文本、音频和图片对应的敏感信息的文本特征,输出相似度高的敏感信息作为分析结果。
[0014]与现有技术相比,本专利技术的有益效果:1、通过对采集的校园题库中的数字信息进行形式类型判断,根据判断结果确定当前数字信息是文本、音频和图片的单一类型,还是有两个及以上的单一类型形成的融合类型,若为单一类型,可以采用多源数字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于校园题库的数字信息检测方法,其特征在于:包括如下步骤:S1、采集校园题库的数字信息;S2、通过形式识别算法判断数字信息的形式类型,输出判断结果,形式类型包括单一类型和融合类型,单一类型包括文本、音频和图片的形式类型;S3、若形式类型为单一类型,采集数字信息其他的单一类型,将多个单一类型组成融合类型,并分割融合类型成多个单一类型,并采用多源数字信息检测算法依次分析分割后的多个单一类型,筛选出多种形式的敏感信息;S4、将多种单一类型的数字信息均转换为文本,根据分析结果对应的敏感信息关键字定位至文本位置查看;S5、在接收到多种形式的敏感信息后,比对文本、音频和图片对应的敏感信息的文本特征,输出相似度高的敏感信息作为分析结果。2.根据权利要求1所述的基于校园题库的数字信息检测方法,其特征在于:所述S1中采集校园题库的数字信息采用网络爬虫技术,包括以下步骤:构建爬虫程序,确定要爬取的目标网页,设置爬虫的起始点和相关参数,使用HTTP请求库发起请求,获取网页的HTML内容,使用HTML解析库解析网页内容,提取校园题库的数字信息作为目标数字信息,据目标数字信息在页面的特定位置,使用CSS选择器来定位目标元素,从解析后的网页内容中提取目标数字信息。3.根据权利要求2所述的基于校园题库的数字信息检测方法,其特征在于:所述形式识别算法包括以下步骤:构建形式识别训练集,训练集包括字符形式、声波形式和像素形式,其中,字符形式表示文本形式类型,声波形式表示音频形式类型,像素形式表示图片形式类型;将数字信息输入到训练集中,输出情况如下:情况一、识别出数字信息与字符形式特征匹配,则输出文本形式类型的单一类型;情况二、识别出数字信息与声波形式特征匹配,则输出音频形式类型的单一类型;情况三、识别出数字信息与像素形式特征匹配,则输出图片形式类型的单一类型;情况四、识别出数字信息与字符形式、声波形式和像素形式中两个及以上的特征匹配,则输出融合类型。4.根据权利要求1所述的基于校园题库的数字信息检测方法,其特征在于:所述多源数字信息检测算法包括文本信息检测技术、音频信息检测技术和图片信息检测技术,其中:所述文本信息检测技术包括以下步骤:建立敏感词库:构建包含敏感词汇和短语的词典,以便快速识别出敏感信息;采用中文分词技术对文本进行分词,并通过实体识别技术实体识别,利用统计和机器学习算法生成相关的语言模型;根据已标注数据训练模型,利用监督学习算法,对每个文本进行分类,自动判断当前文本中是否存在敏感信息,并输出文本形式类型对应数字信息的敏感信息。5.根据权利要求4所述的基于校园题库的数字信息检测方法,其特征在于:所述音频信息检测技术包括以下步骤:利用音频转文本技术将音频转换为文...

【专利技术属性】
技术研发人员:庞华魏书桓魏文淼
申请(专利权)人:陕西淼华智脑科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1