System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 安全信息平台的高效全文检索系统技术方案_技高网
当前位置: 首页 > 专利查询>塔里木大学专利>正文

安全信息平台的高效全文检索系统技术方案

技术编号:41223555 阅读:4 留言:0更新日期:2024-05-09 23:42
本发明专利技术属于基于内容的语音检索技术领域,尤其为安全信息平台的高效全文检索系统,客户端发布检索命令,根据语音识别服务器内的元数据定位访问的存储服务器;存储服务器均记录有该存储服务器在最优性能下的极限检索性能;存储服务器预估检索命令占用的检索性能,当检索性能<该存储服务器剩余检索性能时,存储服务器才会接收该检索命令;语音识别服务器判断需要调用的分布式存储服务器,优先调用剩余检索性能充足的存储服务器,并在剩余检索性能不足的存储服务器进入排队等待程序。本发明专利技术中,通过将语音信息转化的文本进行分布式存储,将信息保存在分布式存储服务器的节点上,再对每一个存储服务器的语音文本建立索引,提高了全文检索的效率。

【技术实现步骤摘要】

本专利技术属于基于内容的语音检索,具体涉及安全信息平台的高效全文检索系统


技术介绍

1、网络空间语音信息安全平台是指用于保障网络空间中语音信息的安全的一种综合性平台。它涵盖了语音通信、语音信息存储和语音数据传输等多个方面,旨在防止语音信息的泄露、篡改、伪造和未经授权访问等安全威胁。

2、网络空间语音信息安全平台通常包括这几个主要功能:语音加密与解密:通过采用加密算法对语音信息进行加密,确保语音在传输和存储过程中不被未经授权的人使用或获取,同时,提供相应的解密机制,确保合法用户能够正常获取和使用语音信息;语音鉴权与身份验证:通过实施相应的鉴别和认证机制,对语音信息的发送者和接收者进行身份验证,确保只有授权用户才能发送和接收语音信息;语音溯源与防伪造:通过技术手段对语音信息进行溯源,记录并追踪语音信息的来源和传输路径,以便在发生安全事件时进行溯责和追查。同时,采用防伪造技术,避免语音信息被篡改或伪造;语音内容安全检测:对语音信息中的内容进行实时监测和分析,防止涉及违法、不良或恶意信息的传播,通过使用语音内容过滤、敏感词检测等技术手段,及时发现和阻止不符合规定的语音信息;语音存储与备份:提供安全可靠的语音信息存储和备份机制,确保语音信息在存储过程中不会丢失或损坏,并能够快速恢复和还原;语音漏洞修补:及时跟踪和修复语音信息安全领域的漏洞,保证系统在面对新的安全威胁时能够及时做出应对措施。

3、在上述功能中,无论是用于语音鉴权与身份验证,还是语音溯源,或是语音内容安全检测,亦或是语音存储与备份中,为了保证鉴别、验证效率,都需要将语音信息转化为文本数据,通过配套的检索机制,对语音转化后的文本数据进行高效筛分和验证,从而分析出可靠的逻辑信息。

4、在现有的检索机制中,由于网络空间的原始语音信息庞杂繁复,转化后的语音文本更是数据量极大,实现对语音文本中有效信息的高效全文检索难度较大,语音鉴别鉴定时间较长,给网络空间语音信息的安全维护工作开展,带来了较大的难度。


技术实现思路

1、为解决现有技术中存在的上述问题,本专利技术提供了安全信息平台的高效全文检索系统,旨在解决现有技术中对语音转化文本的全文检索较为低效的技术问题。

2、为实现上述目的,本专利技术提供如下技术方案:安全信息平台的高效全文检索系统,该全文检索系统用于对规定范围内的网络空间语音信息安全平台的语音数据进行高效检索,所述语音数据通过语音识别模型进行识别,转化为语音文本,通过全文检索系统进行全文检索,该全文检索系统在结构配置上包括客户端、语音识别服务器和分布式存储服务器;

3、所述客户端用于发布检索命令,具有用户交互页面;

4、所述语音识别服务器具有数据采集模块,在规定范围内的网络空间语音信息安全平台,采集语音数据,所述语音识别服务器搭载有语音识别模型;

5、其中,所述语音识别模型包括可选的基础版语音识别模型和高级版语音识别模型,所述基础版语音识别模型采用传统的声学模型,包括高斯混合模型和隐马尔可夫模型,基础版语音识别模型识别速度较快,可满足语音文本的基本理解,语音识别较为高效,而所述高级版语音识别模型采用神经网络模型,包括循环神经网络、长短时记忆网络和转换器模型,高级版语音识别模型能够更好地捕捉语音信号中的时间依赖性和上下文信息,识别更加精准,在进行语音文本的检索中,也不容易因语音识别同音字、漏字、多字等原因,遗漏关键词,或降低关键词的频次,使得检索的结果不准确的情况发生;

6、通过语音识别模型进行所述语音数据的识别转化,所述语音识别服务器存储经过语音识别模型识别转化后的语音文本的元数据;

7、其中,所述元数据设置为语音文本的描述数据,包括语音文本的名称、大小、创建时间、修改时间、访问权限以及在对应服务器的分布位置;

8、所述分布式存储服务器设置为多台存储服务器,将语音识别服务器采集到的语音数据进行分布式存储,所述分布式存储服务器存储有经过语音识别模型识别转化后的语音文本,每台所述存储服务器均存储有该存储服务器内语音文本的索引;

9、所述客户端发布检索命令,根据语音识别服务器内的元数据定位访问的存储服务器,并在对应的存储服务器内根据索引定位语音文本的位置,再将检索结果返回至客户端;

10、每台所述存储服务器均记录有该存储服务器在最优性能下的极限检索性能(所述存储服务器在最优性能下的极限检索性能根据该存储服务器在压力测试后量化的吞吐量和响应时间加权得出,所述存储服务器在最优性能下的极限检索性能=该存储服务器在压力测试后量化的吞吐量和响应时间加权的极限性能-预留性能资源),并将该极限检索性能设置为该存储服务器被多个客户端同时访问的最大接收命令指数;

11、所述存储服务器接收一条检索命令前,预估该检索命令需要占用的该存储服务器的检索性能,当该检索性能<该存储服务器剩余检索性能(所述存储服务器剩余检索性能=存储服务器在最优性能下的极限检索性能-当前运行的检索命令占用的检索能力)时,存储服务器才会接收该检索命令;

12、其中,所述存储服务器的剩余检索性能不足时,根据该存储服务器正在运行的所有检索命令的预计剩余检索时间作为下一个检索命令的等待时间,即返回至客户端的预计等待时间,且该存储服务器的所有检索命令的排队等待序列,根据检索命令的等待时间逆序排列;

13、所述语音识别服务器根据检索关键词和元数据的对照,判断需要调用的所有所述分布式存储服务器的编号,优先调用剩余检索性能充足的存储服务器,并在剩余检索性能不足的存储服务器进入排队等待程序,并返回预计等待时间至客户端。

14、为了保证本检索系统的安全性,以及特殊命令检索的高效性,所述客户端的检索命令设置有多级检索权限,每一级权限均需对应授权,高级的检索权限在分布式存储服务器中的检索优先级更高,拥有高级优先级的检索命令在排队等待序列中的顺序更靠前;其中,所述客户端的检索命令的最高级权限下,该检索命令的优先级最高,打断当前存储服务器正在进行的检索命令,运行该最高权限检索命令。

15、为了防止单个检索结果过于复杂,或个别存储服务器出现功能故障,造成检索时间过长,导致其他所有检索命令陷入排队的情况发生,该系统还具有时钟模块,所述时钟模块预设最长检索时间,记录检索命令在单个存储服务器内的检索时间大于最长检索时间时,系统打断该存储服务器下的检索命令,并返回客户端“检索失败”。

16、与现有技术相比,本专利技术的有益效果是:

17、1、现有的检索机制中,由于网络空间的原始语音信息庞杂繁复,转化后的语音文本更是数据量极大,实现对语音文本中有效信息的高效全文检索难度较大,语音鉴别鉴定时间较长,给网络空间语音信息的安全维护工作开展,带来了较大的难度,而本专利技术中,通过将语音信息转化的文本进行分布式存储,将信息保存在若干分布式存储服务器的节点上,再对每一个存储服务器的语音文本建立索引,提高了全文检索的效率。

18、2、本专利技术本文档来自技高网...

【技术保护点】

1.安全信息平台的高效全文检索系统,该全文检索系统用于对规定范围内的网络空间语音信息安全平台的语音数据进行高效检索,所述语音数据通过语音识别模型进行识别,转化为语音文本,通过全文检索系统进行全文检索,其特征在于:该全文检索系统在结构配置上包括客户端、语音识别服务器和分布式存储服务器;

2.根据权利要求1所述的全文检索系统,其特征在于:所述存储服务器的剩余检索性能不足时,根据该存储服务器正在运行的所有检索命令的预计剩余检索时间作为下一个检索命令的等待时间,即返回至客户端的预计等待时间,且该存储服务器的所有检索命令的排队等待序列,根据检索命令的等待时间逆序排列。

3.根据权利要求1所述的全文检索系统,其特征在于:所述元数据设置为语音文本的描述数据,包括语音文本的名称、大小、创建时间、修改时间、访问权限以及在对应服务器的分布位置。

4.根据权利要求1所述的全文检索系统,其特征在于:所述存储服务器在最优性能下的极限检索性能根据该存储服务器在压力测试后量化的吞吐量和响应时间加权得出。

5.根据权利要求4所述的全文检索系统,其特征在于:所述存储服务器在最优性能下的极限检索性能=该存储服务器在压力测试后量化的吞吐量和响应时间加权的极限性能-预留性能资源。

6.根据权利要求5所述的全文检索系统,其特征在于:所述存储服务器剩余检索性能=存储服务器在最优性能下的极限检索性能-当前运行的检索命令占用的检索能力。

7.根据权利要求2所述的全文检索系统,其特征在于:所述客户端的检索命令设置有多级检索权限,每一级权限均需对应授权,高级的检索权限在分布式存储服务器中的检索优先级更高,拥有高级优先级的检索命令在排队等待序列中的顺序更靠前。

8.根据权利要求7所述的全文检索系统,其特征在于:所述客户端的检索命令的最高级权限下,该检索命令的优先级最高,打断当前存储服务器正在进行的检索命令,运行该最高权限检索命令。

9.根据权利要求8所述的全文检索系统,其特征在于:该系统还具有时钟模块,所述时钟模块预设最长检索时间,记录检索命令在单个存储服务器内的检索时间大于最长检索时间时,系统打断该存储服务器下的检索命令,并返回客户端“检索失败”。

10.根据权利要求1所述的全文检索系统,其特征在于:所述语音识别模型包括可选的基础版语音识别模型和高级版语音识别模型,所述基础版语音识别模型采用传统的声学模型,包括高斯混合模型和隐马尔可夫模型,所述高级版语音识别模型采用神经网络模型,包括循环神经网络、长短时记忆网络和转换器模型。

...

【技术特征摘要】

1.安全信息平台的高效全文检索系统,该全文检索系统用于对规定范围内的网络空间语音信息安全平台的语音数据进行高效检索,所述语音数据通过语音识别模型进行识别,转化为语音文本,通过全文检索系统进行全文检索,其特征在于:该全文检索系统在结构配置上包括客户端、语音识别服务器和分布式存储服务器;

2.根据权利要求1所述的全文检索系统,其特征在于:所述存储服务器的剩余检索性能不足时,根据该存储服务器正在运行的所有检索命令的预计剩余检索时间作为下一个检索命令的等待时间,即返回至客户端的预计等待时间,且该存储服务器的所有检索命令的排队等待序列,根据检索命令的等待时间逆序排列。

3.根据权利要求1所述的全文检索系统,其特征在于:所述元数据设置为语音文本的描述数据,包括语音文本的名称、大小、创建时间、修改时间、访问权限以及在对应服务器的分布位置。

4.根据权利要求1所述的全文检索系统,其特征在于:所述存储服务器在最优性能下的极限检索性能根据该存储服务器在压力测试后量化的吞吐量和响应时间加权得出。

5.根据权利要求4所述的全文检索系统,其特征在于:所述存储服务器在最优性能下的极限检索性能=该存储服务器在压力测试后量化的吞吐量和响应时间加权的极限性能-预留性能资源。

【专利技术属性】
技术研发人员:周保平王建夏韩天红高贤强
申请(专利权)人:塔里木大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1