本文公开了用于自动阻止可听的敏感数据的系统、方法和计算机程序产品。传入的音频将被转换为文本,并分析敏感信息。基于对来自资源的敏感信息的检测,阻止接收者接收可听的所述敏感信息。
Automatically block sensitive data contained in the audio stream
【技术实现步骤摘要】
【国外来华专利技术】自动阻止音频流中包含的敏感数据
本公开涉及语音识别,并且更具体而言,涉及音频流中包含的敏感数据的自动阻止。
技术介绍
自动语音识别是用于将已经由计算机或系统接收的诸如口语之类的音频信号转换为文本的过程。通过使用语音到文本引擎来实现此转换,该引擎使用通过计算机程序实现的算法来自动基于音频信号生成文本序列。当客户呼叫呼叫中心时,他们有时会提供个人信息,例如信用卡号或社会保险号。问题是,呼叫者如何知道他们向其提供信息的人是可信赖的?大多数呼叫中心确实有由员工签署的协议,并对恶意员工采取法律措施。大多数呼叫中心都有主管和摄像头。但是,这些都是昂贵且不可靠的解决方案,远非万无一失。此外,它们在采取事实措施之后(例如,如果员工被抓住,则员工必须违反规则才能被抓住。)因此,在本领域中需要解决前述问题。
技术实现思路
从第一方面来看,本专利技术提供了一种用于阻止音频流中的敏感信息的系统,该系统包括:至少一个处理器;以及至少一个存储组件;具有一个或多个口语的音频流;敏感词表;至少一个语音到文本引擎,被配置为将所述音频流解码为文本;敏感词检测引擎,被配置为通过文本串中的单词与所述敏感词表进行匹配,分析所述文本中指示敏感信息的所述文本串;和阻挡引擎,其被配置为当从所述音频流中检测到匹配于所述敏感词列表的单词时阻止所述音频流。从另一方面来看,本专利技术提供了一种用于阻止音频流中的敏感信息的方法,该方法包括:从音频馈送接收所述音频流,所述音频流具有口语;通过至少一个语音到文本引擎将所述音频流转换为文本;由敏感词检测引擎分析依据匹配所述文本串中的单词到所述敏感词表来分析所述文本以得到指示敏感信息的文本串;并由阻止引擎阻止所述音频流的至少一部分,其中所述被阻止的音频流的一部分是被所述检测到的敏感词的至少一部分。从另一方面来看,本专利技术提供了一种用于阻止音频流中的敏感信息的计算机程序产品,该计算机程序产品包括可由处理电路读取并存储供处理电路执行的指令的计算机可读存储介质。用于执行用于执行本专利技术的步骤的方法。从另一方面来看,本专利技术提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,该计算机程序包括当所述程序在计算机上运行时用于执行所述程序的软件代码部分以实现本专利技术的步骤。各个实施例针对一种用于选择自动阻止可听的敏感数据的方法。这使用一个或多个语音转文本引擎解码一部分语音数据,并分析所述文本中的关键词,以指示敏感数据即将被披露或正在被披露。一旦识别出一个或多个所述关键词,系统就可以阻止听众听到敏感信息。在一个实施例中,该方法、计算机程序产品和系统包括从音频馈送接收音频流,所述音频流具有口语,并利用至少一个语音到文本引擎将所述音频流转换为文本,由敏感词检测引擎分析依据匹配所述文本串中的单词到所述敏感词表来分析所述文本以得到指示敏感信息的文本串;并由阻止引擎阻止所述音频流的至少一部分,其中所述被阻止的音频流的一部分是被所述被检测到的敏感词的至少一部分,并通过所述阻止引擎阻止所述音频流的至少一部分,其中所述被阻止的音频流的所述部分是所述检测到的敏感词的至少一部分。附图说明现在将参考附图仅以示例的方式描述本专利技术的实施例,其中:图1示出根据本公开的一些实施例的敏感语音阻止系统的框图。图2示出根据本公开的一些实施例的示例性敏感语音阻止过程的流程图。图3示出根据本公开的一些实施例的计算机系统的框图。图4是根据本公开的一些实施例的云计算环境的示意图。图5是根据本公开的一些实施例的抽象模型层的示意图。具体实施方式本文所述的自动阻止可听的敏感数据的过程涉及自动阻止收听者实时或接近实时地收听敏感数据。诸如信用卡信息之类的敏感信息通常是通过为组织工作的电话员工提供的。这些员工曾多次窃取敏感信息并将其用于非法目的。拦截音频输入并阻止所述员工获得敏感信息将是一项安全措施,有助于防止员工窃取敏感信息。自动阻止包含在音频流中的敏感数据的过程使用一个或多个语音转文本引擎对一部分语音数据进行解码,并分析所述文本中的关键词,以表明敏感数据即将被披露或被披露。一旦识别出一个或多个关键词,系统就可以阻止听众听到说话者泄露敏感信息。通过使用真实的对话流(例如呼叫数据)来训练所述系统,以更准确地标识何时将要说出敏感信息。在一些实施例中,为每个呼叫中心中的每个呼叫接受者定制系统。例如,不同的呼叫者可以具有不同的关键词样式,以指示呼叫者将要说出敏感信息。因此,随着通过处理不同的所述呼叫者、语言、方言、重音等获得更多信息,所述系统变得更加准确。阻止敏感语音或敏感音频信息(例如,信用卡信息、健康信息、位置、身份等)可以在各种应用程序中使用。应用程序的一个示例可能涉及在与呼叫中心员工通话时将信用卡信息提供给呼叫中心。在这样的示例中,公司的代表可以呼叫潜在客户或从潜在客户那里接收呼叫。在通话过程中,所述潜在客户可能需要提供信用卡信息。例如,说“我的信用卡号是”会触发计算机系统阻止后续的信用卡信息并记录该计算机的信息,而不会让所述呼叫中心员工听到该信息。在所述计算机系统确定所述呼叫者不再公开敏感信息之后,所述计算机系统可以停止阻止所述呼叫中心员工听到该信息。在一些实施例中,如果系统在已经开始公开敏感信息之后检测到敏感信息,则系统还可以切断敏感信息。例如,如果呼叫者开始说明信用卡号码,则系统可以立即开始阻止另一方的音频输入,直到所有信用卡号码都被完全说出为止。此构面也可以用于训练系统。例如,在系统检测到敏感信息之后,它可以将敏感信息之前的单词分类为表示将要给出敏感信息的单词。图1是示出了敏感语音阻止系统100的组件的框图,该系统阻止音频馈送中的敏感语音。敏感语音阻止系统100包括可听输入101,至少一个通道102-1、102-2、102-N,图1所示(统称为102),计算机可读语音数据105,一个或多个语音到文本引擎120-1、120-2、120-3、120-4、120-N(在此统称为120),文本数据115,具有敏感单词列表132的敏感词检测引擎,阻止功能引擎140,设置160和报告引擎180。图1中的组件可以是软件、硬件或其组合。敏感语音阻止系统100执行阻止敏感信息(例如,社会保障号码、路由号码、帐号、健康信息和/或信用卡信息)被听众听到的过程。可听输入101是语音数据105的源,并且可以是语音,其被转换成处理器可以处理的数据(例如,数字编码或模拟格式)。可听输入101可以来自各种来源,并且可以以不同方式被记录和处理。可听输入101可以是任何形式的语音,例如现场或预先录制的语音。可听输入101也可以是合成语音,例如由计算机生成的语音。声音输入101可以例如包括电话交谈、指示进入记录装备的语音、使用视频聊天的交谈,至少一个通道102-1、102-2和102-N接收可听输入101。通道可以是任何类型的传输介质,例如电线、电缆、光纤等。在某些情况下,可听输入101可记录在单个通道102上,而在其他情况下,一个或多个可本文档来自技高网...
【技术保护点】
1.一种用于阻止音频流中的敏感信息的系统,该系统包括:/n至少一个处理器;/n至少一个存储组件;/n具有一个或多个口语的音频流;/n敏感词表;/n至少一个语音到文本引擎,被配置为将所述音频流解码为文本;/n敏感词检测引擎,被配置为通过文本串中的词与所述敏感词表进行匹配,分析所述文本以得到指示敏感信息的所述文本串;和/n阻止引擎,其被配置为当从所述音频流中检测到匹配于所述敏感词表的单词时阻止所述音频流。/n
【技术特征摘要】
【国外来华专利技术】20171128 US 15/824,0511.一种用于阻止音频流中的敏感信息的系统,该系统包括:
至少一个处理器;
至少一个存储组件;
具有一个或多个口语的音频流;
敏感词表;
至少一个语音到文本引擎,被配置为将所述音频流解码为文本;
敏感词检测引擎,被配置为通过文本串中的词与所述敏感词表进行匹配,分析所述文本以得到指示敏感信息的所述文本串;和
阻止引擎,其被配置为当从所述音频流中检测到匹配于所述敏感词表的单词时阻止所述音频流。
2.根据权利要求1所述的系统,其中,所述音频流是在电话呼叫期间记录的口语。
3.根据前述权利要求中的任一项所述的系统,其中,所述敏感信息是从包括以下各项信息的组中选择的:财务信息、健康信息、信用信息、密码信息、身份信息和位置信息。
4.根据前述权利要求中的任一项所述的系统,其中,所述分析包括将所述文本与已知敏感触发词的列表进行比较。
5.根据前述权利要求中的任一项所述的系统,其中,所述文本串包括敏感信息。
6.根据权利要求5所述的系统,其中,所述文本串包括通常在敏感信息之前出现的一个或多个单词。
7.根据前述权利要求中的任一项所述的系统,其中,选择满足或超过精度阈值的语音到文本引擎。
8.一种用于阻止音频流中的敏感信息的方法,所述方法包括:
从音频馈送中接收所述音频流,所述音频流具有口语;
使用至少一个语音到文本引擎将所...
【专利技术属性】
技术研发人员:JA施密特,AD布雷厄姆,J尼古莱,J桑托斯沃索,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。