一种基于社交关系图谱的垃圾语音识别方法和系统技术方案

技术编号:15795068 阅读:107 留言:0更新日期:2017-07-10 11:02
本发明专利技术公开了一种基于社交关系图谱的垃圾语音识别方法,包括:为用户建立垃圾语音库,提取用户的历史通话记录,基于该历史通话记录构建用户的社交关系图谱,判断用户新接入的主叫号码是否处于垃圾语音库中,如果不处于,则根据建立的社交关系图谱判断用户新接入的该主叫号码是否能通过中间节点与被叫号码连接起来,如果不能够则根据建立的社交关系图谱计算用户新接入的该主叫号码的全局信任度,判断得到的该主叫号码的全局信任度是否大于全局信任度阈值。本发明专利技术基于用户的全局信任度和局部信任度进行垃圾语音识别,从而解决了现有垃圾语音识别方法中存在的对人工发起的垃圾语音呼叫识别的准确率不高的技术问题。

【技术实现步骤摘要】
一种基于社交关系图谱的垃圾语音识别方法和系统
本专利技术属于无线通信
,更具体地,涉及一种基于社交关系图谱的垃圾语音识别方法和系统。
技术介绍
随着现代社会物质生活的越来越丰富,人们的生活水平也越来越高,对手机通信设备的需求也越来越大,手机用户的数量也随之持续增加,然而伴随着手机用户数量的增加,垃圾语音、骚扰电话也呈现井喷趋势,增速明显。越来越多的公司、团体、个人为了实现其经济利益或政治目的,通过垃圾语音等方式对其目标人群进行骚扰,主要表现为电话营销、反动信息传播、诈骗等形式。对于普通用户来说,垃圾语音不仅扰乱了人们的正常生活和工作,还会对受害者造成精神上的伤害或经济上的损失,用户对垃圾语音的强烈不满,引起了社会各界的普遍关注。对于电信运营商来说,垃圾语音对通信网络资源的正常使用产生了影响,更加影响了品牌形象。因此对于垃圾语音进行识别和拦截的研究,具有重要的现实意义。目前广泛采用的垃圾语音识别方法包括有基于语音识别的垃圾语音识别方法,以及基于通信行为分析的垃圾语音识别方法。前者是通过在电话接通之后分析短时间内会话交流的语音关键字来判断该来电号码是否是垃圾语音发起号码,该方法对于机器录音设备发起的垃圾语音呼叫具有良好的识别效果,但是对人工发起的垃圾语音呼叫识别的准确率不高,并且由于该方法是在电话接通之后进行进一步分析,导致用户是在被骚扰以后才识别出垃圾语音骚扰行为,此外,这种识别方法在一定意义上侵犯了用户的隐私;对于后者而言,它是通过分析用户的通信行为(包括通话时长、通话频次等)来识别垃圾语音发起号码,其操作过程简单方便,但是该方法对于那些通信行为不固定的垃圾语音发起号码而言,其识别效率不佳。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于社交关系图谱的垃圾语音识别方法和系统,其目的在于,通过提取用户的通话历史记录构建用户层面上的社交关系图谱,并基于用户的全局信任度和局部信任度进行垃圾语音识别,从而解决了现有垃圾语音识别方法中存在的对人工发起的垃圾语音呼叫识别的准确率不高、会在一定意义上侵犯用户隐私、对于通信行为不固定的垃圾语音发起号码而言识别效率不佳的技术问题。为实现上述目的,按照本专利技术的一个方面,提供了一种基于社交关系图谱的垃圾语音识别方法,包括以下步骤:(1)为用户建立垃圾语音库,提取用户的历史通话记录,基于该历史通话记录构建用户的社交关系图谱;(2)判断用户新接入的主叫号码是否处于垃圾语音库中,如果处于该垃圾语音库,则转入步骤(8),否则转入步骤(3);(3)根据建立的社交关系图谱判断用户新接入的该主叫号码是否能通过中间节点与被叫号码连接起来,如果能够,则转入步骤(6),否则转入步骤(4);(4)根据建立的社交关系图谱计算用户新接入的该主叫号码的全局信任度;(5)判断步骤(4)得到的该主叫号码的全局信任度是否大于全局信任度阈值T,如果大于全局信任度阈值,则表示该主叫号码不是垃圾语音发起号码,然后过程结束,反之则表示该主叫号码是垃圾语音发起号码,然后转入步骤(8);(6)使用信任度量算法获取被叫号码的用户对主叫号码用户的局部信任度;(7)判断步骤(6)得到的被叫号码对主叫号码的局部信任度是否大于局部信任度阈值,如果大于阈值,则判定主叫号码不是垃圾语音发起号码,然后过程结束,否则判定主叫号码为垃圾语音发起号码,然后转入步骤(8);(8)被叫号码用户判断是否接听该垃圾语音发起号码,并将垃圾语音发起号码添加到垃圾语音库中。优选地,提取的历史通话记录是用户1星期到1个月之间的历史通话记录,提取的关键信息包括主叫号码、被叫号码、拨号时间、通话时长、是否接听。优选地,步骤(1)包括以下子步骤:(1-1)建立垃圾语音库,并初始化该垃圾语音库,使该垃圾语音库中的语音号码为空;(1-2)从用户的历史通话记录中提取关键信息;(1-3)基于提取的关键信息建立用户的社交关系图谱,该社交关系图谱包括彼此间存在通话记录的所有用户所构成的节点集合、节点彼此之间存在通话关系所构成的边、以及每个边的权重。(1-4)根据建立的社交关系图谱计算直接相连的两个节点i对j的信任度。优选地,步骤(1-4)的计算过程是通过以下公式:其中ti,j表示节点i对与其相连的结点j的信任度,ni,j表示用户j主动向用户i拨打电话的次数,ci,j表示用户i接听来自用户j的电话、且通话时长超过阈值的次数。优选地,步骤(4)的计算过程是使用以下公式:其中S(j)为用户j的全局信任度,n为社交关系图谱中所有节点的数量,a是0到1之间的数,Fu为结点j所直接连接的节点的数量,表示节点j直接连接的节点uk对节点j的信任度,且k为1到n之间的整数。优选地,步骤(6)中使用的信任度量算法是TidalTrust算法,且采用以下公式获取局部信任度:其中ti,k表示被叫号码用户i对主叫号码k的局部信任度,adj(i)表示社交关系图谱中用户i相邻的所有节点中用户i对其信任度大于阈值的节点集合。按照本专利技术的另一方面,提供了一种基于社交关系图谱的垃圾语音识别系统,包括:第一模块,用于为用户建立垃圾语音库,提取用户的历史通话记录,基于该历史通话记录构建用户的社交关系图谱;第二模块,用于判断用户新接入的主叫号码是否处于垃圾语音库中,如果处于该垃圾语音库,则转入第八模块,否则转入第三模块;第三模块,用于根据建立的社交关系图谱判断用户新接入的该主叫号码是否能通过中间节点与被叫号码连接起来,如果能够,则转入第六模块,否则转入第四模块;第四模块,用于根据建立的社交关系图谱计算用户新接入的该主叫号码的全局信任度;第五模块,用于判断第四模块得到的该主叫号码的全局信任度是否大于全局信任度阈值T,如果大于全局信任度阈值,则表示该主叫号码不是垃圾语音发起号码,然后过程结束,反之则表示该主叫号码是垃圾语音发起号码,然后转入第八模块;第六模块,用于使用信任度量算法获取被叫号码的用户对主叫号码用户的局部信任度;第七模块,用于判断第六模块得到的被叫号码对主叫号码的局部信任度是否大于局部信任度阈值,如果大于阈值,则判定主叫号码不是垃圾语音发起号码,然后过程结束,否则判定主叫号码为垃圾语音发起号码,然后转入步骤第八模块;第八模块,用于被叫号码用户判断是否接听该垃圾语音发起号码,并将垃圾语音发起号码添加到垃圾语音库中。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:1、本专利技术能够解决现有垃圾语音识别方法中存在的对人工发起的垃圾语音呼叫识别的准确率不高的技术问题:由于采用了步骤(1)构建社交关系图谱,在后续语音识别过程中,着重点在于用户节点之间的关系,而不考虑垃圾语音发起号码是人工还是机器,只需考虑发起号码的信任度问题,因此对于无论是机器还是人工发起的垃圾语音,都能够达到良好的识别效果;2、本专利技术能够解决现有方法会侵犯用户隐私的技术问题:由于本专利技术是在用户接听电话之前就进行了垃圾语音的识别和判断,不需要在用户接听来电后对会话进行短时间的监听和识别,从而避免了侵犯用户隐私的问题;3、本专利技术能够解决现有方法中通信行为不固定的垃圾语音发起号码而言识别效率不佳的技术问题:由于本专利技术是通过分析用户之间的局部信任度以及单个用户基于整个网络的全局信任度来判别垃圾语音发本文档来自技高网
...
一种基于社交关系图谱的垃圾语音识别方法和系统

【技术保护点】
一种基于社交关系图谱的垃圾语音识别方法,其特征在于,包括以下步骤:(1)为用户建立垃圾语音库,提取用户的历史通话记录,基于该历史通话记录构建用户的社交关系图谱;(2)判断用户新接入的主叫号码是否处于垃圾语音库中,如果处于该垃圾语音库,则转入步骤(8),否则转入步骤(3);(3)根据建立的社交关系图谱判断用户新接入的该主叫号码是否能通过中间节点与被叫号码连接起来,如果能够,则转入步骤(6),否则转入步骤(4);(4)根据建立的社交关系图谱计算用户新接入的该主叫号码的全局信任度;(5)判断步骤(4)得到的该主叫号码的全局信任度是否大于全局信任度阈值T,如果大于全局信任度阈值,则表示该主叫号码不是垃圾语音发起号码,然后过程结束,反之则表示该主叫号码是垃圾语音发起号码,然后转入步骤(8);(6)使用信任度量算法获取被叫号码的用户对主叫号码用户的局部信任度;(7)判断步骤(6)得到的被叫号码对主叫号码的局部信任度是否大于局部信任度阈值,如果大于阈值,则判定主叫号码不是垃圾语音发起号码,然后过程结束,否则判定主叫号码为垃圾语音发起号码,然后转入步骤(8);(8)被叫号码用户判断是否接听该垃圾语音发起号码,并将垃圾语音发起号码添加到垃圾语音库中。...

【技术特征摘要】
1.一种基于社交关系图谱的垃圾语音识别方法,其特征在于,包括以下步骤:(1)为用户建立垃圾语音库,提取用户的历史通话记录,基于该历史通话记录构建用户的社交关系图谱;(2)判断用户新接入的主叫号码是否处于垃圾语音库中,如果处于该垃圾语音库,则转入步骤(8),否则转入步骤(3);(3)根据建立的社交关系图谱判断用户新接入的该主叫号码是否能通过中间节点与被叫号码连接起来,如果能够,则转入步骤(6),否则转入步骤(4);(4)根据建立的社交关系图谱计算用户新接入的该主叫号码的全局信任度;(5)判断步骤(4)得到的该主叫号码的全局信任度是否大于全局信任度阈值T,如果大于全局信任度阈值,则表示该主叫号码不是垃圾语音发起号码,然后过程结束,反之则表示该主叫号码是垃圾语音发起号码,然后转入步骤(8);(6)使用信任度量算法获取被叫号码的用户对主叫号码用户的局部信任度;(7)判断步骤(6)得到的被叫号码对主叫号码的局部信任度是否大于局部信任度阈值,如果大于阈值,则判定主叫号码不是垃圾语音发起号码,然后过程结束,否则判定主叫号码为垃圾语音发起号码,然后转入步骤(8);(8)被叫号码用户判断是否接听该垃圾语音发起号码,并将垃圾语音发起号码添加到垃圾语音库中。2.根据权利要求1所述的垃圾语音识别方法,其特征在于,提取的历史通话记录是用户1星期到1个月之间的历史通话记录,提取的关键信息包括主叫号码、被叫号码、拨号时间、通话时长、是否接听。3.根据权利要求1所述的垃圾语音识别方法,其特征在于,步骤(1)包括以下子步骤:(1-1)建立垃圾语音库,并初始化该垃圾语音库,使该垃圾语音库中的语音号码为空;(1-2)从用户的历史通话记录中提取关键信息;(1-3)基于提取的关键信息建立用户的社交关系图谱,该社交关系图谱包括彼此间存在通话记录的所有用户所构成的节点集合、节点彼此之间存在通话关系所构成的边、以及每个边的权重。(1-4)根据建立的社交关系图谱计算直接相连的两个节点i对j的信任度。4.根据权利要求3所述的垃圾语音识别方法,其特征在于,步骤(1-4)的计算过程是通过以下公式:其中ti,j表示节点i对与其相连的结点j的信任度,ni,j表示用户j主动向用户i拨打电话的次数,ci,j表示用户i接听来自用户...

【专利技术属性】
技术研发人员:莫益军徐飞刘谦
申请(专利权)人:华中科技大学鄂州工业技术研究院
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1