一种游戏聊天广告的实时智能识别方法及系统技术方案

技术编号:34364315 阅读:57 留言:0更新日期:2022-07-31 08:10
本发明专利技术公开了一种游戏聊天广告的实时智能识别方法及系统。从游戏服务器的游戏聊天内容中实时提取每个玩家的聊天特征数据,通过ngnix服务器的负载均衡架构以及分布式数据库redis的异步机制将所述聊天特征数据分发到一组聊天风控服务器进行处理;通过所述一组聊天风控服务器中每一个设置的多种广告识别规则/模型对刷新到其上redis的聊天特征数据进行异步处理,实时识别是否为存在广告内容。相对于现有的游戏聊天广告识别方案,本发明专利技术提供的技术方案稳定性好,处理速度快、实时性强并且识别准确率和自动化程度高。别准确率和自动化程度高。别准确率和自动化程度高。

【技术实现步骤摘要】
一种游戏聊天广告的实时智能识别方法及系统


[0001]本专利技术提供的方案涉及文本的处理、语义识别领域,用于对文本中的特定语义倾向的内容进行识别/检测;具体涉及一种游戏聊天广告的实时智能识别方法及系统。

技术介绍

[0002]游戏中常常会出现某些进行物品或其他服务推销/宣传的“玩家”,以及企图分流用户至其他游戏的广告导流玩家。这类玩家的常常职业性的,在游戏过程中向其他玩家直接或者“隐含
“”
推销物品/装备。如果放任这些推销/宣传行为可能对游戏运营商或者其他玩家造成损失,同时也影响游戏过程中玩家的体验。
[0003]目前为了识别游戏聊天中的广告内容,通常采用人工识别或者基于深度神经网络算法训练识别模型对聊天文本进行匹配。例如、传统数据挖掘模型将每个玩家的实时发言文本输入随机森林模型进行判断该玩家的发言是否违规,该模型采用的特征均来源于人工提取。现有的游戏聊天广告识别方案往往识别速度慢、实时性差,不够稳定并且常规由于识别模型单一不能准确识别聊天中的广告内容,尤其是在多语句文本中才能体现“广告”性质的文本识别能力不足。

技术实现思路

[0004]为了解决现有的游戏聊天广告识别方案存在的上述不足,本专利技术提供一种游戏聊天广告的实时智能识别方案。该方案基于分布式存储系统和实时计算引擎实时获取游戏聊天中各玩家的聊天数据,通过负载均衡技术将提取的聊天数据实时刷新到一组聊天风控服务器上分布式redis中进行多规则/模型的广告识别。该方案稳定性好,处理速度快、实时性强,并且识别准确率和自动化程度高。
[0005]本专利技术提供的技术方案,具体实现为:
[0006]一种游戏聊天广告的实时智能识别方法,该方法包括:从游戏服务器的游戏聊天内容中实时提取玩家的聊天特征数据,通过ngnix服务器的负载均衡架构以及分布式数据库redis的异步机制将所述聊天特征数据分发到一组聊天风控服务器进行处理;通过所述聊天风控服务器上设置的多种广告识别规则/模型对刷新到其上redis的聊天特征数据进行异步处理,实时识别是否为存在广告内容。所述从游戏聊天内容中实时提取不同玩家的聊天特征数据至少包括:角色、IP、以及聊天时的发言文本。
[0007]其中、玩家的聊天特征数据从游戏服务器到聊天风控服务器的路径有两条:
[0008]1.对于不需要结合玩家的历史信息计算的聊天特征,采用流处理平台kafka将其直接发送到ngnix服务器,利用所述ngnix服务器进行负载均衡机制将所述聊天特征数据发送到所述一组聊天风控服务器中的redis中。
[0009]2.对于需要结合玩家历史数据计算才能得到的与玩家历史数据相关的聊天特征数据,所述流处理平台kafka将相关的聊天数据发送到用于存储玩家历史数据的分布式存储cassandra或kudu进行存储;由实时计算引擎presto根据分布式存储cassandra或kudu中
具体玩家所有相关数据计算该具体玩家对应的所述与玩家历史数据相关的聊天特征数据后写入到搜索分析引擎es(Elastic Search)中,其由es将其实时刷入所述ngnix服务器、通过所述ngnix服务器的负载均衡机制将所述与玩家历史数据相关的聊天特征数据发送到所述一组聊天风控服务器中的redis中。
[0010]进一步地、所述多种广告识别规则/模型包括:基于玩家信息的白名单匹配规则,基于玩家信息、敏感词和游戏运营人员长期经验制定的规则的黑名单匹配规则,基于多头自注意力机制的单文本语义广告识别模型,基于Word2Vec+BiLSTM架构的多文本语义广告识别模型以及实时特征输入的随机森林广告识别模型。
[0011]其中、所述单文本语义广告识别模型为基于transform架构的多头自注意力架构、采用人工标注的大量正、负样本进行训练得到。该广告识别模型包括:用于将待识别发言文本进行文本清洗后输入到所述词嵌入层的预处理层;用于对输入的文本提取的数字特征矩阵以及记录该文本中每个词位置的位置矩阵的所述词嵌入层该层用到的word2vec模型通过采用CBOW或Skip

Gram方法对运维人员收集的大量游戏内历史聊天会话进行学习得到;用于接收所述数字矩阵与所述位置矩阵进行处理,获得到该文本注意力相关的文本特征矩阵输入到全连接层,由多头自注意力模块和FFN层构成的处理单元级联组成的多层感知器MPL;以及用于将所述文本特征矩阵映射到样本标记空间,预测该文本是否为广告内容的全连接层,所述全连接层为多层结构,其最后一层输出一个值经过sigmoid函数处理后产生该文本是否为广告的概率。
[0012]所述多文本语义广告识别模型基于Word2Vec+BiLSTM深度学习架构、采用人工标注的大量正、负样本进行训练得到。其包括预处理层、词嵌入层,归一化层layer norm、双向长短期记忆层、以及全连接层。其中、所述预处理层,用于将特定玩家最近预定数量发言文本拼接在一起形成的多语句文本进行清洗后输入到所述词嵌入层;所述词嵌入层、用于对输入的文本提取的数字特征矩阵以及记录该文本中每个词位置的位置矩阵,将所述数字特征矩阵以及位置矩阵输入到归一化层layer norm进行标准归一化处理,该词嵌入层用到的word2vec模型通过采用CBOW或Skip

Gram方法对运维人员收集的大量游戏内历史聊天会话进行学习得到;所述双向长短期记忆层BiLSTM,用于提取该多语句文本的上下文依赖信息的上下文信息矩阵后输出到所述全连接层预测该多语句文本是否为广告。
[0013]进一步地、所述聊天风控服务器基于所述多种广告识别规则/模型、采用层层递进的方式识别聊天广告。具体流程为:首先采用基于玩家信息的白名单匹配规则对某一玩家的聊天数据进行第一次匹配,若玩家信息与白名单中的信息匹配则直接放过、不进行后续检测,否则、利用所述黑名单匹配规则对所述聊天数据进行第二次匹配,当玩家在所述黑名单中,或其聊天发言文本中包含所述黑名单中的敏感词,或符合所述黑名单中游戏运营人员长期经验制定的规则直接报警,否则、采用所述单文本语义广告识别模型对所述聊天数据中的发言文本进行广告识别;如果所述基于多头注意力机制的单文本语义广告识别模型的识别结果为属于广告,则直接报警,否则、将该玩家最近预定数量的发言文本拼接在一起形成多语句文本,采用所述多文本语义广告识别模型进行广告识别。优选地、对于多文本语义广告识别模型预测为非广告的多语句文本,进一步采用传统数据挖掘模型将每个玩家的聊天数据输入随机森林模型,输出该玩家是否为违规以提高系统的召回率;所述随机森林模型所用到的特征均来源于人工提取,决策过程科学可靠。
[0014]与上述方法相对应,本专利技术还提供一种游戏聊天广告的实时智能识别系统。该系统包括:流处理平台kafka,分布式存储系统cassandra或kudu、实时计算引擎presto、一组聊天风控服务器、ngnix服务器和搜索分析引擎es;
[0015]其中、对于不需要结合玩家的历史信息计算就能得到的聊天特征数据,所述流处理平台k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
norm进行标准归一化处理,该词嵌入层用到的word2vec模型通过采用CBOW或Skip

Gram方法对运维人员收集的大量游戏内历史聊天会话进行学习得到;所述双向长短期记忆层BiLSTM,用于提取该多语句文本的上下文依赖信息的上下文信息矩阵后输出到所述全连接层产生该多语句文本是否为广告的预测。7.如权利要求6所述的方法,其特征在于,所述多种广告识别规则/模型之间采用层层递进的方式识别聊天广告,具体包括:首先采用基于玩家信息的白名单匹配规则对某一玩家的聊天数据进行第一次匹配,若玩家信息与白名单中的信息匹配则直接放过、不进行后续检测,否则、利用所述黑名单匹配规则对所述聊天数据进行第二次匹配,当玩家在所述黑名单中,或其聊天发言文本中包含所述黑名单中的敏感词,或符合所述黑名单中游戏运营人员长期经验制定的规则直接报警,否则、采用所述单文本语义广告识别模型对所述聊天数据中的发言文本进行广告识别;如果所述基于多头注意力机制的单文本语义广告识别模型的识别结果为属于广告,则直接报警,否则、将该玩家最近预定数量的发言文本拼接在一起形成多语句文本,采用所述多文本语义广告识别模型进行广告识别。8.一种游戏聊天广告的实时智能识别系统,其特征在于,该系统包括:流处理平台kafka,分布式存储系统cassandra或kudu、实时计算引擎presto、一组聊天风控服务器、ngnix服务器和搜索分析引擎es;其中、对于不需要结合玩家的历史信息计算就能得到的聊天特征数据,所述流处理平台kafka将其直接发送到所述ngnix服务器,利用所述ngnix服务器进行负载均衡机制将所述聊天特征数据发送到所述一组聊天风控服务器中的redis中;对于需要结合玩家历史数据计算才能得到的与玩家历史数据相关的聊天特征数据,所述流处理平台kafka将相关的聊天数据发送到用于存储玩家历史数据的分布式存储cassandra或kudu进行存储,由实时计算引擎presto根据分布式存储cassandra或kudu中具体玩家所有相关数据计算出该具体玩家对应的所述与玩家历史数据相关的聊天特征数据后写入到搜索分析引擎es(Elastic Search)中,由es将所述与玩家历史数据相关的聊天特征数据实时刷入所述ngnix服务器、通过所述ngnix服务器的负载均衡机制将其发送到所述一组聊天风控服务器中的redis中;所述实时计算引擎presto从游戏聊天内容中实时提取不同玩家的聊天数据存储到所述分布式存储系统cassandra中;所述ngnix服务器与所述分布式存储系统cassandra中通信,基于自身的负载均衡架构、通过分布式redis的异步机制将所述聊天数据分发到所述一组聊天风控服务器进行处理;所述一组聊天风控服务器上的每一个都设置有多种广告识别规则/模型,并基于所述多种广告识别规则/模型对刷新到其上redis的聊天数据进行异步处理,实时识别是否为存在广告内容。9.如权利要求8所述的系统,其特征在于,所述多种广告识别规则/模型包括:基于玩家信息的白名单匹配规则,基于玩家信息、敏感词和游戏运营人员长期经验制定的...

【专利技术属性】
技术研发人员:夏聃孔融胡天
申请(专利权)人:盛趣信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1