一种基于文本标签预测的聊天话题识别方法及系统技术方案

技术编号:39725494 阅读:8 留言:0更新日期:2023-12-17 23:30
本发明专利技术提出了一种基于文本标签预测的聊天话题识别方法及系统,该方法包括如下步骤:响应于获取所需处理的聊天数据信息并进行预处理;利用已训练的深度学习模型对预处理后的所述聊天数据信息进行处理,包括句子编码和序列标注;通过所述深度学习模型从所述聊天数据信息中识别出所需的特定内容并进行进一步处理

【技术实现步骤摘要】
representation
三部分,将每一条发言内容转换成指定维度的句向量,然后将句向量作为序列标注部分的输入

[0013]进一步优选的,所述句子编码处理具体包括:
[0014]Bert
预训练模型
Pre

trained BERT
采用多层
transformer
编码器,每个编码器由多头自注意力机制和前馈网络组成,每个编码器的输出作为下一个编码器的输入,最终输出的矩阵维度为
[B,L,H],其中
B
代表批次导入模型的句子数量,
L
代表输入句子的最大长度,
H
代表编码器的维度;
[0015]最大池化层
Max

pooling

Bert
预训练层的输出结果进行采样,保留最显著的语义特征,减少参数量,防止模型过拟合,将每个句子的特征矩阵从二维转化为一维,具体维度可表示为
[B,L];
[0016]句向量输出层
Sentence representation
将最大池化层输出向量转化成指定维度的向量,作为最终的句向量,最终输出的矩阵维度为
[B,E],其中
E
代表句向量的维度

[0017]优选的,序列标注处理包括:
[0018]对传统的卷积神经网络模型进行改造,以获得能够完成实体标注类任务的能力;
[0019]采用卷积核进行语义特征提取,将相同位置的卷积池化结果进行拼接,每一层特征矩阵的维度为
[B,S,C];
[0020]经过多层卷积池化操作,最终通过全连接层,将特征矩阵维度调整为
[B,L,N],其中
N
与所需的特定内容的特征数目相等,得到的每个句子最有可能的标签

[0021]进一步优选的,每一层特征矩阵的维度为
[B,S,C]具体包括:
[0022]B
代表批次导入模型的数据量,若将两名用户的网络聊天定义为1个对话场景,若
B
等于
128
,则表示每批导入
128
个对话场景进行并行分析;
[0023]S
代表每个场景的输入长度,若定义
S
等于
1024
,则表示每个场景最多导入
1024
条发言内容进行分析;
[0024]C
代表每一层卷积神经网络的卷积核数量,作为模型的超参数,每层卷积核数目可自由设置

[0025]优选的,识别出所需的特定内容并进行进一步处理包括:
[0026]将获得的相关内容按照时间的先后顺序进行排列,进一步判断聊天内容具体属于哪一类并预测结果

[0027]第二方面,本专利技术实施例还提供一种基于文本标签预测的聊天话题识别系统,该系统包括:
[0028]获取模块,配置用于获取所需处理的聊天数据信息并进行预处理;
[0029]深度学习模型模块,配置用于利用已训练的深度学习模型对预处理后的所述聊天数据信息进行处理,包括句子编码和序列标注;
[0030]处理模块,配置用于将从所述聊天数据信息中识别出所需的特定内容按照时间的先后顺序进行排列,进一步判断聊天内容具体属于哪一类并预测结果

[0031]第三方面,本专利技术实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法

[0032]第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程
序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法

[0033]与现有技术相比,本专利技术的有益成果在于:
[0034](1)
通过引入
Sentence Bert
对聊天发言进行语义特征提取,以句子作为语义单元输入到模型中,极大扩充了特征标注网络的长度限制;利用特征标注的方法,分别标注网络诈骗中常出现的行为,即使话术有更新,但真正关键的诱导行为不会有较大变化;通过改造卷积神经网络模型,使得模型能够进行序列标注任务,并保留了卷积神经网络较高的推理性能

[0035](2)
本专利技术的模型能够很好的适应海量聊天数据的分析需求,快速识别出具有网络诈骗特征的聊天内容;该模型不仅可以适应网络诈骗话题层出不穷的情况,而且能精准判断诈骗行动是否对当事人产生了实质危害

附图说明
[0036]包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分

附图图示了实施例并且与描述一起用于解释本专利技术的原理

将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解

附图的元件不一定是相互按照比例的

同样的附图标记指代对应的类似部件

[0037]图1为本专利技术的实施例的基于文本标签预测的聊天话题识别方法的流程示意图;
[0038]图2为本专利技术的实施例的基于文本标签预测的聊天话题识别方法中的
Sentence Bert
的模型结构示意图;
[0039]图3为本专利技术的实施例的基于文本标签预测的聊天话题识别方法中特征标注网络结构示意图;
[0040]图4为本专利技术的实施例的基于文本标签预测的聊天话题识别系统的架构示意图;
[0041]图5是适于用来实现本专利技术实施例的电子设备的计算机装置的结构示意图

具体实施方式
[0042]在以下详细描述中,参考附图,该附图形成详细描述的一部分,并且通过其中可实践本专利技术的说明性具体实施例来示出

对此,参考描述的图的取向来使用方向术语,例如“顶”、“底”、“左”、“右”、“上”、“下”等

因为实施例的部件可被定位于若干不同取向中,为了图示的目的使用方向术语并且方向术语绝非限制

应当理解的是,可以利用其他实施例或可以做出逻辑改变,而不背离本专利技术的范围

因此以下详细描述不应当在限制的意义上被采用,并且本专利技术的范围由所附权利要求来限定

[0043]与传统犯罪不同,网络电信诈骗行为极具欺骗性,犯罪分子会针对不同人群精准设计话术,主题繁多且更新迭代快

文本分类模型的研发成本很高,周期比较长,模型的迭代速度很难与实际需求相匹配

[0044]此外,网络诈骗的聊天过程通常会持续很长时间,聊天文本的长度不可控

使用深度学习方法或预训练模型的文本分类模型必须对输入内容的长度做一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于文本标签预测的聊天话题识别方法,其特征在于,该方法包括如下步骤:响应于获取所需处理的聊天数据信息并进行预处理;利用已训练的深度学习模型对预处理后的所述聊天数据信息进行处理,包括句子编码和序列标注;通过所述深度学习模型从所述聊天数据信息中识别出所需的特定内容并进行进一步处理
。2.
根据权利要求1所述的基于文本标签预测的聊天话题识别方法,其特征在于,所述句子编码处理包括:采用基于
Bert
的网络结构
Sentence Bert
,包括
Bert
预训练模型
Pre

trained BERT、
最大池化层
Max

pooling
和句向量输出层
Sentence representation
三部分,将每一条发言内容转换成指定维度的句向量,然后将句向量作为序列标注部分的输入
。3.
根据权利要求2所述的基于文本标签预测的聊天话题识别方法,其特征在于,所述句子编码处理具体包括:
Bert
预训练模型
Pre

trained BERT
采用多层
transformer
编码器,每个编码器由多头自注意力机制和前馈网络组成,每个编码器的输出作为下一个编码器的输入,最终输出的矩阵维度为
[B,L,H]
,其中
B
代表批次导入模型的句子数量,
L
代表输入句子的最大长度,
H
代表编码器的维度;最大池化层
Max

pooling

Bert
预训练层的输出结果进行采样,保留最显著的语义特征,减少参数量,防止模型过拟合,将每个句子的特征矩阵从二维转化为一维,具体维度可表示为
[B,L]
;句向量输出层
Sentence representation
将最大池化层输出向量转化成指定维度的向量,作为最终的句向量,最终输出的矩阵维度为
[B,E]
,其中
E
代表句向量的维度
。4.
根据权利要求1所述的基于文本标签预测的聊天话题...

【专利技术属性】
技术研发人员:陈诚黄志炜赵建强陈思萌彭闯张辉极
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1