电信网络诈骗事件的剧本提取方法以及装置制造方法及图纸

技术编号:26171176 阅读:26 留言:0更新日期:2020-10-31 13:42
本发明专利技术公开了电信网络诈骗事件的剧本提取方法、装置、电子设备以及存储介质。该方法包括:获取已知主题类别的电信网络诈骗事件文本;对文本进行分句操作;提取文本中各单句的关键词;利用预先建立的BERT模型提取已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;获取各阶段所包含的单句的关键词作为所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。本发明专利技术实现了对于电信网络诈骗事件剧情阶段的划分,提取出有助于识别电信网络诈骗事件的特征,从而达到精准提取电信网络诈骗事件剧本的目的。

【技术实现步骤摘要】
电信网络诈骗事件的剧本提取方法以及装置
本专利技术涉及数据挖掘和商务智能
,尤其涉及电信网络诈骗事件的剧本提取方法、装置、电子设备以及存储介质。
技术介绍
电信网络诈骗是目前国内外电信行业中一个重要的问题,它威胁到人们的财产安全,同时对电信正常运营带来巨大的困扰。因此,运营商、政府部门都试图采取各种手段和技术进行电信诈骗案件的检测和识别。在实际中,尽管电信网络诈骗案件高发,但涉及的诈骗事件类型呈现出一定的规律性。如果能够掌握诈骗事件的发展形式以及剧本情节,对于诈骗防范和识别、公众教育和宣导都有较大的帮助。因此,亟需设计一种有效的诈骗事件剧本提取方法。
技术实现思路
本专利技术的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。本专利技术提供了电信网络诈骗事件的剧本提取方法和装置,基于该方法和装置,可以实现对于电信网络诈骗事件剧本的剧情阶段的划分,提取出有助于识别电信网络诈骗事件的特征,达到提取电信网络诈骗事件剧本的目的。第一方面,提供了一种电信网络诈骗事件的剧本提取方法,包括:获取已知主题类别的电信网络诈骗事件文本;对所述已知主题类别的电信网络诈骗事件文本进行分句操作;提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。可选地,所述的电信网络诈骗事件的剧本提取方法中,所述获取已知主题类别的电信网络诈骗事件文本,包括:获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合;所述提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词,包括:将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合,基于各单句集合提取具有相应句序的单句的关键词。可选地,所述的电信网络诈骗事件的剧本提取方法中,所述基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分,包括:基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句;将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。可选地,所述的电信网络诈骗事件的剧本提取方法,还包括:对未知主题类别的电信网络诈骗事件文本进行分类;对所述未知主题类别的电信网络诈骗事件文本进行分句操作;基于所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段,从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。可选地,所述的电信网络诈骗事件的剧本提取方法中,所述对未知主题类别的电信网络诈骗事件文本进行分类,包括:利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量,利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值;基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值;对所述第一概率值和所述第二概率值进行加权计算,以加权后概率最大的主题类别作为所述未知主题类别的电信网络诈骗事件文本所属的主题类别。可选地,所述的电信网络诈骗事件的剧本提取方法中,所述预先建立的BERT模型为针对预训练的BERT模型进行微调训练而得到的,所述预先建立的BERT模型为针对预训练的BERT模型进行微调训练而得到的,在微调训练过程中,对所述预训练的BERT模型外接一层概率输出层,以各主题类别的主题词作为输出,对所述预训练的BERT模型参数进行微调。可选地,所述的电信网络诈骗事件的剧本提取方法中,所述各主题类别以及各主题类别的主题词通过以下方法确定:获取未知主题类别的电信网络诈骗事件线索文本;对所述未知主题类别的电信网络诈骗事件线索文本进行分类,提取各主题类别的主题词;基于各主题类别下的电信网络诈骗事件线索文本,提取各主题类别下的电信网络诈骗线索文本的关键词;获取未知主题类别的电信网络诈骗事件完整文本;基于所述未知主题类别的电信网络诈骗事件完整文本对各主题类别下的电信网络诈骗事件线索文本的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件完整文本所属的主题类别,将所述未知主题类别的电信网络诈骗事件完整文本扩展至相应的主题类别下;基于扩展后的各主题类别下的电信网络诈骗事件文本,检验各主题类别是否为不可再分,基于检验结果对各主题类别以及各主题类别的主题词进行更新。第二方面,提供了一种电信网络诈骗事件的剧本提取装置,包括:第一获取模块,用于获取已知主题类别的电信网络诈骗事件文本;第一分句模块,用于对所述已知主题类别的电信网络诈骗事件文本进行分句操作;第一提取模块,用于提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;第二提取模块,用于利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;划分模块,用于基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;第二获取模块,用于获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。可选地,电信网络诈骗事件的剧本提取装置中,所述第一获取模块用于获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合;所述第一提取模块用于将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合,基于各单句集合提取具有相应句序的单句的关键词。可选地,所述的电信网络诈骗事件的剧本提取装置中,所述划分模块包括:第一确定子模块,用于基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句;划分子模块,用于将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。可选地,所述的电信网络诈骗事件的剧本提取装置,还包括:分类模块,用于对未知主题类别的电信网络诈骗事件文本进行分类;第二分句模块,用于对所述未知主题类别的电信网络诈骗事本文档来自技高网...

【技术保护点】
1.电信网络诈骗事件的剧本提取方法,其特征在于,包括:/n获取已知主题类别的电信网络诈骗事件文本;/n对所述已知主题类别的电信网络诈骗事件文本进行分句操作;/n提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;/n利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;/n基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;/n获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。/n

【技术特征摘要】
1.电信网络诈骗事件的剧本提取方法,其特征在于,包括:
获取已知主题类别的电信网络诈骗事件文本;
对所述已知主题类别的电信网络诈骗事件文本进行分句操作;
提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;
利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;
基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;
获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。


2.如权利要求1所述的电信网络诈骗事件的剧本提取方法,其特征在于,
所述获取已知主题类别的电信网络诈骗事件文本,包括:
获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合;
所述提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词,包括:
将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合,基于各单句集合提取具有相应句序的单句的关键词。


3.如权利要求1所述的电信网络诈骗事件的剧本提取方法,其特征在于,所述基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分,包括:
基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句;
将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。


4.如权利要求1所述的电信网络诈骗事件的剧本提取方法,其特征在于,还包括:
对未知主题类别的电信网络诈骗事件文本进行分类;
对所述未知主题类别的电信网络诈骗事件文本进行分句操作;
基于所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段,从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。


5.如权利要求4所述的电信网络诈骗事件的剧本提取方法,其特征在于,所述对未知主题类别的电信网络诈骗事件文本进行分类,包括:
利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量,利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值;
基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值...

【专利技术属性】
技术研发人员:万辛李鹏刘冠男孙旭东曲金铭沈亮刘发强倪善金吴俊杰
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1