【技术实现步骤摘要】
电信网络诈骗事件的剧本提取方法以及装置
本专利技术涉及数据挖掘和商务智能
,尤其涉及电信网络诈骗事件的剧本提取方法、装置、电子设备以及存储介质。
技术介绍
电信网络诈骗是目前国内外电信行业中一个重要的问题,它威胁到人们的财产安全,同时对电信正常运营带来巨大的困扰。因此,运营商、政府部门都试图采取各种手段和技术进行电信诈骗案件的检测和识别。在实际中,尽管电信网络诈骗案件高发,但涉及的诈骗事件类型呈现出一定的规律性。如果能够掌握诈骗事件的发展形式以及剧本情节,对于诈骗防范和识别、公众教育和宣导都有较大的帮助。因此,亟需设计一种有效的诈骗事件剧本提取方法。
技术实现思路
本专利技术的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。本专利技术提供了电信网络诈骗事件的剧本提取方法和装置,基于该方法和装置,可以实现对于电信网络诈骗事件剧本的剧情阶段的划分,提取出有助于识别电信网络诈骗事件的特征,达到提取电信网络诈骗事件剧本的目的。第一方面,提供了一种电信网络诈骗事件的剧本提取方法,包括:获取已知主题类别的电信网络诈骗事件文本;对所述已知主题类别的电信网络诈骗事件文本进行分句操作;提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的 ...
【技术保护点】
1.电信网络诈骗事件的剧本提取方法,其特征在于,包括:/n获取已知主题类别的电信网络诈骗事件文本;/n对所述已知主题类别的电信网络诈骗事件文本进行分句操作;/n提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;/n利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;/n基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;/n获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。/n
【技术特征摘要】
1.电信网络诈骗事件的剧本提取方法,其特征在于,包括:
获取已知主题类别的电信网络诈骗事件文本;
对所述已知主题类别的电信网络诈骗事件文本进行分句操作;
提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词;
利用预先建立的BERT模型提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词向量;
基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分;
获取各阶段所包含的单句的关键词作为所述已知主题类别的电信网络诈骗事件文本所属的主题类别下电信网络诈骗事件中各阶段的情节特征的表示。
2.如权利要求1所述的电信网络诈骗事件的剧本提取方法,其特征在于,
所述获取已知主题类别的电信网络诈骗事件文本,包括:
获取由已知主题类别的且属于同一主题类别的电信网络诈骗事件文本所构成的电信网络诈骗事件文本集合;
所述提取所述已知主题类别的电信网络诈骗事件文本中各单句的关键词,包括:
将各电信网络诈骗事件文本中具有相同句序的单句构建成具有相应句序的单句集合,基于各单句集合提取具有相应句序的单句的关键词。
3.如权利要求1所述的电信网络诈骗事件的剧本提取方法,其特征在于,所述基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离,对两个具有相邻句序的单句进行剧情阶段的划分,包括:
基于任意两个具有相邻句序的单句的关键词向量的均值向量之间的空间距离确定空间距离大于指定阈值的两个具有相邻句序的单句;
将所述空间距离大于指定阈值的两个具有相邻句序的单句划分为剧情的两个阶段。
4.如权利要求1所述的电信网络诈骗事件的剧本提取方法,其特征在于,还包括:
对未知主题类别的电信网络诈骗事件文本进行分类;
对所述未知主题类别的电信网络诈骗事件文本进行分句操作;
基于所述未知主题类别的电信网络诈骗事件文本中各单句在所属的主题类别下对用于表示各阶段的情节特征的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件文本中一个单句所属的阶段,从而将所述未知主题类别的电信网络诈骗事件文本分解成多个阶段。
5.如权利要求4所述的电信网络诈骗事件的剧本提取方法,其特征在于,所述对未知主题类别的电信网络诈骗事件文本进行分类,包括:
利用所述预先建立的BERT模型提取所述未知主题类别的电信网络诈骗事件文本的文本向量,利用概率输出层将所述文本向量转化为所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第一概率值;
基于所述未知主题类别的电信网络诈骗事件文本对各主题类别下电信网络诈骗事件文本的关键词的命中率,确定所述未知主题类别的电信网络诈骗事件文本属于各主题类别的第二概率值...
【专利技术属性】
技术研发人员:万辛,李鹏,刘冠男,孙旭东,曲金铭,沈亮,刘发强,倪善金,吴俊杰,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。