一种聊天记录匹配事件分析方法、终端设备及存储介质技术

技术编号:32513789 阅读:29 留言:0更新日期:2022-03-02 11:04
本发明专利技术涉及一种聊天记录匹配事件分析方法、终端设备及存储介质,该方法中包括:S1:采集已知事件和行为的聊天记录,并根据采集的聊天记录的事件进行一次分类,根据聊天记录的行为进行二次分类后,构建样本知识库;S2:接收待分析的聊天记录数据包;S3:将数据包中的每条聊天记录与样本知识库中的各聊天记录一一进行相似度计算,如果相似度小于相似度阈值,则将数据包中的该聊天记录打上对应样本知识库中聊天记录的记录ID的标签;S4:将聊天记录按照交互双方账号进行分组后,统计每组聊天记录包含的所有记录ID组成第一记录序列KM1,并根据每组聊天记录的KM1从样本知识库查找该组聊天记录的匹配事件。本发明专利技术实现了聊天记录内容与事件的智能化匹配。与事件的智能化匹配。与事件的智能化匹配。

【技术实现步骤摘要】
一种聊天记录匹配事件分析方法、终端设备及存储介质


[0001]本专利技术涉及文本分析领域,尤其涉及一种聊天记录匹配事件分析方法、终端设备及存储介质。

技术介绍

[0002]随着科技的发展,社会已经进入移动互联网时代,人们之间频繁通过即时通讯软件交流、交易、交往等。因此,电子数据取证对于执法部门在案件侦办中显得越来越重要,其中数据量最大的就是聊天内容,通常一部手机的聊天内容数据量条数都是百万级别。对于电子数据取证中海量的聊天内容如何挖掘线索就成为关注的重点。目前大部分做法中一种是通过积累涉案关键词,对海量的聊天内容做关键词匹配,从而找出可疑的线索,具有执行性能高的优点,但是分析效果差,没有充分利用聊天中的上下文内容,容易出现误判,例如禁毒宣传软文中也会提到一些关键词,“珍爱生命,远离毒品,禁止吸食白粉
……”
中就含有关键词白粉。另一种是应用自然语言处理技术识别聊天的主题,然后根据主题计算可疑权重,推荐出可疑的聊天记录。该种方式只能识别聊天主题,并不能精确的理解其中的行为。例如都是毒品相关的主题,也可能是对禁毒的宣传和影响讨论,只是从自然语言处理技术分析会导致忽略了内容上体现行为,从而导致分析效果差。

技术实现思路

[0003]为了解决上述问题,本专利技术提出了一种聊天记录匹配事件分析方法、终端设备及存储介质。
[0004]具体方案如下:
[0005]一种聊天记录匹配事件分析方法,包括以下步骤:
[0006]S1:采集已知事件和行为的聊天记录,并根据采集的聊天记录的事件进行一次分类,根据聊天记录的行为进行二次分类后,构建样本知识库,并记录样本知识库中各事件、行为和聊天记录的事件ID、行为ID和记录ID,同时记录事件、行为和聊天记录的所属关系;
[0007]S2:接收待分析的聊天记录数据包,并对数据包中的每条聊天记录的交互双方账号进行标注;
[0008]S3:将数据包中的每条聊天记录与样本知识库中的各聊天记录一一进行相似度计算,如果相似度小于相似度阈值,则将数据包中的该聊天记录打上对应样本知识库中聊天记录的记录ID的标签;
[0009]S4:将数据包中的所有聊天记录按照交互双方账号进行分组后,统计每组聊天记录包含的所有记录ID组成第一记录序列KM1,并根据每组聊天记录的第一记录序列KM1从样本知识库查找该组聊天记录的匹配事件。
[0010]进一步的,步骤S1中样本知识库中的各事件、行为和聊天记录的事件ID、行为ID和记录ID,及记录事件、行为和聊天记录的所属关系通过样本事件表、样本行为表、样本聊天记录表三种表格进行记录。
[0011]进一步的,步骤S1构建的样本知识库中还包括对每个行为是否属于必备行为的标注。
[0012]进一步的,步骤S1构建的样本知识库中还包括对各聊天记录的发送方角色和接收方角色进行标注。
[0013]进一步的,步骤S2中还包括对数据包中的各聊天记录进行数据预处理,数据预处理包括数据标准化、数据格式转换、实体标注、实体要素替换和聊天内容向量计算。
[0014]进一步的,步骤S3的相似度计算中,在通过doc2vec算法得到每条聊天记录的文档向量后,采用余弦相似度计算算法进行计算。
[0015]进一步的,步骤S4中根据每组聊天记录的第一记录序列KM1从样本知识库查找该组聊天记录的匹配事件的过程包括以下步骤:
[0016]S41:将第一记录序列KM1进行去重处理后得到第二记录序列KM2,将第二记录序列KM2进行排序后得到第三记录序列KM3;
[0017]S42:提取样本知识库中每个事件包含的所有聊天记录的记录ID组成的记第四记录序列KM4,并计算各第四记录序列KM4与第三记录序列KM3的距离,如果存在第四记录序列KM4与第三记录序列KM3的距离小于距离阈值,则进入S43;否则,判定该组聊天记录无匹配事件;
[0018]S43:提取样本知识库中每个行为对应的聊天记录序列SM,并将聊天记录序列SM与第一记录序列KM1进行比对,提取第一记录序列KM1中包含的所有聊天记录序列SM,生成第一行为序列AM1;
[0019]S44:提取样本知识库中每个事件包含的所有行为的行为ID组成的第二行为序列AM2,并将第一行为序列AM1与第二行为序列AM2进行比对,提取第一行为序列AM1中包含的所有第二行为序列AM2,将提取的第二行为序列AM2对应的事件作为该组聊天记录的匹配事件。
[0020]进一步的,步骤S42中距离的计算通过莱文斯坦距离公式进行计算。
[0021]进一步的,步骤S43中将聊天记录序列SM与第一记录序列KM1进行比对,提取第一记录序列KM1中包含的所有聊天记录序列SM的过程采用KMP算法进行。
[0022]进一步的,步骤S44中将第一行为序列AM1与第二行为序列AM2进行比对,提取第一行为序列AM1中包含的所有第二行为序列AM2的过程,基于正则表达式匹配算法,采用状态机模型进行。
[0023]一种聊天记录匹配事件分析终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0024]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0025]本专利技术采用如上技术方案,对每一种违法方式都细分成多个行为,每个行为细分成多组聊天内容,应用大数据、自然语言处理、关联匹配等技术,通过理解整个违法行为和内容,从而精准挖掘出匹配的违法行为和内容。
附图说明
[0026]图1所示为本专利技术实施例一的流程图。
[0027]图2所示为该实施例中匹配事件查找的流程图。
具体实施方式
[0028]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0029]现结合附图和具体实施方式对本专利技术进一步说明。
[0030]实施例一:
[0031]近年来,新型网络犯罪手段也开始层出不穷,尤其是网络诈骗趋势越来越高,包括“杀猪盘”、“杀鱼盘”、“杀鸟盘”等网络诈骗手段,这些不法分子背后都是有一套专门的话术,也就是聊天“剧本”。除了网络诈骗外,其他很多违法行为也有类似特点,每次的违法过程都大同小异,线上和线下相结合,通过线上大桥引线,线下对接交易等方式。例如网络招嫖行为,有代聊手、卖淫者、嫖客等角色,在整个招嫖过程中,通常先后经过询价、约定地点、支付嫖资几个阶段。因此,话术式聊天内容和行为分析具有很强的通用性,成为电子数据取证分析中新方向。基于此,本专利技术实施例提供了一种聊天记录匹配事件分析方法,如图1所示,所述方法包括以下步骤:
[0032]S1:采集已知事件和行为的聊天本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聊天记录匹配事件分析方法,其特征在于,包括以下步骤:S1:采集已知事件和行为的聊天记录,并根据采集的聊天记录的事件进行一次分类,根据聊天记录的行为进行二次分类后,构建样本知识库,并记录样本知识库中各事件、行为和聊天记录的事件ID、行为ID和记录ID,同时记录事件、行为和聊天记录的所属关系;S2:接收待分析的聊天记录数据包,并对数据包中的每条聊天记录的交互双方账号进行标注;S3:将数据包中的每条聊天记录与样本知识库中的各聊天记录一一进行相似度计算,如果相似度小于相似度阈值,则将数据包中的该聊天记录打上对应样本知识库中聊天记录的记录ID的标签;S4:将数据包中的所有聊天记录按照交互双方账号进行分组后,统计每组聊天记录包含的所有记录ID组成第一记录序列KM1,并根据每组聊天记录的第一记录序列KM1从样本知识库查找该组聊天记录的匹配事件。2.根据权利要求1所述的聊天记录匹配事件分析方法,其特征在于:步骤S1中样本知识库中的各事件、行为和聊天记录的事件ID、行为ID和记录ID,及记录事件、行为和聊天记录的所属关系通过样本事件表、样本行为表、样本聊天记录表三种表格进行记录。3.根据权利要求1所述的聊天记录匹配事件分析方法,其特征在于:步骤S1构建的样本知识库中还包括对每个行为是否属于必备行为的标注。4.根据权利要求1所述的聊天记录匹配事件分析方法,其特征在于:步骤S1构建的样本知识库中还包括对各聊天记录的发送方角色和接收方角色进行标注。5.根据权利要求1所述的聊天记录匹配事件分析方法,其特征在于:步骤S2中还包括对数据包中的各聊天记录进行数据预处理,数据预处理包括数据标准化、数据格式转换、实体标注、实体要素替换和聊天内容向量计算。6.根据权利要求1所述的聊天记录匹配事件分析方法,其特征在于:步骤S3的相似度计算中,在通过doc2vec算法得到每条聊天记录的文档向量后,采用余弦相似度计算算法进行计算。7.根据权利要求1所述的聊天记录匹配事件分析方法,其特征在于:步骤S4中根据每组聊天记录的第一记录序列KM1从样本知识库查找该组聊天记录的...

【专利技术属性】
技术研发人员:曾超张辉极孙文琦宿明章许顺鹏王超李婉婷
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1