一种社交媒体平台对话数据的处理方法、装置及设备制造方法及图纸

技术编号:39275226 阅读:7 留言:0更新日期:2023-11-07 10:52
本发明专利技术提供一种社交媒体平台对话数据的处理方法、装置及设备,其中,社交媒体平台对话数据的处理方法包括:获取至少一个社交媒体平台的对话数据;对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到至少一个社交媒体平台的对话数据的第一级过滤结果;将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果;将所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果。本发明专利技术的方案可以针对于不同的社交媒体平台的对话数据进行对话上下文相关性过滤处理,方便使用,具有极强的通用性和易用性。性和易用性。性和易用性。

【技术实现步骤摘要】
一种社交媒体平台对话数据的处理方法、装置及设备


[0001]本专利技术涉及通信
,特别是指一种社交媒体平台对话数据的处理方法、装置及设备。

技术介绍

[0002]目前,各大中文社交媒体平台数据普遍被应用于产生通用数据上,对于对话数据的清洗构造,还没有一种统一的方式,一般都是根据具体的数据编写特定的清洗规则来过滤。
[0003]现有的对话数据清洗方式至少存在以下缺点:
[0004]目前现有的对话数据清洗规则大多数都是针对特定数据专门编写的,如微博评论数据清洗规则,无法应用到其他类型的数据(如知乎问答、微博转发数据等)上,不够通用;
[0005]目前可获取的对话数据清洗规则以代码碎片的形式散布在网络上,需要使用者针对自己的情况进行搜索、改写、重组等操作,过程繁琐;
[0006]对话数据与通用数据不同,除了基本的语句连续性等质量指标,还需要考虑对话上下文的相关性,单纯的使用过滤规则没有办法达到这个目的,对话的相关性不高。

技术实现思路

[0007]本专利技术提供一种社交媒体平台对话数据的处理方法、装置及设备,可以针对于不同的社交媒体平台的对话数据进行对话上下文相关性过滤处理,方便使用,具有极强的通用性和易用性。
[0008]为解决上述技术问题,本专利技术的技术方案如下:
[0009]一种社交媒体平台对话数据的处理方法,所述方法包括:
[0010]获取至少一个社交媒体平台的对话数据;
[0011]对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到所述至少一个社交媒体平台的对话数据的第一级过滤结果;
[0012]将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果;
[0013]将所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果。
[0014]可选的,获取至少一个社交媒体平台的对话数据,包括:
[0015]将至少一个社交媒体平台的对话数据的数据存储路径,使用多进程的数据加载器进行加载,获得至少一个社交媒体平台的对话数据。
[0016]可选的,对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到至少一个社交媒体平台的对话数据的第一级过滤结果,包括以下至少一项:
[0017]利用第一过滤器对第一社交媒体平台的第一对话数据进行过滤,得到第一对话数
据过滤结果;所述第一过滤器具有过滤所述第一对话中回复次数大于第一预设值的句子的第一过滤规则;
[0018]利用第二过滤器对第二社交媒体平台的第二对话数据进行过滤,得到第二对话数据过滤结果;所述第二过滤器具有过滤所述第二对话数据中的广告数据的第二过滤规则;
[0019]利用第三过滤器对第三社交媒体平台的第三对话数据进行过滤,得到第三对话数据过滤结果;所述第三过滤器具有过滤所述第三对话数据中的回复长度大于第二预设值的数据的第三过滤规则;
[0020]利用第四过滤器对第四社交媒体平台的第四对话数据进行过滤,得到第四对话数据过滤结果;所述第四过滤器具有过滤所述第四对话数据中的预设类型的数据的第四过滤规则。
[0021]可选的,将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果,包括:
[0022]将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行标点符号标准化、黑名单词表过滤、隐私信息保护、繁简转换、句子长度限制中的至少一项,得到第二级过滤结果。
[0023]可选的,对所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果,包括:
[0024]将所述第二级过滤结果展开为上下文

响应对;所述上下文

响应对包括按顺序排列的至少一个句子;
[0025]将所述上下文

响应对输入到对话相关性过滤器中,根据不同的相关性阈值进行过滤,输出为满足阈值的上下文

响应对。
[0026]可选的,所述对话相关性过滤器通过以下过程进行训练:
[0027]获取包括至少一个社交媒体平台的历史对话数据的训练集;
[0028]将所述训练集数据进行预处理,得到特征集;
[0029]将所述特征集输入预设网络模型的各层进行处理,输出上下文

响应对;
[0030]利用验证集中的正负样本对所述上下文

响应对进行验证,使得验证集的准确高于一预设值,得到对话相关性过滤器。
[0031]可选的,所述预设网络模型为:基于12层的中文语言模型roberta

base。
[0032]本专利技术还提供一种社交媒体平台对话数据的处理装置,所述装置包括:
[0033]获取模块,用于获取至少一个社交媒体平台的对话数据;
[0034]处理模块,用于对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到所述至少一个社交媒体平台的对话数据的第一级过滤结果;将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果;将所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果。
[0035]本专利技术还提供一种通信设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。
[0036]本专利技术还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。
[0037]本专利技术的上述方案至少包括以下有益效果:
[0038]本专利技术的上述方案,通过获取至少一个社交媒体平台的对话数据;对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到至少一个社交媒体平台的对话数据的第一级过滤结果;将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果;将所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果。可以解决对话数据的清洗规则通用性差,对话数据的清洗操作过程繁琐以及对话数据的相关性不高的问题。能够针对于不同的社交媒体平台的对话数据进行对话上下文相关性过滤处理,操作过程简单,使用方便,具有极强的通用性和易用性。
附图说明
[0039]图1是本专利技术实施例提供的社交媒体平台对话数据的处理方法的流程图;
[0040]图2是本专利技术实施例提供的社交媒体平台对话数据的处理方法的具体流程图;
[0041]图3是本专利技术实施例提供的社交媒体平台对话数据的处理装置的模块图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种社交媒体平台对话数据的处理方法,其特征在于,所述方法包括:获取至少一个社交媒体平台的对话数据;对所述至少一个社交媒体平台的对话数据,分别使用所述对话数据专用的第一级过滤器进行过滤处理,得到所述至少一个社交媒体平台的对话数据的第一级过滤结果;将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果;将所述第二级过滤结果,输入到对话相关性过滤器进行第三级过滤处理,得到最终的目标过滤结果。2.根据权利要求1所述的社交媒体平台对话数据的处理方法,其特征在于,获取至少一个社交媒体平台的对话数据,包括:将至少一个社交媒体平台的对话数据的数据存储路径,使用多进程的数据加载器进行加载,获得至少一个社交媒体平台的对话数据。3.根据权利要求1所述的社交媒体平台对话数据的处理方法,其特征在于,对所述至少一个社交媒体平台的对话数据,分别使用与所述对话数据专用的第一级过滤器进行过滤处理,得到至少一个社交媒体平台的对话数据的第一级过滤结果,包括以下至少一项:利用第一过滤器对第一社交媒体平台的第一对话数据进行过滤,得到第一对话数据过滤结果;所述第一过滤器具有过滤所述第一对话中回复次数大于第一预设值的句子的第一过滤规则;利用第二过滤器对第二社交媒体平台的第二对话数据进行过滤,得到第二对话数据过滤结果;所述第二过滤器具有过滤所述第二对话数据中的广告数据的第二过滤规则;利用第三过滤器对第三社交媒体平台的第三对话数据进行过滤,得到第三对话数据过滤结果;所述第三过滤器具有过滤所述第三对话数据中的回复长度大于第二预设值的数据的第三过滤规则;利用第四过滤器对第四社交媒体平台的第四对话数据进行过滤,得到第四对话数据过滤结果;所述第四过滤器具有过滤所述第四对话数据中的预设类型的数据的第四过滤规则。4.根据权利要求1所述的社交媒体平台对话数据的处理方法,其特征在于,将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行过滤处理,得到第二级过滤结果,包括:将所述至少一个社交媒体平台的对话数据的第一级过滤结果,输入到通用的第二级过滤器进行标点符号标准化、黑名单词表过滤、隐私信息保护、繁简转换、句子长度限...

【专利技术属性】
技术研发人员:黄毅孙豪黄民烈冯俊兰金镝宋溢
申请(专利权)人:清华大学中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1