一种社交媒体平台对话数据的处理方法、装置及设备制造方法及图纸

技术编号：39275226 阅读：7 留言：0更新日期：2023-11-07 10:52

本发明专利技术提供一种社交媒体平台对话数据的处理方法、装置及设备，其中，社交媒体平台对话数据的处理方法包括：获取至少一个社交媒体平台的对话数据；对所述至少一个社交媒体平台的对话数据，分别使用所述对话数据专用的第一级过滤器进行过滤处理，得到至少一个社交媒体平台的对话数据的第一级过滤结果；将所述至少一个社交媒体平台的对话数据的第一级过滤结果，输入到通用的第二级过滤器进行过滤处理，得到第二级过滤结果；将所述第二级过滤结果，输入到对话相关性过滤器进行第三级过滤处理，得到最终的目标过滤结果。本发明专利技术的方案可以针对于不同的社交媒体平台的对话数据进行对话上下文相关性过滤处理，方便使用，具有极强的通用性和易用性。性和易用性。性和易用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种社交媒体平台对话数据的处理方法、装置及设备

[0001]本专利技术涉及通信
，特别是指一种社交媒体平台对话数据的处理方法、装置及设备。

技术介绍

[0002]目前，各大中文社交媒体平台数据普遍被应用于产生通用数据上，对于对话数据的清洗构造，还没有一种统一的方式，一般都是根据具体的数据编写特定的清洗规则来过滤。
[0003]现有的对话数据清洗方式至少存在以下缺点：
[0004]目前现有的对话数据清洗规则大多数都是针对特定数据专门编写的，如微博评论数据清洗规则，无法应用到其他类型的数据(如知乎问答、微博转发数据等)上，不够通用；
[0005]目前可获取的对话数据清洗规则以代码碎片的形式散布在网络上，需要使用者针对自己的情况进行搜索、改写、重组等操作，过程繁琐；
[0006]对话数据与通用数据不同，除了基本的语句连续性等质量指标，还需要考虑对话上下文的相关性，单纯的使用过滤规则没有办法达到这个目的，对话的相关性不高。

技术实现思路

[0007]本专利技术提供一种社交媒体平台对话数据的处理方法、装置及设备，可以针对于不同的社交媒体平台的对话数据进行对话上下文相关性过滤处理，方便使用，具有极强的通用性和易用性。
[0008]为解决上述技术问题，本专利技术的技术方案如下：
[0009]一种社交媒体平台对话数据的处理方法，所述方法包括：
[0010]获取至少一个社交媒体平台的对话数据；
[0011]对所述至少一个社交媒体平台的对话数据，分别使...

【技术保护点】

【技术特征摘要】
1.一种社交媒体平台对话数据的处理方法，其特征在于，所述方法包括：获取至少一个社交媒体平台的对话数据；对所述至少一个社交媒体平台的对话数据，分别使用所述对话数据专用的第一级过滤器进行过滤处理，得到所述至少一个社交媒体平台的对话数据的第一级过滤结果；将所述至少一个社交媒体平台的对话数据的第一级过滤结果，输入到通用的第二级过滤器进行过滤处理，得到第二级过滤结果；将所述第二级过滤结果，输入到对话相关性过滤器进行第三级过滤处理，得到最终的目标过滤结果。2.根据权利要求1所述的社交媒体平台对话数据的处理方法，其特征在于，获取至少一个社交媒体平台的对话数据，包括：将至少一个社交媒体平台的对话数据的数据存储路径，使用多进程的数据加载器进行加载，获得至少一个社交媒体平台的对话数据。3.根据权利要求1所述的社交媒体平台对话数据的处理方法，其特征在于，对所述至少一个社交媒体平台的对话数据，分别使用与所述对话数据专用的第一级过滤器进行过滤处理，得到至少一个社交媒体平台的对话数据的第一级过滤结果，包括以下至少一项：利用第一过滤器对第一社交媒体平台的第一对话数据进行过滤，得到第一对话数据过滤结果；所述第一过滤器具有过滤所述第一对话中回复次数大于第一预设值的句子的第一过滤规则；利用第二过滤器对第二社交媒体平台的第二对话数据进行过滤，得到第二对话数据过滤结果；所述第二过滤器具有过滤所述第二对话数据中的广告数据的第二过滤规则；利用第三过滤器对第三社交媒体平台的第三对话数据进行过滤，得到第三对话数据过滤结果；所述第三过滤器具有过滤所述第三对话数据中的回复长度大于第二预设值的数据的第三过滤规则；利用第四过滤器对第四社交媒体平台的第四对话数据进行过滤，得到第四对话数据过滤结果；所述第四过滤器具有过滤所述第四对话数据中的预设类型的数据的第四过滤规则。4.根据权利要求1所述的社交媒体平台对话数据的处理方法，其特征在于，将所述至少一个社交媒体平台的对话数据的第一级过滤结果，输入到通用的第二级过滤器进行过滤处理，得到第二级过滤结果，包括：将所述至少一个社交媒体平台的对话数据的第一级过滤结果，输入到通用的第二级过滤器进行标点符号标准化、黑名单词表过滤、隐私信息保护、繁简转换、句子长度限...

【专利技术属性】
技术研发人员：黄毅，孙豪，黄民烈，冯俊兰，金镝，宋溢，
申请(专利权)人：清华大学中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人