直播平台语音收集方法、系统及存储介质技术方案

技术编号：25521743 阅读：23 留言：0更新日期：2020-09-04 17:12

本发明专利技术公开了一种直播平台语音收集方法、系统及存储介质，该语音收集方法包括如下步骤：S1：一种直播平台语音收集方法，其包括如下步骤：S1：确认用户身份、收集用户在直播平台上操作产生的原始语音文件；S2：对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据；S3：将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储；S4：对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据；S5：对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。本发明专利技术能够能够对用户产生的语音数据进行筛选、收集和排序、从而实现对用户更精准的智能服务推送。

全部详细技术资料下载

【技术实现步骤摘要】
直播平台语音收集方法、系统及存储介质
本专利技术属于互联网直播
，具体来说涉及一种直播平台语音文件收集方法，以及用于实现该方法的直播平台数据系统及存储介质。
技术介绍
网络直播是一种新兴的网络社交方式。主播利用摄像头等工具在直播平台上进行视频直播。现有的直播平台无法对用户的操作数据进行收集。因而无法针对各个用户的个性进行针对性的服务优化。因此，如何开发出一种新型的直播平台语音文件收集方法，以克服上述问题，是本领域技术人员需要研究的方向。
技术实现思路
本专利技术的目的是提供一种直播平台语音收集方法，能够对用户在直播平台上产生的数据进行收集和排序、掌握用户的服务取向和在线时间，实现对用户的精准服务推送。其采用的技术方案如下：一种直播平台语音收集方法，其包括如下步骤：S1：确认用户身份、收集用户在直播平台上操作产生的原始语音文件；S2：对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据；S3：将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储；S4：对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据；S5：对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。优选的是，上述直播平台语音收集方法中，还包括步骤S6：基于S5所得三次数据生成数据报表，所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。更优选的是，上述直播平台语音收集方法中，还包括步骤S7：基于S6所得数据报表生成数据谱...

【技术保护点】
1.一种直播平台语音收集方法，其特征在于，包括如下步骤：/nS1：确认用户身份、收集用户在直播平台上操作产生的原始语音文件；/nS2：对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据；/nS3：将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储；/nS4：对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据；/nS5：对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。/n

【技术特征摘要】
1.一种直播平台语音收集方法，其特征在于，包括如下步骤：
S1：确认用户身份、收集用户在直播平台上操作产生的原始语音文件；
S2：对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据；
S3：将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储；
S4：对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据；
S5：对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。

2.如权利要求1所述直播平台语音收集方法，其特征在于，还包括步骤S6：基于S5所得三次数据生成数据报表，所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。

3.如权利要求1所述直播平台语音收集方法，其特征在于，还包括步骤S7：基于S6所得数据报表生成数据谱图，该数据谱图中的x轴为时间t、y轴为语音频次。

4.一种直播平台语音收集系统，其特征在于，包...

【专利技术属性】
技术研发人员：宁思乔，刘德友，
申请(专利权)人：全息空间深圳智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人