直播平台语音收集方法、系统及存储介质技术方案

技术编号:25521743 阅读:23 留言:0更新日期:2020-09-04 17:12
本发明专利技术公开了一种直播平台语音收集方法、系统及存储介质,该语音收集方法包括如下步骤:S1:一种直播平台语音收集方法,其包括如下步骤:S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。本发明专利技术能够能够对用户产生的语音数据进行筛选、收集和排序、从而实现对用户更精准的智能服务推送。

【技术实现步骤摘要】
直播平台语音收集方法、系统及存储介质
本专利技术属于互联网直播
,具体来说涉及一种直播平台语音文件收集方法,以及用于实现该方法的直播平台数据系统及存储介质。
技术介绍
网络直播是一种新兴的网络社交方式。主播利用摄像头等工具在直播平台上进行视频直播。现有的直播平台无法对用户的操作数据进行收集。因而无法针对各个用户的个性进行针对性的服务优化。因此,如何开发出一种新型的直播平台语音文件收集方法,以克服上述问题,是本领域技术人员需要研究的方向。
技术实现思路
本专利技术的目的是提供一种直播平台语音收集方法,能够对用户在直播平台上产生的数据进行收集和排序、掌握用户的服务取向和在线时间,实现对用户的精准服务推送。其采用的技术方案如下:一种直播平台语音收集方法,其包括如下步骤:S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。优选的是,上述直播平台语音收集方法中,还包括步骤S6:基于S5所得三次数据生成数据报表,所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。更优选的是,上述直播平台语音收集方法中,还包括步骤S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。为实现上述直播平台信息审核方法,本专利技术还公开了一种直播平台语音收集系统,其包括:收集模块,一次筛选模块,转化模块,存储模块,二次筛选模块,排序模块、制表模块和制图模块;所述收集模块用于收集用户在直播平台上操作产生的原始语音文件;所述一次筛选模块用于读取收集模块、筛除原始语音文件中的破损文件;所述转化模块用于读取一次筛选模块、将未破损的语音文件转化为文本文件;所述存储模块用于将转化模块生成的文本文件按对应用户ID进行存储;所述二次筛选模块用于对存储模块进行清洗、筛除含有乱码的文本文件;所述排序模块用于对未含乱码的文本文件进行关键词抓取、并依据关键词进行排序;所述制表模块用于基于排序模块的排序结果生成数据报表;所述制图模块用于基于所述数据报表生成数据谱图。为实现上述直播平台信息审核方法,本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质中存有计算机程序,所述计算机程序在被执行时实现上述直播平台数据。通过采用上述技术方案:首先对语音数据进行收集及第一次筛选,筛除无效的破损文件。随后通过将语音数据转化为文本数据,针对文本数据实现对关键词的抓取,并根据关键词的抓取结果实现排序。同时,通过统计语音数据的次数和发生时间、生成相应的数据列表和数据谱图。由此,本专利技术能够收集用户语音的频次和时间、实现针对关键词排序,对用户服务实现数据积累,平台工作人员通过数据分析可以直观的掌握用户的服务取向和在线时间,从而实现对用户更精准的智能服务推送。附图说明上面结合附图与具体实施方式对本专利技术作进一步详细的说明:图1为本专利技术实施例1的流程示意图;图2为本专利技术实施例1的结构示意图;各附图标记与部件名称对应关系如上:1、收集模块;2、一次筛选模块;3、转化模块;4、存储模块;5、二次筛选模块;6、排序模块;7、制表模块;8、制图模块。具体实施方式为了更清楚地说明本专利技术的技术方案,上面将结合各个实施例作进一步描述。一种直播平台语音收集系统,其包括:收集模块1,一次筛选模块2,转化模块3,存储模块4,二次筛选模块5,排序模块6、制表模块7和制图模块8。其中,所述收集模块1用于收集用户在直播平台上操作产生的原始语音文件;所述一次筛选模块2用于读取收集模块1、筛除原始语音文件中的破损文件;所述转化模块3用于读取一次筛选模块2、将未破损的语音文件转化为文本文件;所述存储模块4用于将转化模块3生成的文本文件按对应用户ID进行存储;所述二次筛选模块5用于对存储模块4进行清洗、筛除含有乱码的文本文件;所述排序模块6用于对未含乱码的文本文件进行关键词抓取、并依据关键词进行排序;所述制表模块7用于基于排序模块6的排序结果生成数据报表;所述制图模块8用于基于所述数据报表生成数据谱图。其工作过程如下:S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。S6:基于S5所得三次数据生成数据报表,所述数据报表中包括用于显示语音频次的横向栏和用于显示语音所处时间段的纵向栏;S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。实践中,平台工作人员通过将语音数据转化为文本数据,针对文本数据实现对关键词的抓取,并根据关键词的抓取结果实现排序。同时,通过统计语音数据的次数和发生时间、生成相应的数据列表和数据谱图。以上所述,仅为本专利技术的具体实施例,任何熟悉本领域技术的技术人员在本专利技术公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本专利技术的保护范围之内。本专利技术的保护范围以权利要求书的保护范围为准。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本专利技术构成任何限制。本文档来自技高网...

【技术保护点】
1.一种直播平台语音收集方法,其特征在于,包括如下步骤:/nS1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;/nS2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;/nS3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;/nS4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;/nS5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。/n

【技术特征摘要】
1.一种直播平台语音收集方法,其特征在于,包括如下步骤:
S1:确认用户身份、收集用户在直播平台上操作产生的原始语音文件;
S2:对S1所得原始语音文件进行清洗、筛除原始语音文件中的破损文件、形成一次数据;
S3:将S2所得一次数据转化为文本文件、并将该文本文件按对应用户ID进行存储;
S4:对S3所得文本文件进行清洗、筛除含有乱码的文本文件、形成二次数据;
S5:对S4所得二次数据进行关键词抓取、并依据关键词进行排序、形成三次数据。


2.如权利要求1所述直播平台语音收集方法,其特征在于,还包括步骤S6:基于S5所得三次数据生成数据报表,所述数据报表用于显示基于同一关键词的语音频次和语音所处时间段。


3.如权利要求1所述直播平台语音收集方法,其特征在于,还包括步骤S7:基于S6所得数据报表生成数据谱图,该数据谱图中的x轴为时间t、y轴为语音频次。


4.一种直播平台语音收集系统,其特征在于,包...

【专利技术属性】
技术研发人员:宁思乔刘德友
申请(专利权)人:全息空间深圳智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1