当前位置: 首页 > 专利查询>杨忠哲专利>正文

针对在线话题的大数据挖掘方法及大数据挖掘系统技术方案

技术编号:34262787 阅读:12 留言:0更新日期:2022-07-24 14:13
本申请实施例公开了针对在线话题的大数据挖掘方法及大数据挖掘系统;鉴于指定话题兴趣挖掘模型为基于轻量化配置规则配置所得,因此通过指定话题兴趣挖掘模型对待进行兴趣挖掘的在线话题大数据进行挖掘处理,一方面可以快速地得到用户兴趣知识分布,提高用户兴趣挖掘的时效性,另一方面还能够提高用户兴趣知识分布的准确性和完整性,提高用户兴趣挖掘的质量。综上,借助指定话题兴趣挖掘模型以及轻量化配置,能够提高用户兴趣知识分布的效率和质量。量。量。

Big data mining method and system for online topics

【技术实现步骤摘要】
针对在线话题的大数据挖掘方法及大数据挖掘系统


[0001]本申请涉及大数据
,尤其涉及一种针对在线话题的大数据挖掘方法及大数据挖掘系统。

技术介绍

[0002]在线话题分析是自然语言处理(Natural Language Processing,NLP)的其中一个应用分支,其目的是通过对用户的社交平台话题进行大数据挖掘以得到有价值的数据资产。相关的在线话题分析通常基于AI模型实现,但是经专利技术人深入研究和分析发现,传统的AI模型一方面难以保障话题大数据挖掘的时效性,另一方面难以保障话题大数据挖掘的精度,因此,如何有效改善上述问题是当下的一个难点。

技术实现思路

[0003]本申请的一个目的是提供一种针对在线话题的大数据挖掘方法及大数据挖掘系统。
[0004]本申请的技术方案是通过如下至少部分实施例实现的。
[0005]本申请实施例提供了一种针对在线话题的大数据挖掘方法,应用于与话题活动平台系统通信连接的大数据挖掘系统,所述方法至少包括:在接收到所述话题活动平台系统发送的用户兴趣挖掘请求时,利用所述用户兴趣挖掘请求,从与所述话题活动平台系统对应的设定关系型数据库中调用待进行兴趣挖掘的在线话题大数据;将所述待进行兴趣挖掘的在线话题大数据传输到指定话题兴趣挖掘模型,通过所述指定话题兴趣挖掘模型获得所述待进行兴趣挖掘的在线话题大数据的用户兴趣知识分布;其中,所述指定话题兴趣挖掘模型为基于轻量化配置规则配置所得。
[0006]基于本申请实施例,鉴于指定话题兴趣挖掘模型为基于轻量化配置规则配置所得,因此通过指定话题兴趣挖掘模型对待进行兴趣挖掘的在线话题大数据进行挖掘处理,一方面可以快速地得到用户兴趣知识分布,提高用户兴趣挖掘的时效性,另一方面还能够提高用户兴趣知识分布的准确性和完整性,提高用户兴趣挖掘的质量。综上,借助指定话题兴趣挖掘模型以及轻量化配置,能够提高用户兴趣知识分布的效率和质量。
[0007]在一种可独立实施的实施例中,所述指定话题兴趣挖掘模型的配置方式如下:采集已认证在线话题大数据并确定已认证在线话题大数据的先验依据;将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布;其中,所述轻量型话题兴趣短语抽取节点包括待进行配置的维度指标优化变量;依据设定规模将所述目标话题兴趣短语分布拆解为多个交互话题兴趣短语集,并将所述目标话题兴趣短语分布传输到话题兴趣短语整理节点,所述话题兴趣短语整理节点包括多个轻量型话题兴趣短语处理子节点,每个轻量型话题兴趣短语处理子节点用于对所述交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘;利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,
以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置。
[0008]基于本申请实施例,基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点中,包括待进行配置的维度指标优化变量,维度指标优化变量可以对轻量型话题兴趣短语抽取节点抽取的已认证在线话题大数据的话题兴趣短语分布distribution1进行维度指标优化,如此设计,对维度指标完成优化的话题兴趣短语分布distribution1进行轻量化升级,可以理解为灵活定位两极轻量判定指标,从而减少了轻量化短语采样处理和非轻量化短语采样处理之间的采样质量区别,此外,话题兴趣短语整理节点可以对多个交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘,从而保障生成的话题兴趣短语情绪字段分布能够充分考虑到不同阶段的话题兴趣,可以提高基于话题兴趣短语情绪字段分布和先验依据配置的话题兴趣挖掘模型的挖掘准确性和完整性,且轻量型话题兴趣短语抽取节点和话题兴趣短语整理节点皆经过轻量化处理,这样可以实现指定话题兴趣挖掘模型的模型架构最小化,不仅可以保障挖掘质量,还可以减少额外的运算资源开销。
[0009]在一种可独立实施的实施例中,所述将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布,包括:对所述已认证在线话题大数据进行话题兴趣短语总结操作,确定所述已认证在线话题大数据对应的话题兴趣短语分布distribution1;利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的维度指标进行第一优化,确定完成优化的话题兴趣短语分布distribution2;利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作,确定话题兴趣短语分布distribution3;对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布。
[0010]基于本申请实施例,鉴于所述维度指标优化变量是灵活可调的(可配置的),这样能够减少轻量化短语采样处理和非轻量化短语采样处理之间的采样差异。
[0011]在一种可独立实施的实施例中,所述利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作,确定话题兴趣短语分布distribution3,包括:基于指定触发机制的第一判定指标、以及所述已认证在线话题大数据和所述话题兴趣短语分布distribution2对应维度指标的量化比较结果,确定所述话题兴趣短语分布distribution3。
[0012]在一种可独立实施的实施例中,所述对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布,包括:对所述话题兴趣短语分布distribution3进行短语采样处理,确定话题兴趣短语分布distribution4;利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的短语描述值进行第二优化,确定完成优化的话题兴趣短语分布distribution5;对所述话题兴趣短语分布distribution4和所述话题兴趣短语分布distribution5进行话题兴趣短语整理,确定所述目标话题兴趣短语分布。
[0013]基于本申请实施例,为尽可能减少两极简化处理对于抽取的话题兴趣短语的准确性和细节内容的干扰,可在所述话题兴趣短语分布distribution4中增设原本的已认证在线话题大数据的话题兴趣短语,比如将对话题兴趣短语分布distribution1进行第二完成优化的话题兴趣短语分布distribution5和话题兴趣短语分布distribution4进行整理。
[0014]在一种可独立实施的实施例中,所述话题兴趣短语整理节点中的第U个轻量型话题兴趣短语处理子节点的导出信息为第U+1个轻量型话题兴趣短语处理子节点的原料信息,首个轻量型话题兴趣短语处理子节点的原料信息为所述目标话题兴趣短语分布,末尾的轻量型话题兴趣短语处理子节点的导出信息为所述话题兴趣短语情绪字段分布,U为正整数。
[0015]基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对在线话题的大数据挖掘方法,其特征在于,应用于与话题活动平台系统通信连接的大数据挖掘系统,所述方法至少包括:在接收到所述话题活动平台系统发送的用户兴趣挖掘请求时,利用所述用户兴趣挖掘请求,从与所述话题活动平台系统对应的设定关系型数据库中调用待进行兴趣挖掘的在线话题大数据;将所述待进行兴趣挖掘的在线话题大数据传输到指定话题兴趣挖掘模型,通过所述指定话题兴趣挖掘模型获得所述待进行兴趣挖掘的在线话题大数据的用户兴趣知识分布;其中,所述指定话题兴趣挖掘模型为基于轻量化配置规则配置所得。2.根据权利要求1所述的方法,其特征在于,所述指定话题兴趣挖掘模型的配置方式如下:采集已认证在线话题大数据并确定已认证在线话题大数据的先验依据;将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布;其中,所述轻量型话题兴趣短语抽取节点包括待进行配置的维度指标优化变量;依据设定规模将所述目标话题兴趣短语分布拆解为多个交互话题兴趣短语集,并将所述目标话题兴趣短语分布传输到话题兴趣短语整理节点,所述话题兴趣短语整理节点包括多个轻量型话题兴趣短语处理子节点,每个轻量型话题兴趣短语处理子节点用于对所述交互话题兴趣短语集进行话题兴趣短语整理和潜在的话题兴趣短语挖掘;利用所述话题兴趣短语整理节点生成的话题兴趣短语情绪字段分布,以及所述已认证在线话题大数据的先验依据对所述基础话题兴趣挖掘模型进行配置。3.根据权利要求2所述的方法,其特征在于,所述将所述已认证在线话题大数据传输到基础话题兴趣挖掘模型的轻量型话题兴趣短语抽取节点,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布,包括:对所述已认证在线话题大数据进行话题兴趣短语总结操作,确定所述已认证在线话题大数据对应的话题兴趣短语分布distribution1;利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的维度指标进行第一优化,确定完成优化的话题兴趣短语分布distribution2;利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作,确定话题兴趣短语分布distribution3;对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣短语分布。4.根据权利要求3所述的方法,其特征在于,所述利用所述已认证在线话题大数据和所述话题兴趣短语分布distribution2进行轻量化更新操作,确定话题兴趣短语分布distribution3,包括:基于指定触发机制的第一判定指标、以及所述已认证在线话题大数据和所述话题兴趣短语分布distribution2对应维度指标的量化比较结果,确定所述话题兴趣短语分布distribution3。5.根据权利要求4所述的方法,其特征在于,所述对所述话题兴趣短语分布distribution3进行短语采样处理,确定所述已认证在线话题大数据对应的目标话题兴趣
短语分布,包括:对所述话题兴趣短语分布distribution3进行短语采样处理,确定话题兴趣短语分布distribution4;利用所述维度指标优化变量对所述话题兴趣短语分布distribution1的短语描述值进行第二优化,确定完成优化的话题兴趣短语分布distribution5;对所述话题兴趣短语分布distribution4和所述话题兴趣短语分布distribution5进行话题兴趣短语整理,确定所述目标话题兴趣短语分布。6.根据权利要求2所述的方法,其特征在于,所述话题兴趣短语整理节点中的第U个轻量型话题兴趣短语处理子节点的导出信息为第U+1个轻量型话题兴趣短语处理子节点的原料信息,首个轻量型话题兴趣短语处理子节点的原料信息为所述目标话题兴趣短语分布,末尾的轻量型话题兴趣短语处理子节点的导出信息为所述话题兴趣短语情绪字段分布,U为正整数。7.根据权利要求2所述的方法,其特征在于,对于其中一个轻量型话题兴趣短语处理子节点,该轻量型话题兴趣短语处理子节点用于基于如下方式,对传输到该轻量型话题兴趣短语处理子节点的原料型话题兴趣短语分布的交互话题兴趣短语集进行话题兴趣...

【专利技术属性】
技术研发人员:杨忠哲
申请(专利权)人:杨忠哲
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1