社交网络上短文本数据的数据处理方法及应用技术

技术编号:18940999 阅读:30 留言:0更新日期:2018-09-15 11:10
社交网络上短文本数据的数据处理方法、数据处理装置和电子设备。该数据处理方法包括:获取社交网络上用户的短文本数据;结合短文本数据以形成长文档;获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息;将与主题相关的关键词和用户真实意图信息输入LDA主题模型,以获得第一文档‑主题分布和第一主题‑关键词分布;将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型,以获得第二文档‑主题分布和第二主题‑关键词分布;以及,基于所述第一文档‑主题分布与所述第二文档‑主题分布之间的判定,确定所述长文档的主题。这样,可以通过处理短文本数据获得与用户相关的主题信息,准确地确定用户兴趣。

Data processing method and application of short text data on social network

Data processing method, data processing device and electronic equipment of short text data on social network. The data processing method includes: obtaining short text data of users on social networks; combining short text data to form a long document; obtaining keywords related to the topic, keyword pairs related to the topic and user's real intention information in the long document; and inputting keywords related to the topic and user's real intention information into LD. A topic model to obtain the first document topic distribution and the first topic keyword distribution; input the topic-related keyword pairs and the true intention information into the IBTM topic model to obtain the second document topic distribution and the second topic keyword distribution; and, based on the first document topic distribution Determine the theme of the long document with the judgement between the second document and topic distribution. In this way, user interest can be accurately determined by processing short text data to obtain user-related topic information.

【技术实现步骤摘要】
社交网络上短文本数据的数据处理方法及应用
本申请总的来说地涉及数据处理领域,且更为具体地,涉及一种用于社交网络上短文本数据的数据处理方法、数据处理装置和电子设备。
技术介绍
随着社交媒体的发展,越来越多的用户开始通过社交平台(例如,推特、微博)向他人传递信息、分享自己的想法和发布自己感兴趣的内容等。在此过程中,产生大量与用户密切相关的文本信息。如何对这些文本信息进行文本数据挖掘以挖掘出有用的知识成为重要的任务,例如,通过对文本信息处理挖掘出文本信息中包含了哪些主题、用户对哪些主题感兴趣等。由于这类文本信息的独特特性,其文本较短通常少于140个字,导致在利用现有的主题模型对该类短文本信息进行数据挖掘的过程中遇到诸多问题。因此,需要适用于该类短文本信息数据挖掘的数据挖掘方案。
技术实现思路
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于社交网络上短文本数据的数据处理方法,其通过基于LDA主题模型和IBTM主题模型处理短文本数据而获得与用户相关的主题信息,可以准确地确定用户兴趣。根据本申请的一方面,提供了一种用于社交网络上短文本数据的数据处理方法,包括:获取用户的短文本数据;结合预设数量的所述短文本数据以形成长文档;对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息;将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型,以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布;将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型,以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布;以及,基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定,确定所述长文档的主题。在上述数据处理方法中,对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息的步骤,包括:对所述长文档中的内容进行去重和去标点;对去重和去标点之后的所述长文档进行分词,并对每一分词进行词性标记;统计各分词的词频;选择词频超过预设阈值的分词为所述与主题相关的关键词,其中,设定同时出现的所述与主题相关的关键词为所述与主题相关的关键词对;以及,按照预设规则进行分词组合以获得所述用户真实意图信息。在上述数据处理方法中,将所述与主题相关的关键词和所述真实意图信息输入LDA主题模型,以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布的步骤,包括:将狄利克雷先验和预设主题数量输入所述LDA主题模型;和,基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词进行增量式吉布斯采样,以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。在上述数据处理方法中,将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型,以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布的步骤,包括:将狄利克雷先验和预设主题数量输入所述IBTM主题模型;和,基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词对进行增量式吉布斯采样,以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。在上述数据处理方法中,基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定,确定所述长文档的主题的步骤,包括:选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布;选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布;确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于预设阈值;响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定,确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题;以及,响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定,确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。在上述数据处理方法中,基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定,确定所述长文档的主题,包括:选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布;选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布;确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值;响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于所述最佳主题数量的第二文档-主题分布中文档-主题概率最大值和最小值之间的差值的判定,确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题;以及,响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值小于预设阈值的判定,确定所述最佳主题数量的第二文档-主题分布中的主题为所述长文档的主题。在上述数据处理方法中,选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布的步骤,包括:对通过所述LDA主题模型得到的所述第一文档-主题分布中各文档-主题概率进行归一化处理;以降序的方式排序经过归一化处理之后的所述第一文档-主题分布的各主题;以及,筛选出头部预设数量的主题作为所述最佳主题数量的第一文档-主题分布。在上述数据处理方法中,选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布的步骤,包括:对通过所述IBTM主题模型得到的所述第二文档-主题分布中各文档-主题概率进行归一化处理;以降序的方式排序经过归一化处理之后的所述第二文档-主题分布的各主题;以及,筛选出头部预设数量的主题作为所述最佳主题数量的第二文档-主题分布。在上述数据处理方法中,所述数据处理方法,还包括:基于所述长文档的各所述主题对应的主题-关键词分布,确定与所述主题对应的主题标签。在上述数据处理方法中,基于所述长文档的各所述主题对应的主题-关键词分布,确定与所述主题对应的主题标签的步骤,包括:对所述长文档的各所述主题对应的主题-关键词分布分别进行归一化处理;以降序的方式分别排序经过归一化处理之后的各相同主题下的主题-关键词分布;以及,筛选出头部预设数量的各相同主题下的主题-关键词分布中的关键词作为所述与所述主题对应的主题标签。在上述数据处理方法中,所述短文本数据为微博数据,所述主题为用户兴趣,以及,所述与主题对应的主题标签为兴趣标签。在上述数据处理方法中,在获取用户的短文本数据的步骤中,所述用户的短文本数据为该用户最近一段时间内更新的微博数据本文档来自技高网...

【技术保护点】
1.一种社交网络上短文本数据的数据处理方法,包括:获取社交网络上用户的短文本数据;结合预设数量的所述短文本数据以形成长文档;对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息;将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型,以获得所述LDA主题模型的第一文档‑主题分布和第一主题‑关键词分布;将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型,以获得所述IBTM主题模型的第二文档‑主题分布和第二主题‑关键词分布;以及基于所述LDA主题模型的所述第一文档‑主题分布与所述IBTM主题模型的所述第二文档‑主题分布之间的判定,确定所述长文档的主题。

【技术特征摘要】
1.一种社交网络上短文本数据的数据处理方法,包括:获取社交网络上用户的短文本数据;结合预设数量的所述短文本数据以形成长文档;对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息;将所述与主题相关的关键词和所述用户真实意图信息输入LDA主题模型,以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布;将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型,以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布;以及基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定,确定所述长文档的主题。2.根据权利要求1所述的数据处理方法,其中,对所述长文档进行预处理以获得所述长文档中与主题相关的关键词、与主题相关的关键词对和用户真实意图信息,包括:对所述长文档中的内容进行去重和去标点;对去重和去标点之后的所述长文档进行分词,并对每一分词进行词性标记;统计各分词的词频;选择词频超过预设阈值的分词为所述与主题相关的关键词,其中,设定同时出现的所述与主题相关的关键词为所述与主题相关的关键词对;以及按照预设规则进行分词组合以获得所述用户真实意图信息。3.根据权利要求2所述的数据处理方法,其中,将所述与主题相关的关键词和所述真实意图信息输入LDA主题模型,以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布,包括:将狄利克雷先验和预设主题数量输入所述LDA主题模型;和基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词进行增量式吉布斯采样,以获得所述LDA主题模型的第一文档-主题分布和第一主题-关键词分布。4.根据权利要求3所述的数据处理方法,其中,将所述与主题相关的关键词对和所述真实意图信息输入IBTM主题模型,以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布的步骤,包括:将狄利克雷先验和预设主题数量输入所述IBTM主题模型;和基于所述狄利克雷先验、预设主题数量、所述用户真实意图信息和所述与主题相关的关键词对进行增量式吉布斯采样,以获得所述IBTM主题模型的第二文档-主题分布和第二主题-关键词分布。5.根据权利要求4所述的数据处理方法,其中,基于所述LDA主题模型的所述第一文档-主题分布与所述IBTM主题模型的所述第二文档-主题分布之间的判定,确定所述长文档的主题,包括:选择通过所述LDA主题模型得到的所述第一文档-主题分布中预设数量的主题作为最佳主题数量的第一文档-主题分布;选择通过所述IBTM主题模型得到的所述第二文档-主题分布中对应数量的主题作为最佳主题数量的第二文档-主题分布;确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值是否大于预设阈值;响应于确定所述最佳主题数量的第一文档-主题分布中文档-主题概率最大值和最小值之间的差值大于预设阈值的判定,确定所述最佳主题数量的第一文档-主题分布中的主题为所述长文档的主题;以及响应于确定所述最佳主题数量的第一文档...

【专利技术属性】
技术研发人员:杨鹏
申请(专利权)人:北京慧闻科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1