基于知识图谱的社交媒体大数据主题发现方法技术

技术编号：15746810 阅读：131 留言：0更新日期：2017-07-03 02:56

本发明专利技术涉及一种基于知识图谱的社交媒体大数据主题发现方法，通过知识图谱概率化处理、社交媒体大数据语义相似度计算、主题的模糊密度聚类以及弱信息量主题过滤4个步骤来实现社交媒体大数据的主题发现。知识图谱概率化处理步骤完成知识图谱中三元组事实的置信度评估及其为真概率值的生成，社交媒体大数据语义相似度计算步骤实现每对文档的语义映射图构造以及基于近似图匹配策略评估文档间的语义相似度，主题的模糊密度聚类步骤获取社交媒体大数据的不同主题并自动确定主题的数量，而弱信息量主题过滤步骤删除语义强度不足的主题并将最优的主题列表返回给用户。与现有技术相比，本发明专利技术具有扩展性程度高、自适应能力强以及准确性高等优点，能够有效应用于社会公共安全、民众医疗健康、互联网深度信息服务和电子商务等领域。

Topic discovery method for large data base of social media based on Knowledge Mapping

The invention relates to a method that social media big data theme based on knowledge mapping, fuzzy probability density clustering through knowledge mapping processing, social media data semantic similarity calculation and the theme of the amount of information and weak topic filtering 4 steps to achieve social media big data topic discovery. The probability of knowledge map processing steps completed three tuple of factual knowledge confidence assessment and generate true probability values, each of the steps to achieve the document semantic mapping structure and approximate graph matching based on semantic similarity between documents and assessment strategy of social media and big data semantic similarity computation, fuzzy density clustering steps to acquire different theme theme social media data and automatically determine the theme of the quantity, the amount of information and weak topic filtering steps to remove the semantic strength is insufficient and the list of the best theme theme returned to the user. Compared with the prior art, the invention has a high degree of scalability, strong adaptability and high accuracy, can be effectively applied to the social public security, public health, the depth of the Internet information services and e-commerce and other fields.

全部详细技术资料下载

【技术实现步骤摘要】
基于知识图谱的社交媒体大数据主题发现方法
本专利技术涉及一种主题发现方法，尤其是涉及一种基于知识图谱的社交媒体大数据主题发现方法。
技术介绍
近年来，随着云计算、移动通信和社交网络等技术的迅猛发展，社交媒体平台中所包含的大数据，即社交媒体大数据，越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。随着日积月累，社交媒体大数据，蕴含着丰富的社会信息，其中包含着大量重要社会事件线索信息的网络映射，而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘社交媒体大数据，快速精准地发现其中所隐含的深层次主题，进而在现有被发现主题的基础上，有效预测社会事件未来发展的态势，是促进国家社会治安稳定和知识经济可持续发展的重要手段。社交媒体环境下的主题建模与发现方法，国内外有很多成熟的研究和应用。LHong等人分别采用了LDA模型与“作者-主题”模型对Twitter数据进行主题建模，以此来预测流行的Twitter话题并对推文(tweet)进行主题分类。KWLim等人提出TN(Twitter网络)主题模型，以一种完全非参贝叶斯的方式来联合模拟文本和社交网络。TN主题模型采用PDP(泊松-狄利克雷过程)进行文本建模，而使用高斯过程的随机函数来实现社交网络建模。MJPaul等人基于ATAM(AilmentTopicAspectModel)和LDA主题模型设计了一个主题建模框架来发现Twitter上的健康主题。THNguyen等人提出了一种面向社交媒体的“主题-评论”特征来实现股票价格的预测，并提出新颖的主题模型TSLDA(TopicSentime...
基于知识图谱的社交媒体大数据主题发现方法

【技术保护点】
一种基于知识图谱的社交媒体大数据主题发现方法，其特征在于，包括如下步骤：步骤1、从输入端获取用户现有知识图谱KG＝{<e

【技术特征摘要】
1.一种基于知识图谱的社交媒体大数据主题发现方法，其特征在于，包括如下步骤：步骤1、从输入端获取用户现有知识图谱KG＝{<ei,r,ej>}，其中ei，ej为知识图谱KG中的任意两个实体，r为实体ei到ej的关系，对于KG中的每一个三元组事实<ei,r,ej>，识别出<ei,r,ej>的m个数据源DS1,DS2,…,DSm，进而，对于每个数据源DSx(1≤x≤m)，评估该数据源的可信度，最终融合这m个数据源的可信度来获取三元组事实<ei,r,ej>的置信值；当KG中的每一个三元组事实均处理完毕之后，得到带置信值的中间知识图谱iKG＝{<ei,r,ej,cs>}，其中cs为三元组事实<ei,r,ej>的置信值；接着，对iKG中的置信值进行等价变换，并产生概率化知识图谱pKG＝{<ei,r,ej,pv>}，其中pv＝P(<ei,r,ej>为真|cs)，为条件概率，表示在置信值为cs的条件下，三元组事实<ei,r,ej>为真的概率，用于分别输入步骤2、步骤4；步骤2、针对社交媒体大数据中的每对文档d1和d2，分别抽取这两个文档的实体，进而基于步骤1中生成的概率化知识图谱pKG，将它们所包含的实体映射到pKG上，并融合pKG中实体间的关系及其概率值，从而构造出语义映射图G(V,E,W)，其中V＝V1∪V2∪V’，V1和V2分别为d1和d2这两个文档的实体集合，V’为pKG中V1、V2间关系链接需要访问的实体集合，E为pKG中V1、V2和V’实体间的关系集合，W为从四元组事实<ei,r,ej,pv>到语义强度域ST的映射函数，其中ST为非负实数域的一个真子集，即对于任意<ei,r,ej,pv>∈pKG，W(<ei,r,ej,pv>)＝...

【专利技术属性】
技术研发人员：黄震华，倪娟，程久军，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人