The invention relates to a method that social media big data theme based on knowledge mapping, fuzzy probability density clustering through knowledge mapping processing, social media data semantic similarity calculation and the theme of the amount of information and weak topic filtering 4 steps to achieve social media big data topic discovery. The probability of knowledge map processing steps completed three tuple of factual knowledge confidence assessment and generate true probability values, each of the steps to achieve the document semantic mapping structure and approximate graph matching based on semantic similarity between documents and assessment strategy of social media and big data semantic similarity computation, fuzzy density clustering steps to acquire different theme theme social media data and automatically determine the theme of the quantity, the amount of information and weak topic filtering steps to remove the semantic strength is insufficient and the list of the best theme theme returned to the user. Compared with the prior art, the invention has a high degree of scalability, strong adaptability and high accuracy, can be effectively applied to the social public security, public health, the depth of the Internet information services and e-commerce and other fields.
【技术实现步骤摘要】
基于知识图谱的社交媒体大数据主题发现方法
本专利技术涉及一种主题发现方法,尤其是涉及一种基于知识图谱的社交媒体大数据主题发现方法。
技术介绍
近年来,随着云计算、移动通信和社交网络等技术的迅猛发展,社交媒体平台中所包含的大数据,即社交媒体大数据,越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。随着日积月累,社交媒体大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘社交媒体大数据,快速精准地发现其中所隐含的深层次主题,进而在现有被发现主题的基础上,有效预测社会事件未来发展的态势,是促进国家社会治安稳定和知识经济可持续发展的重要手段。社交媒体环境下的主题建模与发现方法,国内外有很多成熟的研究和应用。LHong等人分别采用了LDA模型与“作者-主题”模型对Twitter数据进行主题建模,以此来预测流行的Twitter话题并对推文(tweet)进行主题分类。KWLim等人提出TN(Twitter网络)主题模型,以一种完全非参贝叶斯的方式来联合模拟文本和社交网络。TN主题模型采用PDP(泊松-狄利克雷过程)进行文本建模,而使用高斯过程的随机函数来实现社交网络建模。MJPaul等人基于ATAM(AilmentTopicAspectModel)和LDA主题模型设计了一个主题建模框架来发现Twitter上的健康主题。THNguyen等人提出了一种面向社交媒体的“主题-评论”特征来实现股票价格的预测,并提出新颖的主题模型TSLDA(TopicSentime ...
【技术保护点】
一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:步骤1、从输入端获取用户现有知识图谱KG={<e
【技术特征摘要】
1.一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:步骤1、从输入端获取用户现有知识图谱KG={<ei,r,ej>},其中ei,ej为知识图谱KG中的任意两个实体,r为实体ei到ej的关系,对于KG中的每一个三元组事实<ei,r,ej>,识别出<ei,r,ej>的m个数据源DS1,DS2,…,DSm,进而,对于每个数据源DSx(1≤x≤m),评估该数据源的可信度,最终融合这m个数据源的可信度来获取三元组事实<ei,r,ej>的置信值;当KG中的每一个三元组事实均处理完毕之后,得到带置信值的中间知识图谱iKG={<ei,r,ej,cs>},其中cs为三元组事实<ei,r,ej>的置信值;接着,对iKG中的置信值进行等价变换,并产生概率化知识图谱pKG={<ei,r,ej,pv>},其中pv=P(<ei,r,ej>为真|cs),为条件概率,表示在置信值为cs的条件下,三元组事实<ei,r,ej>为真的概率,用于分别输入步骤2、步骤4;步骤2、针对社交媒体大数据中的每对文档d1和d2,分别抽取这两个文档的实体,进而基于步骤1中生成的概率化知识图谱pKG,将它们所包含的实体映射到pKG上,并融合pKG中实体间的关系及其概率值,从而构造出语义映射图G(V,E,W),其中V=V1∪V2∪V’,V1和V2分别为d1和d2这两个文档的实体集合,V’为pKG中V1、V2间关系链接需要访问的实体集合,E为pKG中V1、V2和V’实体间的关系集合,W为从四元组事实<ei,r,ej,pv>到语义强度域ST的映射函数,其中ST为非负实数域的一个真子集,即对于任意<ei,r,ej,pv>∈pKG,W(<ei,r,ej,pv>)=...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。