当前位置: 首页 > 专利查询>同济大学专利>正文

基于知识图谱的社交媒体大数据主题发现方法技术

技术编号:15746810 阅读:131 留言:0更新日期:2017-07-03 02:56
本发明专利技术涉及一种基于知识图谱的社交媒体大数据主题发现方法,通过知识图谱概率化处理、社交媒体大数据语义相似度计算、主题的模糊密度聚类以及弱信息量主题过滤4个步骤来实现社交媒体大数据的主题发现。知识图谱概率化处理步骤完成知识图谱中三元组事实的置信度评估及其为真概率值的生成,社交媒体大数据语义相似度计算步骤实现每对文档的语义映射图构造以及基于近似图匹配策略评估文档间的语义相似度,主题的模糊密度聚类步骤获取社交媒体大数据的不同主题并自动确定主题的数量,而弱信息量主题过滤步骤删除语义强度不足的主题并将最优的主题列表返回给用户。与现有技术相比,本发明专利技术具有扩展性程度高、自适应能力强以及准确性高等优点,能够有效应用于社会公共安全、民众医疗健康、互联网深度信息服务和电子商务等领域。

Topic discovery method for large data base of social media based on Knowledge Mapping

The invention relates to a method that social media big data theme based on knowledge mapping, fuzzy probability density clustering through knowledge mapping processing, social media data semantic similarity calculation and the theme of the amount of information and weak topic filtering 4 steps to achieve social media big data topic discovery. The probability of knowledge map processing steps completed three tuple of factual knowledge confidence assessment and generate true probability values, each of the steps to achieve the document semantic mapping structure and approximate graph matching based on semantic similarity between documents and assessment strategy of social media and big data semantic similarity computation, fuzzy density clustering steps to acquire different theme theme social media data and automatically determine the theme of the quantity, the amount of information and weak topic filtering steps to remove the semantic strength is insufficient and the list of the best theme theme returned to the user. Compared with the prior art, the invention has a high degree of scalability, strong adaptability and high accuracy, can be effectively applied to the social public security, public health, the depth of the Internet information services and e-commerce and other fields.

【技术实现步骤摘要】
基于知识图谱的社交媒体大数据主题发现方法
本专利技术涉及一种主题发现方法,尤其是涉及一种基于知识图谱的社交媒体大数据主题发现方法。
技术介绍
近年来,随着云计算、移动通信和社交网络等技术的迅猛发展,社交媒体平台中所包含的大数据,即社交媒体大数据,越发显现4“V”(Volume、Velocity、Variety、Veracity)特性。随着日积月累,社交媒体大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。深度分析和挖掘社交媒体大数据,快速精准地发现其中所隐含的深层次主题,进而在现有被发现主题的基础上,有效预测社会事件未来发展的态势,是促进国家社会治安稳定和知识经济可持续发展的重要手段。社交媒体环境下的主题建模与发现方法,国内外有很多成熟的研究和应用。LHong等人分别采用了LDA模型与“作者-主题”模型对Twitter数据进行主题建模,以此来预测流行的Twitter话题并对推文(tweet)进行主题分类。KWLim等人提出TN(Twitter网络)主题模型,以一种完全非参贝叶斯的方式来联合模拟文本和社交网络。TN主题模型采用PDP(泊松-狄利克雷过程)进行文本建模,而使用高斯过程的随机函数来实现社交网络建模。MJPaul等人基于ATAM(AilmentTopicAspectModel)和LDA主题模型设计了一个主题建模框架来发现Twitter上的健康主题。THNguyen等人提出了一种面向社交媒体的“主题-评论”特征来实现股票价格的预测,并提出新颖的主题模型TSLDA(TopicSentimentLatentDirichletAllocation)来高效融合主题和评论。WZhao等人利用LDA模型检测纽约时报中代表性主题,但由于推文的短文本特性使得LDA模型不能很好地发现Twitter中有代表性的主题。为此,作者提出了一种基于推文的LDA模型(Twitter-LDA),然后使用文本挖掘技术对比Twitter和纽约时报的主题,并为进一步信息检索和数据挖掘的研究提供参考。然而我们发现,社交媒体大数据有着许多自身的特点,包括时效性强、内容简短、碎片化程度高以及关联性强等。这些特点,使得现有技术存在如下两方面的缺陷,主要表现在:(1)现有技术大都基于PLSI(ProbabilisticLatentSemanticIndexing)、LDA(LatentDirichletAllocation)等主题模型(概率图模型)来实现主题发现。由于社交媒体大数据具有内容简短、碎片化程度高等特点,使得这些方法在捕获数据语义信息、自动确定主题数量以及过滤弱信息量主题等方面存在明显的缺陷,从而严重影响所发现主题的质量。(2)现有技术大都只注重结果的准确程度,然而社交媒体大数据的强时效性需要现有方法在准确率和时间代价之间取得均衡,并且具有较高的可扩展性。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种高效、准确的社交媒体大数据主题发现方法,具有扩展性程度高、自适应能力强以及准确性高等优点。本专利技术技术方案为:一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:步骤1、从输入端获取用户现有知识图谱KG={<ei,r,ej>},其中ei,ej为知识图谱KG中的任意两个实体,r为实体ei到ej的关系,对于KG中的每一个三元组事实<ei,r,ej>,本专利技术识别出<ei,r,ej>的m个数据源DS1,DS2,…,DSm,进而,对于每个数据源DSx(1≤x≤m),评估该数据源的可信度,最终融合这m个数据源的可信度来获取三元组事实<ei,r,ej>的置信值。当KG中的每一个三元组事实均处理完毕之后,本专利技术得到带置信值的中间知识图谱iKG={<ei,r,ej,cs>},其中cs为三元组事实<ei,r,ej>的置信值。接着,本专利技术对iKG中的置信值进行等价变换,并产生概率化知识图谱pKG={<ei,r,ej,pv>},其中pv=P(<ei,r,ej>为真|cs),为条件概率,表示在置信值为cs的条件下,三元组事实<ei,r,ej>为真的概率,用于分别输入步骤2、步骤4。步骤2、本专利技术针对社交媒体大数据中的每对文档d1和d2,分别抽取这两个文档的实体,进而基于步骤1中生成的概率化知识图谱pKG,将它们所包含的实体映射到pKG上,并融合pKG中实体间的关系及其概率值,从而构造出语义映射图G(V,E,W),其中V=V1∪V2∪V’,V1和V2分别为d1和d2这两个文档的实体集合,V’为pKG中V1、V2间关系链接需要访问的实体集合,E为pKG中V1、V2和V’实体间的关系集合,W为从四元组事实<ei,r,ej,pv>到语义强度域ST的映射函数,其中ST为非负实数域的一个真子集,即对于任意<ei,r,ej,pv>∈pKG,W(<ei,r,ej,pv>)=st∈ST。基于构造出来的语义映射图G(V,E,W),本专利技术使用近似图匹配策略来获取d1和d2这两个文档的语义相似度。本专利技术首先对G(V,E,W)进行剪枝处理,即对于G(V,E,W)中不相交的两部分实体集合(对应d1和d2这两个文档中的实体),只保留它们实体间的最小语义强度路径,并删除其它所有的路径,从而得到剪枝后的语义映射图G’(V’,E’,W’),其中V’=V,W’=W,而E’为语义映射图G剪枝后所保留下来的关系。然后,本专利技术采用图编辑距离技术在语义映射图G’(V’,E’,W’)中进行近似的语义匹配,并计算出d1和d2这两个文档的近似语义相似度。步骤3、当社交媒体大数据中每对文档的语义相似度计算完毕之后,本专利技术基于DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise,基于密度的聚类)算法,并重新构造DBSCAN算法中的距离度量函数DIS以及模糊化处理两个输入参数:即领域半径ε和领域内最少文档量miD,来实施文档主题的模糊聚类,并最终得到k个不同的主题T1,T2,…,Tk。步骤4、本专利技术基于步骤1中产生的概率化知识图谱pKG,对步骤3产生的k个主题T1,T2,…,Tk进行语义强度评估,获取每个主题所包含的语义信息量,然后,对这些主题按照信息量的强弱进行降序排序形成主题列表。在此基础上,本专利技术构建编码长度函数cl(θ),其中θ为主题列表的分割点,进而利用最小描述长度(MDL:MinimumDescriptionLength)准则,通过最小化cl(θ)来获取θ的最佳取值,并将主题列表中分割点θ之后的主题执行删除操作,从而获得并向用户返回最优的θ个主题T’1,T’2,…,T’θ。本专利技术具有以下优点:1、本专利技术充分考虑社交媒体大数据多模态并存的特点,从而具有较高的可用性。2、本专利技术基于知识图谱,并利用知识图谱丰富的数据语义信息以及强大的语义推理能力,来实现社交媒体大数据深层次主题的发现,能够显著提高主题发现的准确度。3、本专利技术对弱信息量主题进行有效过滤,能够解决主题发现过程中主题噪声干扰问题。与本文档来自技高网
...
基于知识图谱的社交媒体大数据主题发现方法

【技术保护点】
一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:步骤1、从输入端获取用户现有知识图谱KG={<e

【技术特征摘要】
1.一种基于知识图谱的社交媒体大数据主题发现方法,其特征在于,包括如下步骤:步骤1、从输入端获取用户现有知识图谱KG={<ei,r,ej>},其中ei,ej为知识图谱KG中的任意两个实体,r为实体ei到ej的关系,对于KG中的每一个三元组事实<ei,r,ej>,识别出<ei,r,ej>的m个数据源DS1,DS2,…,DSm,进而,对于每个数据源DSx(1≤x≤m),评估该数据源的可信度,最终融合这m个数据源的可信度来获取三元组事实<ei,r,ej>的置信值;当KG中的每一个三元组事实均处理完毕之后,得到带置信值的中间知识图谱iKG={<ei,r,ej,cs>},其中cs为三元组事实<ei,r,ej>的置信值;接着,对iKG中的置信值进行等价变换,并产生概率化知识图谱pKG={<ei,r,ej,pv>},其中pv=P(<ei,r,ej>为真|cs),为条件概率,表示在置信值为cs的条件下,三元组事实<ei,r,ej>为真的概率,用于分别输入步骤2、步骤4;步骤2、针对社交媒体大数据中的每对文档d1和d2,分别抽取这两个文档的实体,进而基于步骤1中生成的概率化知识图谱pKG,将它们所包含的实体映射到pKG上,并融合pKG中实体间的关系及其概率值,从而构造出语义映射图G(V,E,W),其中V=V1∪V2∪V’,V1和V2分别为d1和d2这两个文档的实体集合,V’为pKG中V1、V2间关系链接需要访问的实体集合,E为pKG中V1、V2和V’实体间的关系集合,W为从四元组事实<ei,r,ej,pv>到语义强度域ST的映射函数,其中ST为非负实数域的一个真子集,即对于任意<ei,r,ej,pv>∈pKG,W(<ei,r,ej,pv>)=...

【专利技术属性】
技术研发人员:黄震华倪娟程久军
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1