一种融合多模态信息的异构网络构建和距离度量方法技术

技术编号:21571789 阅读:24 留言:0更新日期:2019-07-10 15:28
本发明专利技术提出一种融合多模态信息的异构网络构建和距离度量方法,包括以下步骤,步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵S(i,j),所述S(i,j)为表示事件i与事件j的相似度;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。

A Heterogeneous Network Construction and Distance Measurement Method Fusing Multimodal Information

【技术实现步骤摘要】
一种融合多模态信息的异构网络构建和距离度量方法
本专利技术涉及异构信息网络,主要涉及到一种融合多模态信息的异构网络构建和距离度量方法。
技术介绍
异构信息网络是一种结点和链接类型不同的图结构,现实中很多问题都可以建模为异构信息网络,例如社交媒体事件挖掘。不同于传统网络,异构信息网络明确区分网络中的结点类型和链接类型,即结点可以关联不同类型信息,结点间可以建立不同链接关系,结点和链接都可以附加不同属性。甚至,结点和链接通常附加时间信息,从而反映信息网络的动态性。例如,微博用户之间形成相互交流、发布、分享、关注、转发、评论、点赞等行为,以及推文包括时间、地点和关键词等多类型结点。因此,异构网络的研究和发展具有很重要的作用。然而,现有技术中没有针对事件的异构信息网络表示学习方法,而且社交媒体事件组成异构信息网络复杂且具有动态性,一方面体现在需要针对HIN设计监督和无监督类型的算法,以及针对在线数据的,特别在基于监督meta-path的randomwalk等算法,也就是一阶马尔可夫链,不能很好的表达HIN中结点之间的邻近性(proximity),另一方面,现在做的事件相似度比较方面效果使用文本整体内容的embedding进行事件比较的,准确度和速度方面都有所欠缺。
技术实现思路
针对以上问题,本专利技术提出一种融合多模态信息的异构网络构建和距离度量方法,这种方式上不再整体比较两个事件的内容,而是从事件中提取entity(实体),word(词),topic(主题)来进行事件的相似度比较。本专利技术包括以下步骤:步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。该方法有以下优势:在事件检测中可以达到更好的准确率,本专利技术在事件信息的提取中不同于之前的工作只做基于语义上的事件比较,本专利技术提取了实体词,主题信息进行事件检测,这样充分应用了事件的信息,可以达到更好的准确率;由于本专利技术只是从事件中提取出关键词进行信息处理,因此本专利技术的系统比现有技术可以达到更高的准确率;算法多参数可调,可根据需求设置,算法内部耦合性低,可移植性好。附图说明图1为本专利技术的整体流程图;图2-a、图2-b、图2-c为一实施例的搜索展示图;图3为本专利技术的异构信息网络图;图4所示为pairwiseGCN的参数训练图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。如图1所示为整体流程图,本专利技术包括以下步骤:步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到事件相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。在所述步骤1中,将事件进行分词,去停用词处理,之后将提取的词语进行类别划分,包括实体,关键词,主题,用户,用所述提取词来代表事件:主体topic是直接存在的,实体entity可以在实体知识图谱中进行查找,如果关键词能够在知识图谱中找到,那么这个词就是实体,否则就是关键词word搜索实体北京,可查到如图2-a;如图2-b,搜索word,就无法在实体知识图谱中找到本专利技术要将之前获得的不同类别的关键词构建为HIN(异构信息网络),:事件分词后的结果分为4类结点(event,entity,word,topic),这些结点之间的边表示它们之间的联系。实体-实体(entity-entity):可以在复旦的实体知识图谱中直接获得,在知识图谱中通过搜索一个实体,会找到其他和它所有相关的实体。关键词-关键词(word-word):词与词之间的关系通过近义词获得,如果两个词是近义词,那么这两个词之间就存在一条边主题(topic-topic):相关主题之间会添加一条边实体-关键词(entity-word):在复旦的信息知识图谱中通过查找一个实体,能够得到它的相关知识,本专利技术将这些语句进行分词,去停用词,就可以获得实体entity与关键词word之间的关系entity-topic,word-topic:前一步过程就可以获得每个事件的主题topic,实体entity与关键词word,因为每个事件所拥有的主题是固定的,比如新闻类,娱乐类,军事类,那么这个事件中的实体与关键词自然就和这个主题相联系,直接建立边即可。所述构建的异构信息网络大致为如图3所示。metapath是异构网络中不同类别结点之间构成的路径,所述路径模拟语义信息,是一条包含关系序列的路径。Metapath定义在networkSchemaT=(A,R)上,具体形式为:其中A1,A2,Al+1表示不同类别的结点,正如上面提到的entity,word,topic一样,R1表示它们之间的关系。meta-path中事件的相似度采用:|{Px→y:Px→y∈P}|表示事件x到事件y的路径条数。计算出任意两个事件之间的相似度,所述计算出的相似度构建为矩阵S,其中S(i,j)表示第i个事件与第j个事件之间的相似度。所述PP_GCN是指pairwiseGCN,即将数据分为两两一组作为输入,如:事件1与事件4,label(标签)是0或1,0表示这两个事件不相似,1表示这两个事件相似,具体输入为两个事件各自按照不同meta_path得到的相似度矩阵,在GCN中训练,在这个过程中保存准确率最高时的Wi参数。如图4所示为pairwiseGCN的参数训练图。PP_GCN训练是将数据分为两两一组作为输入,所述输入为两个事件各自按照不同meta-path得到的相似度矩阵,用pair-wise的GCN方法来进行训练获得Wi,所述Wi是加权求和的权重参数,将事件两两组合形成训练数据,两个事件属于同一类则设定标签为1,否则为0,然后放入GCN中进行训练。接下来metapath得到多个相似度矩阵进行合并,所述合并采用加权求和的方式:所述k为meta_path的条数,首先训练Wi参数,采用pair-wise的GCN方法来进行训练获得Wi,采用pair-wise可以增大数据集,提高训练准确率,将事件两两组合形成训练数据,两个事件属于同一类则设定标签为1,否则为0,然后放入GCN中进行训练,获得Wi后查找相似度就直接在相似度矩阵中进行查找。最后应说明的是:以上实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本专利技术各实施例技术方案的精神和范围。本文档来自技高网...

【技术保护点】
1.一种融合多模态信息的异构网络构建和距离度量方法,其特征在于,包括以下步骤,步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。

【技术特征摘要】
1.一种融合多模态信息的异构网络构建和距离度量方法,其特征在于,包括以下步骤,步骤1,事件的信息提取,将事件进行分词,并将分词结果进行类别划分;步骤2,将提取的所述分词结果构建为异构信息网络,其中的结点为所述关键词;步骤3,通过设置异构网络中不同类别结点之间构成的路径得到相似度矩阵;步骤4,利用PP_GCN训练得到不同相似度矩阵的系数;步骤5,利用步骤4得到的系数将步骤3中相似度矩阵进行加权求和。2.如权利要求1所述的方法,其特征在于,在所述步骤1中,将事件进行分词,去停用词处理,之后将提取的词语进行类别划分,包括实体,关键词,主题,用户,用所述提取的词语词表示事件:实体是直接存在的,主题在实体知识图谱中进行查找,如果所述分词结果能够在知识图谱中找到,则其就是实体,否则就是关键词。3.如权利要求2所述的方法,其特征在于,在所述步骤2中,将步骤1获得的不同类别的分词结果构建为异构信息网络,结点为所述不同类别的分词结果,分为4类,所述4类为事件,实体,关键词,主题。4.如权利要求3所述的方法,其特征在于,所述异构信息网络的结构关系包括:word-word,topic-topic,entity-word,entity-topic,word-topic;所述word-word关系中,词与词之间的关系通过近义词获得,如果两个词是近义词,则这两个词之间添加一条边;所述topic-topic关系中,相关主题之间会添加一条边;所述entity-word...

【专利技术属性】
技术研发人员:李建欣宁元星彭浩龚其然李晨胡春明
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1