当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于众包的语义提取方法技术

技术编号:15391731 阅读:259 留言:0更新日期:2017-05-19 04:55
本发明专利技术公开了一种基于众包的语义提取方法,引入了开放互联网下互联网社会用户的智慧,基于群智的、开放的、交互式的方法,设计出合理的众包语义提取工作流,并对语义进行了质量监控,确保语义提取的质量。

A semantic extraction method based on crowdsourcing

The invention discloses a method for extracting semantic Crowdsourcing based on the introduction of the Internet Society Internet users open the wisdom, the wisdom of the interactive group and open, based on the design of a reasonable Crowdsourcing semantic extraction and semantic of workflow, the quality control, ensure the quality of semantic extraction.

【技术实现步骤摘要】
一种基于众包的语义提取方法
本专利技术涉及语义提取领域,特别是一种基于众包的语义提取方法。
技术介绍
语义信息及基于语义形成的知识,作为连接低层数据表达和人类知识理解的桥梁,已成为提高检索效率和准确度的重要抓手;准确的语义描述,对于高效的媒体信息检索,显得十分宝贵。社会媒体数据通常以低层数据特征来表达,而知识的语义特征,需要结合其低层数据特征,模拟人类智能推理得到,其提取是一个从无到有的过程。对社会媒体信息的知识挖掘,前提条件是对其特征的获取。从特征获取的层次上看,可分为数据层、认知层和情感层。数据层分析的是社会媒体的低层信息,如图像的颜色、纹理,音频的衰减频率、频谱流量等;认知层关注的是媒体数据中的语义对象或具体事件,如足球赛中的球星、电影中的战争等;情感层关注的是社会媒体反映的人类智能情感。在这三个层次中,后两者与人类认知紧密相连,具有广泛的应用前景:如“从电影库中找出令人放松的片段”,“在音频库中定位经典唱段”,或“在视频中定位并跳过儿童不宜观看的内容”,等等。以上应用中的特征获取,若以传统基于数据层的特征提取方式,已经难以达到效果。目前的语义提取方法,大致分为两类,各有优缺点:(1)一类是人工语义提取方法,该类方法由社会媒体的生成者完成,基于人类对媒体信息的理解来进行语义提取,该类方法由社会媒体的生成者完成,基于人类对媒体信息的理解来进行语义提取,精确度较高,但是消耗大量的人工,同时,由于语义信息依赖于特定的提取人,结果也具有一定的主观性。(2)另一类是自动提取方法,该类方法主要从媒体的底层数据来提取语义信息,无需人工干预,可在大规模的数据上使用个,但由于计算机的智能和人类智能还有相当差距,因此精确度难以保证。在众包背景下,社会媒体的语义信息处理会面临新的挑战。这些挑战有些是由于社会媒体本身的特征导致,有些是由于众包计算的特点造成。综合起来,主要有以下特点:(1)来源的多样化。社会媒体信息来源于不同渠道,如传感器、程序生成、人工生成、其他途径共享等。(2)存储的异构化。社会媒体数据蕴含的知识来源于多种形态的交叉融合,包括文本、图像、音视频等信息的协同表达,在格式和存储方式上不尽相同。(3)表达的多模态化。众包计算下获取的语义数据,知识蕴含能力较强,但由于数据的复杂性,对其进行分析时,会遇到不同模态语义数据的多特征空间表达、多关联、多噪音等问题。(4)传播的社会化。在数据共享的大前提下,社会媒体的传播频率越来越高,媒体的低层数据信息可以随媒体文件传播,但是语义信息却往往在传播的过程中未被考虑,失去了社会性。综上,众包计算为语义高效获取提供了一个可行的途径,但是也面临着以上四个特点造成的问题。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术不足,提供一种基于众包的语义提取方法。为解决上述技术问题,本专利技术所采用的技术方案是:一种基于众包的语义提取方法,包括以下步骤:1)输入用户集合US和任务集合TS,计算用户的历史主题tpc(U)和任务的历史主题tpc(t),定义一个阈值ε1;2)遍历用户集合US中的每一个用户U,进行步骤3)的操作,遍历结束后跳到步骤5);3)遍历任务集合TS中的每一个任务t,进行步骤4)的操作,遍历结束跳转到步骤2);4)如果任务t的历史主题tpc(t)在用户U的历史主题tpc(U)的前ε1个范围之内,则将该任务t推荐给用户U,否则不推荐;5)遍历所有没有被推荐分配出去的任务,将这些任务随机推荐给用户集合US中的用户,用户集合US中的用户在完成任务后提交语义信息;6)动态监控用户提交上来的语义信息,将所有用户提交的语义信息放入语义信息集合中,并对语义信息集合质量进行评估,根据质量评估的结果精炼所述语义信息集合,得到最终的语义信息集合。步骤1)中,用户的历史主题tpc(U)的具体计算过程包括:1)输入用户U的历史标注集合Sha和分类图G;2)使用广度优先算法遍历搜索G;3)对于G中的每一个节点h,计算h在Sha中的出现频率tf(h/Sha),并且将计算结果添加到动态数组tpc(U)*中;4)将tpc(U)*中的tf(h/Sha)进行降序排序,得到用户的历史主题tpc(U)。任务的历史主题tpc(t)的计算过程与用户的历史主题tpc(U)的计算过程相同。本专利技术中,0≤ε1≤1。对语义信息集合质量进行评估,根据质量评估的结果精炼用户集合US中的用户提交的语义信息集合的具体实现过程包括:1)令M为任务集合中需要进行语义提取的媒体文档,集合Sm为M的语义信息集合,满足Sm={s1,s2,…,sn},n为M的语义对象个数;si为Sm中的语义对象;i=1,2,…,n;2)为Sm中每个语义对象si赋权值wi,并设定wi的初始值;3)在语义检索过程中,如果语义信息集合Sm中的某一语义对象的内容被检索过程使用,或者被用户确定为能够表达该次检索的意图,则将该语义对象的权值wi加1;4)若某个语义对象的权值小于设定值,则将该语义对象从Sm中去除;5)重复步骤2)~步骤4),直至遍历完所有Sm中的所有语义对象,得到最终的语义信息集合。所述设定值取值为(0,1)。与现有技术相比,本专利技术所具有的有益效果为:本专利技术引入了开放互联网下互联网社会用户的智慧,基于群智的、开放的、交互式的方法,设计出合理的众包语义提取工作流,并对语义进行了质量监控,确保语义提取的质量。附图说明图1为动态质量监控与性能评估原理图。具体实施方式1.群智感知模式下中报语义提取工作流设计。基于众包的语义提取,具有群智感知的特点。群智感知是指利用社会用户及所使用的各种智能终端来实现对物理世界的实时感知,通过用户的移动性和社会性等特性提高情景感知服务的质量。在群智感知模式下的众包语义提取工作流设计中,语义主要由用户生成。首先设计用户交互机制,根据语义提取的需求,其表达形式被分为图像标注、音视频标注、文本标注等维度;将这些标注定义定义为语义对象,也以异构媒体形式出现,本专利技术为每个维度各自设置自己的用户交友机制。针对用户交互过程中,基于语义提供者自身的服务质量,结合用户服务体验进行建模。根据社会媒体数据的异构特点,本专利技术针对常见的社会媒体形式:图像、音频、视频和文本分别提供语义提取接口。为与后期大数据处理框架兼容,语义对象描述采用<key-value>形式描述,其中key为语义对象标记,value为语义的属性内容。对于图像、音频、视频和文本,分别定义二维空间坐标、一维时间坐标、三维时空坐标和一维位置坐标来作为语义对象标记;本专利技术将媒体对象的语义属性分为动态属性和静态属性:动态属性是随着数据实时变化的属性例如数据的时间属性when;静态属性为几乎不实时变化的属性,例如数据所在的屋里位置属性where,数据的关联的人员属性who等。为了更好地描述数据的含义,本专利技术定义用于描述数据语义的几个基本维度属性如下:who,where,what,when,dowhat(object),how和others。在众包任务执行的过程中,通过分析社会用户之间的移动性和社会性,将语义提取任务按照主题感知之后的分类进行合理分配。具体的任务分配算法上采用用户主题感知机制来提高任务整体的完成质量,为任务的合理推荐奠定基础。本专利技术除充分考虑语义提取任务自身本文档来自技高网
...
一种基于众包的语义提取方法

【技术保护点】
一种基于众包的语义提取方法,其特征在于,包括以下步骤:1)输入用户集合US和任务集合TS,计算用户的历史主题tpc(U)和任务的历史主题tpc(t),定义一个阈值ε

【技术特征摘要】
1.一种基于众包的语义提取方法,其特征在于,包括以下步骤:1)输入用户集合US和任务集合TS,计算用户的历史主题tpc(U)和任务的历史主题tpc(t),定义一个阈值ε1;2)遍历用户集合US中的每一个用户U,进行步骤3)的操作,遍历结束后跳到步骤5);3)遍历任务集合TS中的每一个任务t,进行步骤4)的操作,遍历结束跳转到步骤2);4)如果任务t的历史主题tpc(t)在用户U的历史主题tpc(U)的前ε1个范围之内,则将该任务t推荐给用户U,否则不推荐;5)遍历所有没有被推荐分配出去的任务,将这些任务随机推荐给用户集合US中的用户,用户集合US中的用户在完成任务后提交语义信息;6)动态监控用户提交上来的语义信息,将所有用户提交的语义信息放入语义信息集合中,并对语义信息集合质量进行评估,根据质量评估的结果精炼所述语义信息集合,得到最终的语义信息集合。2.根据权利要求1所述的基于众包的异构媒体语义融合方法,其特征在于,步骤1)中,用户的历史主题tpc(U)的具体计算过程包括:1)输入用户U的历史标注集合Sha和分类图G;2)使用广度优先算法遍历搜索G;3)对于G中的每一个节点h,计算h在Sha中...

【专利技术属性】
技术研发人员:郭克华梁中鹤
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1