一种基于众包的语义提取方法技术

技术编号：15391731 阅读：259 留言：0更新日期：2017-05-19 04:55

本发明专利技术公开了一种基于众包的语义提取方法，引入了开放互联网下互联网社会用户的智慧，基于群智的、开放的、交互式的方法，设计出合理的众包语义提取工作流，并对语义进行了质量监控，确保语义提取的质量。

A semantic extraction method based on crowdsourcing

The invention discloses a method for extracting semantic Crowdsourcing based on the introduction of the Internet Society Internet users open the wisdom, the wisdom of the interactive group and open, based on the design of a reasonable Crowdsourcing semantic extraction and semantic of workflow, the quality control, ensure the quality of semantic extraction.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于众包的语义提取方法
本专利技术涉及语义提取领域，特别是一种基于众包的语义提取方法。
技术介绍
语义信息及基于语义形成的知识，作为连接低层数据表达和人类知识理解的桥梁，已成为提高检索效率和准确度的重要抓手；准确的语义描述，对于高效的媒体信息检索，显得十分宝贵。社会媒体数据通常以低层数据特征来表达，而知识的语义特征，需要结合其低层数据特征，模拟人类智能推理得到，其提取是一个从无到有的过程。对社会媒体信息的知识挖掘，前提条件是对其特征的获取。从特征获取的层次上看，可分为数据层、认知层和情感层。数据层分析的是社会媒体的低层信息，如图像的颜色、纹理，音频的衰减频率、频谱流量等；认知层关注的是媒体数据中的语义对象或具体事件，如足球赛中的球星、电影中的战争等；情感层关注的是社会媒体反映的人类智能情感。在这三个层次中，后两者与人类认知紧密相连，具有广泛的应用前景：如“从电影库中找出令人放松的片段”，“在音频库中定位经典唱段”，或“在视频中定位并跳过儿童不宜观看的内容”，等等。以上应用中的特征获取，若以传统基于数据层的特征提取方式，已经难以达到效果。目前的语义提取方法，大致分为两类，各有优缺点：(1)一类是人工语义提取方法，该类方法由社会媒体的生成者完成，基于人类对媒体信息的理解来进行语义提取，该类方法由社会媒体的生成者完成，基于人类对媒体信息的理解来进行语义提取，精确度较高，但是消耗大量的人工，同时，由于语义信息依赖于特定的提取人，结果也具有一定的主观性。(2)另一类是自动提取方法，该类方法主要从媒体的底层数据来提取语义信息，无需人工干预，可在大规模的数据上使用个...
一种基于众包的语义提取方法

【技术保护点】
一种基于众包的语义提取方法，其特征在于，包括以下步骤：1)输入用户集合US和任务集合TS，计算用户的历史主题tpc(U)和任务的历史主题tpc(t)，定义一个阈值ε

【技术特征摘要】
1.一种基于众包的语义提取方法，其特征在于，包括以下步骤：1)输入用户集合US和任务集合TS，计算用户的历史主题tpc(U)和任务的历史主题tpc(t)，定义一个阈值ε1；2)遍历用户集合US中的每一个用户U，进行步骤3)的操作，遍历结束后跳到步骤5)；3)遍历任务集合TS中的每一个任务t，进行步骤4)的操作，遍历结束跳转到步骤2)；4)如果任务t的历史主题tpc(t)在用户U的历史主题tpc(U)的前ε1个范围之内，则将该任务t推荐给用户U，否则不推荐；5)遍历所有没有被推荐分配出去的任务，将这些任务随机推荐给用户集合US中的用户，用户集合US中的用户在完成任务后提交语义信息；6)动态监控用户提交上来的语义信息，将所有用户提交的语义信息放入语义信息集合中，并对语义信息集合质量进行评估，根据质量评估的结果精炼所述语义信息集合，得到最终的语义信息集合。2.根据权利要求1所述的基于众包的异构媒体语义融合方法，其特征在于，步骤1)中，用户的历史主题tpc(U)的具体计算过程包括：1)输入用户U的历史标注集合Sha和分类图G；2)使用广度优先算法遍历搜索G；3)对于G中的每一个节点h，计算h在Sha中...

【专利技术属性】
技术研发人员：郭克华，梁中鹤，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人