当前位置: 首页 > 专利查询>新华通讯社专利>正文

基于语义标签库的多维度内容标注方法技术

技术编号:8453022 阅读:615 留言:0更新日期:2013-03-21 16:43
本发明专利技术公开了一种基于语义标签库的多维度内容标注方法,包括:建立语义标签库;配置可扩展的资源种类;建立多级、可配置的内容标注维度;将资源按照内容特征划分维度,建立多层次的内容维度;建立可配置、可修改的资源种类与内容标注维度的对应关系;进行基于语义标签库的资源内容标注;临时标签处理;基于语义标签库的资源检索;用户输入检索词,系统自动在扩展标签库中进行匹配:如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。有效的提高了资源标注的精确度和效率,为资源检索和数据分析奠定了良好的基础。

【技术实现步骤摘要】

本专利技术涉及数据挖掘、数据分析和知识推理领域,设计并实现了一种对资源内容进行多维度、语义化、结构化的标注方法。
技术介绍
近年来,随着经济社会的高速发展,资源的数量迅速增加,而资源标注发展相对缓慢,资源的检索问题日益突出。研究资源标注方法可以有效的解决资源的管理和检索问题, 提高资源的使用率,满足了资源在效率、使用和管理上的要求,这将对我国现阶段智能标注的研究和发展、对资源的合理高效利用起到积极的推动作用。目前,资源标注方法有很多,主要可以分为基于资源属性标注的方法、基于资源内容的特征标注方法、基于资源内容的标签标注方法和基于资源特定领域的本体的语义标注方法。基于资源属性标注的方法主要通过为资源的属性特征标注相应的值的方式实现。 这种方式简单易用,可对资源的重要属性信息进行较好的描述,可作为资源检索的基础数据,但是属性信息仅为资源所含信息的小部分,缺少对资源内容语义信息的描述;属性项需在系统设计时确定,不易修改,扩展性较差;非规范化的简单文字匹配造成的语义歧义性难以避免。基于资源内容的特征标注方法主要是提取资源的通用特征或领域相关特征来标注资源。这种方式一般用计算机自动化处理,并充分利用了资源本身所包含的丰富的内容信息,在特定领域应用良好,但是如何利用资源的特征来有效地表示资源内容成为亟需解决的问题。基于资源内容的标签标注方法主要是用标签来标注资源。这种方式突破了属性标注的局限,揭示了资源的内容和主题特征,但是普通的社会化标签存在定义不严格、易变、 无人管理的不足,使得标签标注的主观性强,多义词和同义词容易造成语义混淆,标注效率低,检索与标注的用词匹配难以吻合。基于资源特定领域的本体的语义标注方法主要是通过语义网中的本体技术来进行资源标注。这种方式将原来孤立的资源联系起来,加大了不同资源之间的耦合度,资源本体为标准化标注提供了形式化基础,而且标注后的资源与领域本体相对应,可以实现资源的智能检索;但是领域本体的构建并非一朝一夕就能完成的,而资源涉及的范畴极为广泛, 完全依赖本体进行资源的通用和完全的标注目前不具有实际操作性。
技术实现思路
本专利技术的目的是提出一种,以达到较高的资源标注效率,提高标注的精准度,为高效的资源检索奠定基础。本专利技术一种实现的具体步骤阐述如下(I)建立语义标签库;语义标签库是指由规范标签库、扩展标签库、临时标签库、标签关联库和标签数据分析构成的标签语义体系,其中扩展标签库包含规范标签库的内容。规范标签库中储存标注资源的正式标签,即规范标签。只有规范标签才被分配标注码。规范标签采用分组分层管理首先按词语类别划分分组,然后对每组规范标签分层, 构建一个树状结构的标签集合,并为每个规范标签自动分配一个标注码。同词异码表不该标签为多义词标签,同码异词表示该组标签为同义词标签组。此外,可使用标注码将不同语种的标签对应起来,实现多语种标签扩展。扩展标签库中储存扩展标签及全部规范标签。扩展标签是指对应某个规范标签的一系列扩展词语,本身不具有标注码。扩展标签与资源不具有直接关联关系,而是通过其对应的规范标签具有间接关联关系。扩展标签一定会与某个或多个规范标签具有关联关系, 即通过规范标签可获取其对应的一组扩展标签,反之亦然。扩展标签库主要用途包括两个方面标注资源时,标引员输入词语时,系统从扩展标签库中匹配该词对应的规范标签,提示给标引员。检索资源时,用户输入关键词进行检索时,系统从扩展标签库中匹配该词对应的规范标签及其标注码,进而查找该标注码对应的资源。临时标签是在资源标注过程中标引员临时添加的不属于规范标签和扩展标签的词语,不具有标注码。由于规范标签库是随着资源标注工作逐渐完善和扩充的,所以标引员或其他非专业用户在标注资源时,可以根据实际需要使用规范标签库和扩展标签库中没有的关键词(即临时标签)来标注资源。标签数据分析主要是分析得出标签关联度、标签热度(综合标签被用于标注和检索的频度)等信息,将标签的语义信息更加丰富化,为资源标注和检索服务。可从如下三个方面进行数据分析(1)对某资源所标注标签进行标签共现分析;(2)对用户检索资源时所用标签进行记录和分析;(3)对相似资源(通过手动设置和自动识别的方法确定)所注标签进行统计分析。标签关联库储存标签数据分析的结果,用于标签标注和检索时的智能推荐。(2)配置可扩展的资源种类。其中,资源支持图片、音频、视频等多媒体资源种类,并允许对其进行动态调整。(3)建立多级、可配置的内容标注维度。将资源按照内容特征划分维度,建立多层次的内容维度。其中,内容标注维度是指多个可分级的标注维度,支持不同种类的资源对应不同的标注维度,用于对资源的标签标注进行约束和规范。(4)建立可配置、可修改的资源种类与内容标注维度的对应关系。(5)进行基于语义标签库的资源内容标注。标注资源时,标引员可直接从规范标签库中选取规范标签进行标注,也可以输入标引词,系统自动对标引词在扩展标签库中进行匹配如果匹配成功,则在规范标签库中获取规范标签及其标注码,建立资源与标注码的对应关系;如果匹配不成功,则将标引词存入临时标签库并保留该词与被标注资源的对应关系。标注过程中系统根据标签关联库进行智能推荐。(6)临时标签处理。标签管理员对临时标签进行逐一审核,采用两种主要的处理方式一是按照规范标签和扩展标签的标准,将临时标签直接设定为规范标签或扩展标签;二是直接删除该临时标签。此外,还可以选择已有的规范标签或扩展标签代替该临时标签。(7)基于语义标签库的资源检索。用户输入检索词,系统自动在扩展标签库中进行匹配;如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。本专利技术与现有技术相比,具有以下明显的优势和有益效果首先,本专利技术在充分研究资源内容的基础上,提出了资源内容的多维度标注体系, 进一步细化的资源内容维度有助于更加精确的内容标注和检索。其次,为了避免语义歧义对于资源标注的影响,本专利技术首次在资源标注方面提出了语义标签库的语义智能支持体系设计规范标签支持多义词、同义词和多语言,扩展标签有效的提高了标注的准确性和检索的普适性,标签关联库进一步加强了标签语义信息的挖掘和利用。再次,本方法对于各类资源都是适用的,支持不同资源的个性化设定,标注维度可管、可配、可扩展,语义标签库中各个组成部分都具有良好的扩展性,其中标签的数据分析可采用日益完善的数据分析技术,获得更好的分析效果。实验证明该方法有效的提高了资源标注的精确度和效率,为资源检索和数据分析奠定了良好的基础。附图说明图I为流程图2为语义标签库结构示意图3为结构示意图4为资源内容标注流程图5为资源检索流程图。具体实施方式以下结合说明书附图对本专利技术的具体实施例加以说明。本专利技术以语义标签库为基础,对资源内容进行多维度、语义化、结构化的标注,为资源的有效检索和应用提供保障。语义标签库弥补了传统社会化分众标签存在的主观性强、歧义性、分散无序等不足,是一个可管理、可扩展、结构化、语义化的标签体系。请参阅图I所示,为流程图。依序包括(1)建立图片的语义标签库;(2)配置可扩展的图片种类;(3)建立多级、可配置的图片内容标注维度;(4)建立可配置、可修改的图片种类与图片内容标本文档来自技高网
...

【技术保护点】
一种基于语义标签库的多维度内容标注方法,其特征在于,包括以下步骤:1.1建立语义标签库;语义标签库由规范标签库、扩展标签库、临时标签库、标签关联库和标签数据分析构成,其中扩展标签库包含规范标签库的内容;1.2配置可扩展的资源种类;1.3建立多级、可配置的内容标注维度;将资源按照内容特征划分维度,建立多层次的内容维度;1.4建立可配置、可修改的资源种类与内容标注维度的对应关系;1.5进行基于语义标签库的资源内容标注;标注资源时,直接从规范标签库中选取规范标签进行标注,也可以输入标引词,系统自动对标引词在扩展标签库中进行匹配:如果匹配成功,则在规范标签库中获取规范标签及其标注码,建立资源与标注码的对应关系;如果匹配不成功,则将标引词存入临时标签库并保留该词与被标注资源的对应关系;标注过程中系统根据标签关联库进行智能推荐;1.6临时标签处理;标签管理员将逐一审核临时标签,或者设定为新的规范标签或扩展标签,或者将其删除;1.7基于语义标签库的资源检索;用户输入检索词,系统自动在扩展标签库中进行匹配:如果匹配成功,系统根据对应的标签标注码来检索对应图片;如果匹配不成功,系统可将检索词与资源描述信息进行匹配,同时系统将该检索词存入临时标签库。...

【技术特征摘要】

【专利技术属性】
技术研发人员:吕锐张鹏洲张弛林波王民温宇俊龚隽鹏宋卿刘伟陈国伟
申请(专利权)人:新华通讯社中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1