文化资源数据自动标注系统技术方案

技术编号:24574684 阅读:55 留言:0更新日期:2020-06-21 00:12
本发明专利技术属于数据标注技术领域,具体涉及了一种文化资源数据自动标注系统,旨在解决面向语义复杂丰富的文化资源数据时,人工标注工作效率低下,而常用的自动标注技术生成的标签质量不高、语义片面不完整的问题。本发明专利技术包括:数据输入模块获取待标签扩展的资源文本元数据和对应的初始标签集;元数据预处理模块清除无效描述词及无用标签、重复标签;文本向量化模块将资源文本元数据、初始标签集向量化;标签生成模块计算资源主题向量与所述标签向量的相似度并进行标签排序;数据输出模块从排序后的标签列表中按照相似度从大到小选择相应数量的标签,标准化格式封装并输出。本发明专利技术文化资源数据自动标注效率高、生成标签质量高、语义完整、错误率低。

Automatic annotation system of cultural resources data

【技术实现步骤摘要】
文化资源数据自动标注系统
本专利技术属于数据标注
,具体涉及了一种文化资源数据自动标注系统。
技术介绍
机器学习领域,数据的语义标签起到重要的作用。在推荐系统领域,数据标签是基于内容推荐算法的前提;在有监督学习领域,数据的标注信息,是训练有分类算法的核心条件。文化领域的信息跨领域复合性强,文化资源的含义复杂、抽象,因此,在文化领域进行数据分析,对资源语义信息的需求尤为迫切。由于文化资源具有数据海量、语义多样复杂、语义关联性强等特点,因此,人工标注工作效率低下,而常用的自动标注技术生成的标签往往质量不高、语义片面不完整。因此,急需一种方法,可以解决资源数据,特别是文化资源数据的复杂语义标签生成问题,在资源具有少量标签、甚至无标签的情况下,通过复合语义计算,为资源数据自动标注语义标签。
技术实现思路
为了解决现有技术中的上述问题,即面向语义复杂丰富的文化资源数据时,人工标注工作效率低下,而常用的自动标注技术生成的标签质量不高、语义片面不完整的问题,本专利技术提供了一种文化资源数据自动标注系统,该数据自动标注系统包括本文档来自技高网...

【技术保护点】
1.一种文化资源数据自动标注系统,其特征在于,该数据自动标注系统包括数据输入模块、元数据预处理模块、文本向量化模块、标签生成模块、数据输出模块;/n所述输入模块用于获取待标签扩展的资源文本元数据和对应的初始标签集;/n所述元数据预处理模块用于清除所述资源文本元数据中的无效描述词以及所述初始标签集中的无用标签、重复标签;/n所述文本向量化模块用于获得预处理后的资源文本元数据对应的资源主题向量以及预处理后的初始标签集对应的标签向量;/n所述标签生成模块用于获取所述资源主题向量与所述标签向量的相似度,并依据所述相似度进行标签排序,获得有序的候选标签列表;/n所述数据输出模块基于获取的标签需求数量,从...

【技术特征摘要】
1.一种文化资源数据自动标注系统,其特征在于,该数据自动标注系统包括数据输入模块、元数据预处理模块、文本向量化模块、标签生成模块、数据输出模块;
所述输入模块用于获取待标签扩展的资源文本元数据和对应的初始标签集;
所述元数据预处理模块用于清除所述资源文本元数据中的无效描述词以及所述初始标签集中的无用标签、重复标签;
所述文本向量化模块用于获得预处理后的资源文本元数据对应的资源主题向量以及预处理后的初始标签集对应的标签向量;
所述标签生成模块用于获取所述资源主题向量与所述标签向量的相似度,并依据所述相似度进行标签排序,获得有序的候选标签列表;
所述数据输出模块基于获取的标签需求数量,从所述有序的候选标签列表中按照相似度从大到小选择相应数量的标签,并进行标准化格式封装后输出。


2.根据权利要求1所述的文化资源数据自动标注系统,其特征在于,该自动标注系统还包括数据支撑子系统;
所述数据支撑子系统包括文化资源管理模块、同义词计算模块,用于管理已有文化资源元数据及其对应的初始标签集以及进行同义词或近义词检索。


3.根据权利要求1所述的文化资源数据自动标注系统,其特征在于,所述输入模块包括资源文本元数据单元、资源初始标签单元;
所述资源文本元数据单元用于获取待标签扩展的资源文本元数据;
所述资源初始标签单元用于获取所述待标签扩展的资源文本元数据对应的初始标签集;所述初始标签集允许为空。


4.根据权利要求1所述的文化资源数据自动标注系统,其特征在于,所述元数据预处理模块包括描述性文本清洗单元、初始标签预处理单元;
所述描述性文本清洗单元通过自然语言处理的隐性马尔可夫模型或条件随机场模型的中文分词、词性分析方法清除所述资源文本元数据中的无效描述词;
所述初始标签预处理单元通过自然语言处理的语义分析、词义分析方法清除所述初始标签集中的无用标签、重复标签。


5.根据权利要求1所述的文化资源数据自动标注系统,其特征在于,所述文本向量化模块包括主题分布计算单元、词向量计算单元;
所述主题分布计算单元通过训练好的主题分析模型获取预处理后的资源文本元数据对应的资源主题向量;
所述词向量计算单元通过训练好的词向量模型将预处理后的初始标签集转换为标签向量。

【专利技术属性】
技术研发人员:杨颐王健黄卫星
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1