【技术实现步骤摘要】
一种地理信息服务元数据文本多层级多标签分类方法
本专利技术涉及自然语言处理技术,尤其涉及一种地理信息服务元数据文本多层级多标签分类方法。
技术介绍
文本精准分类作为数据分析的一种重要手段,是提升地理信息资源检索品质的关键,具有广泛的应用场景。传统分类方法大多适用于二分类或单分类场景,且过度依赖大量标记样本训练分类模型,限制了文本分类的精准性、全面性,及模型的适用场景。特别是针对地理信息服务元数据而言,通常缺乏标注主题的样本数据集,且文本内容杂糅纷繁,地学术语和通识词汇混杂导致特征词表复杂化;并且主题之间的交叠和隶属关系使得元数据文本主题具有多粒度与多类别特性,进一步加大了主题分类的难度。针对缺乏训练样本的问题和多类别匹配的需求,有学者提出了半监督、弱监督等机制减少分类器对训练样本的依赖,也有学者通过ML-KNN、BR-KNN和TSVM等方法实现文本多标签分类。但这些方法通常未结合领域特色,未考虑文本中专业术语的语义,无法有效贴合地理信息服务元数据的文本特性。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种地理信息服务元数据文本多层级多标签分类方法。本专利技术解决其技术问题所采用的技术方案是:一种地理信息服务元数据文本多层级多标签分类方法,包括以下步骤:1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;2)基于地理信息资源的领域应用主题类别定义一级分类目录,生成与分类类别(以下称为“主题” ...
【技术保护点】
1.一种地理信息服务元数据文本多层级多标签分类方法,其特征在于,包括以下步骤:/n1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;/n2)基于地理信息资源的领域应用主题类别设定一级分类目录,获得分类类别,即主题,然后生成与分类类别语义关联的典型词词表;/n3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;/n4)选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,记为H
【技术特征摘要】
1.一种地理信息服务元数据文本多层级多标签分类方法,其特征在于,包括以下步骤:
1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;
2)基于地理信息资源的领域应用主题类别设定一级分类目录,获得分类类别,即主题,然后生成与分类类别语义关联的典型词词表;
3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;
4)选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,记为H1;
5)依据语料库计算特征到主题的语义距离,建立主题预测模型ML-CSW,将该模型作为协同训练的另一基模型,记为H2;
6)基于上述两个基模型设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;
7)选取某一分类标签对应的元数据文本,提取文本主题作为下一层级的细粒度主题,同时获得元数据文本与双层主题目录的匹配关系;
8)重复步骤7),得到不同级别的细粒度主题类别目录,以及元数据文本与主题目录间的匹配关系。
2.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中基于地理信息资源的领域应用主题类别定义一级分类目录是基于国际地球观测组织针对地学领域提出的社会受益领域SBAs进行扩展而得到一级分类。
3.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中典型词词表生成方式如下:
以SBAs为主题分类目录,抽取SWEET和WordNet定义中主题的上位词、下位词和同义词作为与主题语义相关的典型词,生成典型词词表。
4.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤3)中根据典型词词表对文本特征词进行筛选,具体如下:
S31、基于Word2vec算法将典型词与文本特征词表示为二维空间词向量;
S32、计算典型词与文本特征词向量间的余弦距离;
S33、设定距离阈值T,滤除掉与典型词余弦距离大于T的文本特征词。
5.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤5)中主题模型的建立方法具体如下:
S51、依据SWEET本体库与WordNet英语词汇网的网络定义,计算文本特征f与每个主题pi间的语义距离若特征f被SWEET收录,则依据SWEET网络直接基于Dijsktra算法得到特征f与每个主题pi间的语义距离若特征f未被SWEET收录,则逐层级向上查找被SWEET收录的上位词作为特征f的替代词,对WordNet中特征f与替代词的距离和SWEET中替代词与每个主题pi的距离求和,作为特征f与每个主题pi间的语义距离
S52、计算特征f与每个主题pi间的...
【专利技术属性】
技术研发人员:桂志鹏,张敏,彭德华,吴华意,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。