当前位置: 首页 > 专利查询>武汉大学专利>正文

一种地理信息服务元数据文本多层级多标签分类方法技术

技术编号:23149266 阅读:92 留言:0更新日期:2020-01-18 13:32
本发明专利技术公开了一种地理信息服务元数据文本多层级多标签分类方法,包括:1)获取地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;2)设定一级分类目录,生成与分类类别语义关联的典型词词表;3)根据典型词词表对文本特征词进行筛选;4)选取ML‑KNN作为协同训练的一个基模型;5)建立主题预测模型ML‑CSW作为协同训练的另一基模型;6)设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;7)选取某一分类标签对应的元数据文本,得到不同级别的细粒度主题类别目录。本发明专利技术方法考虑地理信息服务元数据的领域特色和文本语义,仅依赖少量的标记数据样本且分类结果相比传统多标签分类方法整体表现更好。

A multi-level and multi label classification method for metadata of Geographic Information Service

【技术实现步骤摘要】
一种地理信息服务元数据文本多层级多标签分类方法
本专利技术涉及自然语言处理技术,尤其涉及一种地理信息服务元数据文本多层级多标签分类方法。
技术介绍
文本精准分类作为数据分析的一种重要手段,是提升地理信息资源检索品质的关键,具有广泛的应用场景。传统分类方法大多适用于二分类或单分类场景,且过度依赖大量标记样本训练分类模型,限制了文本分类的精准性、全面性,及模型的适用场景。特别是针对地理信息服务元数据而言,通常缺乏标注主题的样本数据集,且文本内容杂糅纷繁,地学术语和通识词汇混杂导致特征词表复杂化;并且主题之间的交叠和隶属关系使得元数据文本主题具有多粒度与多类别特性,进一步加大了主题分类的难度。针对缺乏训练样本的问题和多类别匹配的需求,有学者提出了半监督、弱监督等机制减少分类器对训练样本的依赖,也有学者通过ML-KNN、BR-KNN和TSVM等方法实现文本多标签分类。但这些方法通常未结合领域特色,未考虑文本中专业术语的语义,无法有效贴合地理信息服务元数据的文本特性。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种地理信息服务元数据文本多层级多标签分类方法。本专利技术解决其技术问题所采用的技术方案是:一种地理信息服务元数据文本多层级多标签分类方法,包括以下步骤:1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;2)基于地理信息资源的领域应用主题类别定义一级分类目录,生成与分类类别(以下称为“主题”)语义紧密关联的典型词词表;3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;4)选取经典多标签分类算法ML-KNN(Multi-labelKNearestNeighbors)作为协同训练的一个基模型H1;5)依据语料库计算特征到主题的语义距离,建立主题预测模型ML-CSW(Multi-labelClassificationbasedonSWEET&WordNet),将该模型作为协同训练的另一基模型H2;6)基于上述两个基模型设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;7)根据一级粗粒度主题分类结果,选取某一分类标签对应的元数据文本,抽取文本主题,作为下一层级的细粒度主题,同时获得元数据文本与双层主题目录的匹配关系;8)重复步骤7),得到不同级别的细粒度主题类别目录,以及元数据文本与主题目录间的匹配关系。按上述方案,所述步骤2)中基于地理信息资源的领域应用主题类别定义一级分类目录是基于国际地球观测组织针对地学领域提出的社会受益领域SBAs进行扩展而得到一级分类。按上述方案,所述步骤2)中典型词词表生成方式如下:以SBAs为主题分类目录,抽取SWEET和WordNet定义中主题的上位词、下位词和同义词作为与主题语义相关的典型词,生成典型词词表。按上述方案,所述步骤3)中根据典型词词表对文本特征词进行筛选,具体如下:S31、基于Word2vec算法将典型词与文本特征词表示为二维空间词向量;S32、计算典型词与文本特征词向量间的余弦距离;S33、设定距离阈值T,滤除掉与典型词余弦距离大于T的文本特征词。按上述方案,所述步骤5)中主题模型的建立方法具体如下:依据SWEET本体库与WordNet英语词汇网的网络定义,计算文本特征f与每个主题pi间的语义距离dpi求特征f与每个主题pi间的语义距离dpi的最小值,并求倒作为文本特征f与所有主题P的最大语义相关度sf,其中P为所有主题集合;基于文本特征与主题的最短距离定义特征权重,建立主题预测模型,为未标记样本预测多标签主题;假定训练集中共包含n个文本特征,则可计算得到训练集中所有特征到所有主题的最大语义相关度的向量S=[s1,s2,…,sn],将单条数据x的权重w(x)定义为1×n的向量,分别对应n个文本特征的权重,若特征f在样本x中出现,则定义为sf,否则定义为0;建立主题预测模型Y,其中F为特征的调整向量,α为平滑参数。基于标记样本数据,采用BP神经网络迭代优化训练模型Y,计算损失最小情况下F和α的最优解并得到最终的模型,依据模型预测未标记样本t的类别集合;Y=w(x)*F+α。按上述方案,所述步骤6)设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;具体如下:S61、根据地理信息服务元数据文本集中的标记样本生成L1和L2两个子集,分别作为协同训练基模型H1和H2的训练集;S62、利用训练集训练基模型H1和H2,并利用训练好的基模型预测未标记样本的类别向量;S63、从未标记样本中选出分类器H1和H2具有相同预测结果的样本赋予伪标记,将伪标记样本分别添加至两个训练子集L1和L2,更新训练集,重复步骤S62-S63,直至两个分类器的分类结果不出现明显变化,得到所有未标记样本的类别集合以及最后更新的训练集;S64、基于所有有标记的样本训练分类器H1,为测试样本匹配主题类别集合。按上述方案,所述步骤4)中选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,具体如下:S41、选用ML-KNN算法作为协同训练的基模型H1,指定近邻样本个数k,以N(x)表示训练集中样本x的k个近邻样本的集合,统计N(x)中属于主题类别l的样本数量c[j],统计N(x)中不属于主题类别l的样本数量c′[j]。下列公式中,当样本x属于主题类别l时,为1,为0,反之则为0,为1;S42、计算未标记样本t属于主题类别l的先验概率与后验概率其中b的取值为0和1,表示样本t属于主题类别l的事件,表示样本t不属于主题类别l的事件,s为平滑参数,m为训练样本个数,表示样本t的k个近邻样本中样本j属于类别l的事件;S43、依据最大化后验概率和贝叶斯原则预测未标记样本t的类别集合按上述方案,所述步骤7)中抽取文本主题是基于隐狄利克雷分布(LatentDirichletAllocation,LDA)算法抽取文本主题。本专利技术产生的有益效果是:本专利技术提出了一种新的针对OGC网络地图服务WMS及其他地理信息网络资源元数据文本的多层级多标签分类流程。该流程将地学本体库SWEET和通用英语词汇网络WordNet引入分类过程,结合传统分类算法ML-KNN和紧密贴合领域特性与文本语义的分类算法ML-CSW进行协同训练,以获得地理信息服务元数据文本与多层级主题目录的匹配关系。本专利技术方法考虑地理信息服务元数据的领域特色和文本语义,仅依赖少量的标记数据样本;同时,相比于分类器链、投票分类器等传统多标签分类算法,本专利技术方法的分类结果整体表现更好。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术实施例的方法流程图;本文档来自技高网...

【技术保护点】
1.一种地理信息服务元数据文本多层级多标签分类方法,其特征在于,包括以下步骤:/n1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;/n2)基于地理信息资源的领域应用主题类别设定一级分类目录,获得分类类别,即主题,然后生成与分类类别语义关联的典型词词表;/n3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;/n4)选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,记为H

【技术特征摘要】
1.一种地理信息服务元数据文本多层级多标签分类方法,其特征在于,包括以下步骤:
1)获取包含未标记样本与标记样本的地理信息服务元数据文本集进行文本预处理,将每条数据样本划分为文本特征词组合;
2)基于地理信息资源的领域应用主题类别设定一级分类目录,获得分类类别,即主题,然后生成与分类类别语义关联的典型词词表;
3)根据典型词词表对文本特征词进行筛选,滤除与典型词距离大于阈值的特征,获得根据主题分类筛选的特征子集;
4)选取经典多标签分类算法ML-KNN作为协同训练的一个基模型,记为H1;
5)依据语料库计算特征到主题的语义距离,建立主题预测模型ML-CSW,将该模型作为协同训练的另一基模型,记为H2;
6)基于上述两个基模型设计协同机制,为元数据文本匹配多标签主题,作为一级粗粒度主题分类结果;
7)选取某一分类标签对应的元数据文本,提取文本主题作为下一层级的细粒度主题,同时获得元数据文本与双层主题目录的匹配关系;
8)重复步骤7),得到不同级别的细粒度主题类别目录,以及元数据文本与主题目录间的匹配关系。


2.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中基于地理信息资源的领域应用主题类别定义一级分类目录是基于国际地球观测组织针对地学领域提出的社会受益领域SBAs进行扩展而得到一级分类。


3.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤2)中典型词词表生成方式如下:
以SBAs为主题分类目录,抽取SWEET和WordNet定义中主题的上位词、下位词和同义词作为与主题语义相关的典型词,生成典型词词表。


4.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤3)中根据典型词词表对文本特征词进行筛选,具体如下:
S31、基于Word2vec算法将典型词与文本特征词表示为二维空间词向量;
S32、计算典型词与文本特征词向量间的余弦距离;
S33、设定距离阈值T,滤除掉与典型词余弦距离大于T的文本特征词。


5.根据权利要求1所述的地理信息服务元数据文本多层级多标签分类方法,其特征在于,所述步骤5)中主题模型的建立方法具体如下:
S51、依据SWEET本体库与WordNet英语词汇网的网络定义,计算文本特征f与每个主题pi间的语义距离若特征f被SWEET收录,则依据SWEET网络直接基于Dijsktra算法得到特征f与每个主题pi间的语义距离若特征f未被SWEET收录,则逐层级向上查找被SWEET收录的上位词作为特征f的替代词,对WordNet中特征f与替代词的距离和SWEET中替代词与每个主题pi的距离求和,作为特征f与每个主题pi间的语义距离
S52、计算特征f与每个主题pi间的...

【专利技术属性】
技术研发人员:桂志鹏张敏彭德华吴华意
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1