当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于语义模型的WSDL半结构化文档相似性分析及分类方法技术

技术编号:10472162 阅读:147 留言:0更新日期:2014-09-25 10:44
本发明专利技术提出了一种基于语义模型的WSDL半结构化文档的相似性分析及分类方法,利用WordNet词典建立WSDL半结构化文档语义模型,并通过最大熵模型消除词语歧义,建立WSDL半结构化文档语料库特征向量模型,生成WSDL半结构化文档的文档特征矩阵,从而对两个不同文档进行内容的分类与评估,最终得到服务功能的相似性比较。本发明专利技术所述方法提高了文档相似性判断准确度,提升了文档分类速度以及准确度,并对向量空间有降维效果。

【技术实现步骤摘要】
一种基于语义模型的WSDL半结构化文档相似性分析及分类方法
本专利技术涉及Web服务与信息检索领域,特别涉及一种基于语义模型的WSDL半结构化文档相似性分析及分类。
技术介绍
在信息检索领域,相似性和相关性分析的文档语料库的实现需要相应的表示不同文档的算法。典型的统计特征提取的方法包括TF-IDF基于词法词频率和瓦哈希基于连续条件算法。TF-IDF是当前比较实用的一个文档分类算法,在基于向量空间模型的信息检索系统中,TF-IDF算法被广泛的应用在基于关键字的信息检索中。同样的,许多文档分类方法利用词的统计数据,比如Bag-of-Words和Minwise散列被视为统计措施文档表示的特征提取。然而,在信息检索领域,忽视词汇语义词统计方法,使得文档分析词的水平停留字符串基础上而没有通过消除歧义得到更准确的特征提取。WSDL是一个用于精确描述Web服务的文档,WSDL文档是一个遵循WSDLXML模式的XML文档。WSDL文档将Web服务定义为服务访问点或端口的集合。在WSDL中,由于服务访问点和消息的抽象定义已从具体的服务部署或数据格式绑定中分离出来,因此可以对抽象定义进行再次使用:消息,指对交换数据的抽象描述;而端口类型,指操作的抽象集合。用于特定端口类型的具体协议和数据格式规范构成了可以再次使用的绑定。将Web访问地址与可再次使用的绑定相关联,可以定义一个端口,而端口的集合则定义为服务。一个WSDL文档通常包含7个重要的元素,即types、import、message、portType、operation、binding、service元素。这些元素嵌套在definitions元素中,definitions是WSDL文档的根元素。目前,许多文本分类算法依赖于基于统计的文档特征向量,但是,这些算法忽略了词汇条款和净化共同的信息,导致文本分类错误。因此急需提出这一种针对WSDL半结构化文档分析不同标签元素中同义不同词的情况。
技术实现思路
本专利技术提供了一种基于语义模型的WSDL半结构化的文档相似性分析及分类方法,其目的在于,克服现有技术中文档相似性判断忽略了同义不同词的情况,从而导致判断结果准确度不高,进而影响文档分类的精度。一种基于语义模型的WSDL半结构化的文档相似性分析方法,包括以下步骤:步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型fi(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,αi是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,Si是语义元素i中包含的词根个数,Pj是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;步骤4:建立WSDL半结构化文档语料库特征向量模型;使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;步骤5:生成WSDL半结构化文档文本特征矩阵;利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;步骤6:对两个不同文档按照步骤1-步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。所述步骤2中所述语义元素的数据元包括:SynsetID,同义词集唯一标识,从WordNet词典获得;SetofSynonym,同义词集合,同义词集中的所有词根;Weight,同义词集在原文档中被原文词映射的次数;SampleID,同义词集所属原文档的原文档唯一标识,由用户自行设定;ElementID,同义词集对应在原文档中的XML元素编号;SemanticMember,语义成员链表,以链表形式记录每个同义词集对应原文档中的原文词和每个原文词对应的词根;SemanticMembersFrequency,语义成员频率,包括语义成员链表中所涉及的每个原文词频率,同义词集在原文档中被语义成员链表中所记录的每个原文词映射的次数。所述步骤6中两个文本特征矩阵之间的距离为余弦距离。一种基于WSDL半结构化的文档分类方法,采用所述的一种基于语义模型的WSDL半结构化的文档相似性分析方法,采用权重邻居KNN计算公式WSDL半结构化文档所属类别的评估值,利用文档所属类别的评估值大小对文档进行分类:其中,函数score(d,ci)计算得到将文档d归于分类ci的评估值;函数Sim(d,dj)表示文档d与已知类别文档dj的相似度,采用向量余弦距离计算;Weighti为分类权重设定值;函数δ(dj,ci)表示若文档dj属于类别ci,则该函数取值为1,否则,该函数取值为0;i表示第i类文档。有益效果本专利技术提出了一种基于语义模型的WSDL半结构化文档相似性分析及分类方法,它包括两个方面的改进:(1)根据WordNet词典形成词语的语义特征向量模型;(2)通过最大熵模型消除词根歧义;与传统的统计特征提取的方法相比,本专利技术采用WordNet词典提取出的同义词集形成的语义元素,通过记录同义词集在原文档中对应原文词的次数,以及同义词集在原文档中对应原文词的词根的次数,通过最大熵模型的计算,消除词根歧义,使得每个原文词对应一个同义词集,得到了一个唯一的含义;接着采用向量模型,对文档中的标签元素利用语义元素进行表征,形成文本特征矩阵;最后利用矩阵之间的距离大小来判断文档的相似性;利用相似性的结果对文档进行分类。从实证的角度,采用了广受认可的传统算法NWKNN,并对Reuter-21758和其调整后的版本进行了比较实验,实验结果定量的展示了本专利技术所述方法的明显优势,提高了文档相似性判断准确度,提升了文档分类速度以及准确度,并对向量空间进行了降维。附图说明图1为本专利技术所述方法的流程图;图2为XML格式文档样例图图3为对原文词提取同义词集的示意图;图4为图3的实例示意图;图5为语义成员链表示意图。具体实施方式下面将结合附图和实施例对本专利技术做进一步的说明。如图1所示,为本专利技术所述的流程图,一种基于语义模型的WSDL半结构化的文档相似性分析方法,包括以下步骤:步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义本文档来自技高网
...
一种基于语义模型的WSDL半结构化文档相似性分析及分类方法

【技术保护点】
一种基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,包括以下步骤:步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大商模型fi(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;p(c|x)=1Z(x)Πi=1Kαifi(x,c)]]>其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,αi是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,Si是语义元素i中包含的词根个数,Pj是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;步骤4:建立WSDL半结构化文档语料库特征向量模型;使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;步骤5:生成WSDL半结构化文档文本特征矩阵;利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;步骤6:对两个不同文档按照步骤1‑步骤5所述方法得到每个文档的文本特征矩阵,计算两个文本特征矩阵之间的距离,判断两个文档的相似性。...

【技术特征摘要】
1.一种基于语义模型的WSDL半结构化文档相似性分析方法,其特征在于,包括以下步骤:步骤1:依次找出原文档中的每个原文词对应的一个或多个词根,利用WordNet词典获得文档中每个原文词对应的词根的一个或多个同义词集,并以每一个同义词集作为一个语义元素;步骤2:对原文档中的每个原文词利用WordNet词典找出的作为语义元素的同义词集,采用数据元结构存储至语义元素的相关信息至数据表中;步骤3:从步骤2中得到的数据表中提取相关数据进行计算,利用最大熵模型fi(x,c)进行计算,以条件概率函数p(c|x)获得的最大值选择的词根作为每个原文词最匹配的词根,消除词根歧义;其中,p(c|x)条件概率函数是表示原文词x被词根c映射到的频率,αi是原文词x在语义元素i中的频率,K是词根c涉及到的语义元素的个数总和,Z(x)是一个确保当前原文档的所有条件概率的总和为1的设定值;x表示原文档中的原文词,c表示词根,i为语义元素编号,Si是语义元素i中包含的词根个数,Pj是在一个语义元素中一个原文词频率与该语义元素中所有原文词频率和值的比值,原文词频率是指作为语义元素的同义词集在原文档中被语义元素中的同一词根映射的次数;步骤4:建立WSDL半结构化文档语料库特征向量模型;使用向量空间模型SVM对原文档进行划分得到m个标签元素,依据步骤3获得的每个原文词对应的唯一词根,确定每个原文词对应的同义词集,以同义词集的个数作为每个标签元素特征向量的行数,以标签元素中的包含的段落数作为每个标签元素特征向量的列数,建立WSDL半结构化文档语料库特征向量模型;步骤5:生成WSDL半结构化文档文本特征矩阵;利用每个同义词集在每个段落中出现的次数赋值到WSDL半结构化文档语料库特征向量模型中,得到各标签元素向量,即WSDL半结构化文档文本特征矩阵;步骤6:对两个不同文档按照步骤1...

【专利技术属性】
技术研发人员:龙军张祖平王鲁达李会玲
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1