当前位置: 首页 > 专利查询>高小翎专利>正文

有向图意义导向模型驱动的短语语义挖掘方法技术

技术编号:24518085 阅读:39 留言:0更新日期:2020-06-17 06:57
本发明专利技术提出的有向图意义导向模型驱动的短语语义挖掘方法,利用Sem‑Graph数据模型实现了典型本体语言Word‑Net的逻辑结构表示,在此基础上实现Word‑Net本体语言的建模工作。对基于Sem‑Graph模型的自然语言文本数据进行语义级的短语结构挖掘,用面向语义的语义模型对自然语言中语句完成建模,实现语句级的语义图数据结构描述,并在此语义图上定义短语语义结构,运用挖掘频繁子图算法实现频繁短语语义的挖掘。能对文档进行恰当的描述和准确的概括,使得每一个最小的处理单元都具备独立且相对完整的语义特征,能从大量文本数据中挖掘出领域相关的高质量短语,充分满足日益增长的短语语义挖掘需求。

Phrase semantic mining driven by digraph oriented model

【技术实现步骤摘要】
有向图意义导向模型驱动的短语语义挖掘方法
本专利技术涉及一种短语语义挖掘方法,特别涉及有向图意义导向模型驱动的短语语义挖掘方法,属于短语语义挖掘

技术介绍
随着新一代移动互联网技术的快速兴起,越来越多的人喜欢通过社交平台来分享一些有趣和重大的新闻,或者表达自己对一些关注度高和重大社会事件的看法。根据统计,微博每天都会产生数亿条文本,文本数据可以被分解成一系列的相关片段,这些片段不仅形式上简洁,而且还包含了丰富有价值的信息。在数量如此庞大的文本之中,有的文本对事件或观点有着清晰的描述,有的却十分难以理解,为了对这些文本数据进行恰当的描述和准确的概括,以进行大数据分析或者进一步的利用,短语挖掘随之兴起。短语挖掘从给定的语料库中自动抽取显著短语,它是大量领域文本分析的基础,具有很强的实用性。短语挖掘能够使得对文档的挖掘处理从原先的词汇级变成短语级,使得每一个最小的处理单元都具备独立且相对完整的语义特征。从大量文本数据中挖掘出领域相关的高质量短语现实意义十分重大,它为进一步的文本分析提供了良好基础。现有技术的短语挖掘的本文档来自技高网...

【技术保护点】
1.有向图意义导向模型驱动的短语语义挖掘方法,其特征在于:采用面向语义的有向图结构数据模型Sem-Graph,从语义视角挖掘自然语言中的短语,基于Sem-Graph模型的等价和特化两大关系,从语义视角对自然语言语句完成建模;并且实现对Word-Net本体语言的描述,构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构,最后基于语义图数据结构的短语语义结构,利用挖掘频繁子图法,实现短语语义的挖掘;/n有向图意义导向模型驱动的短语语义结构挖掘流程的核心部分,包含三个部分:第一部分,确定词性信息;第二部分,构建语义图;第三部分,挖掘频繁子图;/n第一部分,确定词性信息,将要处理的文本...

【技术特征摘要】
1.有向图意义导向模型驱动的短语语义挖掘方法,其特征在于:采用面向语义的有向图结构数据模型Sem-Graph,从语义视角挖掘自然语言中的短语,基于Sem-Graph模型的等价和特化两大关系,从语义视角对自然语言语句完成建模;并且实现对Word-Net本体语言的描述,构建与自然语言短语对应的基于Sem-Graph的语句级语义图数据结构,最后基于语义图数据结构的短语语义结构,利用挖掘频繁子图法,实现短语语义的挖掘;
有向图意义导向模型驱动的短语语义结构挖掘流程的核心部分,包含三个部分:第一部分,确定词性信息;第二部分,构建语义图;第三部分,挖掘频繁子图;
第一部分,确定词性信息,将要处理的文本内容通过预处理集中到一个文件中,使用自然语言工具包NLTK对预处理后的文本进一步分析处理,得到词汇对应的词性信息;
第二部分,构建语义图,对每个文本内容按句子粒度切分,每个句子形成一个语义子图,一篇文档形成Sem-Graph语义子图集;
第三部分,挖掘频繁子图,通过规范语义子图格式生成,将Sem-Graph语义子图集生成规范语义子图格式生成文件,再通过频繁子图挖掘算法,生成频繁短语语义模式,完成短语语义挖掘。


2.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,短语语义挖掘在Sem-Graph语义图上挖掘已经用Word-Net标注过的语义节点的图结构模式,基于Sem-Graph的本体语言描述包括基于Sem-Graph的自然语言语句解析和Word-Net本体语言描述,基于Sem-Graph的本体语言描述将面向语义的语义模型Sem-Graph和本体语言Word-Net从语义视角联系起来,为短语语义结构的挖掘奠定基础。


3.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,基于Sem-Graph的自然语言语句解析中,Sem-Graph采用意义导向方法建立语义数据模型,用有向图结构表现语义信息,Sem-Graph用带标记的节点存储标准语义信息,节点标记表示它的意义类型;
一套语言定义成集L,它的基本元素是由二元关系对(c,p)组成,其中c为有限字母表字符串构成的词形,p表示给定意义集中某一元素,语言中每个带有意义的词形就是一个单词,Sem-Graph面向语义,自然语言中的每个单词看作是根意义#Chord的一个特化。
Sem-Graph将自然语言中的个句子看作根意义#Statement,引入一种新的根意义#Lp,每个词对由两个单词构成,词对的前后关系表示在句子中的顺序关系,词对中的每一个单词又看作是根意义#Chord的一个特化;
自然语言语句被Sem-Graph看作是一个#Statement根意义,它是由#Lp根意义构成的集,记作#Statement={#Lp*},其中符号“*”表示#Lp可出现的任意次数,#Lp表示词对根意义,记作#Lp=(LDi,LDi+1),其中LDi和LDi+1是自然语言语句的具体单词,它们的出现顺序保证自然语言语句的单词出现顺序,词对中出现的单词LDi可看作是根意义#Chord的一个特化,记作


4.根据权利要求1所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,基于Sem-Graph的Word-Net本体语言表示中,Word-Net将传统的词汇信息和计算做了有效的组合,Word-Net是英语词汇数据库,为程序语言控制提供接口,Word-Net对词汇的分类根据词义,每一类词被组织成同义词集,每一个同义词集表示一个词汇词项;
Word-Net根据词汇的矩阵模型组织,语义关系通过同义词集间联系体现,Word-Net中不仅包同义关系,还包含其它多种关系,分别是反义关系、上下位关系、部分整体关系、近义关系。


5.根据权利要求4所述的有向图意义导向模型驱动的短语语义挖掘方法,其特征在于,上下位关系是词义之间的语义关系,上位词在其下...

【专利技术属性】
技术研发人员:高小翎王程
申请(专利权)人:高小翎
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1