当前位置: 首页 > 专利查询>广州大学专利>正文

一种面向领域的概念抽取方法、终端设备及存储介质技术

技术编号:21115999 阅读:18 留言:0更新日期:2019-05-16 09:03
本发明专利技术公开了一种面向领域的概念抽取方法、终端设备及存储介质,所述方法包括获取目标领域的语料,并对语料进行预处理,作为词向量训练的输入文件;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。本发明专利技术能够通过构建和分析语义图,发现大数据中各个领域术语之间的关联,从而提高概念抽取的准确率和实用性。

A Domain-Oriented Concept Extraction Method, Terminal Equipment and Storage Media

【技术实现步骤摘要】
一种面向领域的概念抽取方法、终端设备及存储介质
本专利技术涉及大数据
,尤其涉及一种面向领域的概念抽取方法、终端设备及存储介质。
技术介绍
随着互联网技术的飞速发展,数据量在不断递增,从海量数据中挖掘有效信息变得越来越重要。在这个过程中知识图谱,特别是领域知识图谱发挥了重要的作用,成为互联网知识驱动智能应用的基础设施。对于领域知识图谱的构建,首先应该构建领域知识图谱的数据模式。由于领域数据的庞大性,且大部分是非结构化文本,因而自动构建领域知识图谱的数据模式成为该领域研究的重点。但是,目前国内外的概念抽取方法主要分为人工识别和自动识别两大类,人工识别主要是依靠专家知识进行概念抽取,或者同时依靠专家知识和从百科等其它来源所收集的相关信息来进行概念抽取;而自动识别则主要将统计和规则的方法进行概念抽取。虽然已经研究出许多的领域概念抽取方法,但是在实际的应用中,存在着实用性不足的问题。
技术实现思路
有鉴于此,本专利技术提出一种面向领域的概念抽取方法、终端设备及存储介质,能够充分利用语义信息,发现领域术语之间的关联,从而提高概念抽取的准确率和实用性。为实现上述目的,本专利技术的一个实施例提供一种面向领域的概念抽取方法,包括:获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。进一步地,所述词向量训练,具体为:将所述输入文件输入至Word2vec工具;设置窗口阈值和向量维度,对小于所述窗口阈值的数据进行剪枝处理;根据Skip-gram模型对剪枝处理后的输入文件进行词向量训练,得到与若干个词语一一对应的词向量。进一步地,所述余弦相似度公式为其中,Sim(term1,term2)为两个领域术语间的相似度,t1和t2为两个领域术语的向量,n为向量的维度。进一步地,所述语义图的形式为SG=(V,E,W)其中,V为所述领域术语的集合,V={v1,v2,…,vn},n为所述领域术语的总量,为所述领域术语之间的边缘,W为所述领域术语之间的相似度。进一步地,所述语义图的构建,具体为:将所述领域术语作为所述语义图的节点;在判断两两领域术语之间的相似度大于设定的相似度阈值时,则在该两两领域术语之间构建一条无向的边。进一步地,所述社区发现算法包括GN算法、CNM算法、Louvain算法以及CFM算法。进一步地,所述根据所述语义图,采用社区发现算法进行概念抽取,得到概念集,具体为:采用所述社区发现算法对所述语义图中的节点进行聚类;采用第一集合表示所述语义图中的概念总数量;采用第二集合表示所述语义图中的每个概念的领域术语数量。进一步地,所述第一集合为C={C1,C2,…,Cn},其中,C为所述概念的集合,n为概念的总数量;所述第二集合为Ci={ti1,ti2,…,tim},其中,Ci表示某个概念的术语集合,m为某一个概念包含的术语数;tik表示概念中的某一个术语。本专利技术的另一个实施例提供的一种面向领域的概念抽取的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-8所述的面向领域的概念抽取方法。本专利技术的又一个实施例提供的一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-8所述的面向领域的概念抽取方法。实施本专利技术实施例,具有如下有益效果:本专利技术实施例提供的一种面向领域的概念抽取方法、终端设备及存储介质,所述方法包括获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。本专利技术能够通过构建和分析语义图,发现大数据中各个领域术语之间的关联,从而提高概念抽取的准确率和实用性。附图说明图1是本专利技术的一个实施例提供的面向领域的概念抽取方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1。如图1所示,本实施例提供的一种面向领域的概念抽取方法,包括:S101、获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;S102、采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;具体的,对于步骤S101和步骤S102,可以举例说明,例如在面向法律领域的概念抽取时,收集与法律领域相关的裁判文书,作为法律领域概念抽取的语料,对所述语料进行分词和去停用词等,采用基于规则和统计相结合的方法抽取法律领域术语。S103、将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;具体的,对于步骤S103,所述领域术语相似度计算结果是领域术语与领域术语之间的相似性信息,两个领域术语之间相似度较高,则认为两个领域术语之间有较大的关联。因此,使用Word2vec工具的Skip-gram模型进行词向量训练,训练得到与若干个词语一一对应的词向量。S104、对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;具体的,对于步骤S104,在训练得到词向量后,使用余弦相似度计算领域术语对之间的相似度。每个边缘eu,v∈E表示两个节点(u,v)之间存在语义关系,相似度为wu,v表示领域术语之间的权重大小,threshold为构建语义图的阈值。构建语义图的条件为:如果两个领域术语(u,v)之间的相似度wu,v大于设定的阈值threshold,即wu,v>threshold,那么则认为两个术语之间具有较高的关联程度,为两个领域术语之间构建一条边,即u→v,该条边是无向的,从而构建领域术语的语义图结构。S105、根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。具体的,对于步骤S105,社区发现算法是用来分析图中的社区结构,同时也是可以看作是一种聚类算法,通俗来说,社区发现就是发现图中的节点进行聚类。本实施例使用四种社区发现算法分析所构建的语义图结构,分别是GN本文档来自技高网...

【技术保护点】
1.一种面向领域的概念抽取方法,其特征在于,包括:获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。

【技术特征摘要】
1.一种面向领域的概念抽取方法,其特征在于,包括:获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。2.根据权利要求1所述的面向领域的概念抽取方法,其特征在于,所述词向量训练,具体为:将所述输入文件输入至Word2vec工具;设置窗口阈值和向量维度,对小于所述窗口阈值的数据进行剪枝处理;根据Skip-gram模型对剪枝处理后的输入文件进行词向量训练,得到与若干个词语一一对应的词向量。3.根据权利要求1所述的面向领域的概念抽取方法,其特征在于,所述余弦相似度公式为其中,Sim(term1,term2)为两个领域术语间的相似度,t1和t2为两个领域术语的向量,n为向量的维度。4.根据权利要求1所述的面向领域的概念抽取方法,其特征在于,所述语义图的形式为SG=(V,E,W)其中,V为所述领域术语的集合,V={v1,v2,…,vn},n为所述领域术语的总量,为所述领域术语之间的边缘,W为所述领域术语之间的相似度。5.根据权利要求1所述的面向领域的概念抽取方法,...

【专利技术属性】
技术研发人员:仇晶田志宏殷丽华柴瑜晗顾钊铨李树栋韩伟红方滨兴
申请(专利权)人:广州大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1