当前位置: 首页 > 专利查询>广州大学专利>正文

一种面向领域的概念抽取方法、终端设备及存储介质技术

技术编号:21115999 阅读:29 留言:0更新日期:2019-05-16 09:03
本发明专利技术公开了一种面向领域的概念抽取方法、终端设备及存储介质,所述方法包括获取目标领域的语料,并对语料进行预处理,作为词向量训练的输入文件;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。本发明专利技术能够通过构建和分析语义图,发现大数据中各个领域术语之间的关联,从而提高概念抽取的准确率和实用性。

A Domain-Oriented Concept Extraction Method, Terminal Equipment and Storage Media

【技术实现步骤摘要】
一种面向领域的概念抽取方法、终端设备及存储介质
本专利技术涉及大数据
,尤其涉及一种面向领域的概念抽取方法、终端设备及存储介质。
技术介绍
随着互联网技术的飞速发展,数据量在不断递增,从海量数据中挖掘有效信息变得越来越重要。在这个过程中知识图谱,特别是领域知识图谱发挥了重要的作用,成为互联网知识驱动智能应用的基础设施。对于领域知识图谱的构建,首先应该构建领域知识图谱的数据模式。由于领域数据的庞大性,且大部分是非结构化文本,因而自动构建领域知识图谱的数据模式成为该领域研究的重点。但是,目前国内外的概念抽取方法主要分为人工识别和自动识别两大类,人工识别主要是依靠专家知识进行概念抽取,或者同时依靠专家知识和从百科等其它来源所收集的相关信息来进行概念抽取;而自动识别则主要将统计和规则的方法进行概念抽取。虽然已经研究出许多的领域概念抽取方法,但是在实际的应用中,存在着实用性不足的问题。
技术实现思路
有鉴于此,本专利技术提出一种面向领域的概念抽取方法、终端设备及存储介质,能够充分利用语义信息,发现领域术语之间的关联,从而提高概念抽取的准确率和实用性。为实现上述目的,本专利技术的一个实施例提供本文档来自技高网...

【技术保护点】
1.一种面向领域的概念抽取方法,其特征在于,包括:获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。

【技术特征摘要】
1.一种面向领域的概念抽取方法,其特征在于,包括:获取目标领域的语料,并对所述语料进行预处理,作为词向量训练的输入文件;所述预处理包括分词和去停用词;采用规则和统计相结合的方法,从预处理后的语料中抽取出若干个领域术语;将所述输入文件输入Word2vec工具进行所述词向量训练,得到与若干个词语一一对应的词向量;对所述抽取的领域术语,根据所述词向量并采用余弦相似度公式计算两两领域术语之间的相似度;根据设定的相似度阈值筛选有关联的领域术语对,进行语义图的构建;根据所述语义图,采用社区发现算法进行概念抽取,得到概念集。2.根据权利要求1所述的面向领域的概念抽取方法,其特征在于,所述词向量训练,具体为:将所述输入文件输入至Word2vec工具;设置窗口阈值和向量维度,对小于所述窗口阈值的数据进行剪枝处理;根据Skip-gram模型对剪枝处理后的输入文件进行词向量训练,得到与若干个词语一一对应的词向量。3.根据权利要求1所述的面向领域的概念抽取方法,其特征在于,所述余弦相似度公式为其中,Sim(term1,term2)为两个领域术语间的相似度,t1和t2为两个领域术语的向量,n为向量的维度。4.根据权利要求1所述的面向领域的概念抽取方法,其特征在于,所述语义图的形式为SG=(V,E,W)其中,V为所述领域术语的集合,V={v1,v2,…,vn},n为所述领域术语的总量,为所述领域术语之间的边缘,W为所述领域术语之间的相似度。5.根据权利要求1所述的面向领域的概念抽取方法,...

【专利技术属性】
技术研发人员:仇晶田志宏殷丽华柴瑜晗顾钊铨李树栋韩伟红方滨兴
申请(专利权)人:广州大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1