一种知识图谱构建方法技术

技术编号:23932961 阅读:45 留言:0更新日期:2020-04-25 02:07
本发明专利技术涉及自然语言处理技术领域,更具体地,涉及一种知识图谱构建方法,包括:步骤S1:获取语料集;步骤S2:对语料集进行预处理;步骤S3:转化语料集并存入数据库;步骤S4:根据数据库构建知识图谱。本发明专利技术与现有的知识图谱构建方法相比,构建出来的知识图谱的质量更高。

A construction method of knowledge map

【技术实现步骤摘要】
一种知识图谱构建方法
本专利技术涉及自然语言处理
,更具体地,涉及一种知识图谱构建方法。
技术介绍
自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。自然语言处理(naturallanguageprocessing,NLP),是指用计算机对自然语言的形、音、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。当今社会,随着信息技术的发展与互联网的普及,大数据、云计算、人工智能已成为当前学术界的热点课题。自然语言处理是人工智能中最为困难的问题之一,如何实现人机间的信息交流,智能地筛选、处理海量的数据是人工智能界、计算机科学和语言学界的技术突破重点。因为人类语言有其特殊性、复杂性,使机器理解人类语言是一项艰巨的任务。尤其在自然语言处理的领域里,机器理解中文远比理解英文复杂的多。因此,如何使机器更好地解析中文,处理中文已成为了人工智能领域中无法绕开的难题。知识图谱是一种以自然语言处理(NLP)为中心,结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。实体通常指的是文本中具有特别意义或者指代性非常强的名词短语或者动词短语,通常包括人名、地名、机构名、时间、专有名词等。通俗地讲,知识图谱就是把所有不同种类的信息(HeterogeneousInformation)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。近来知识图谱在人工智能很多行业拥有成熟的应用,如搜索引擎、聊天机器人、智能医疗、智能硬件等。尽管知识图谱的应用如此广阔,但是当前的知识图谱构建方法并不成熟,仍存在需要人工构建、数据质量不高的缺点。因此,目前亟需一种构建更高质量知识图谱的方法。
技术实现思路
为了解决上述问题,本专利技术提供一种知识图谱构建方法,该方法可构建更高质量知识图谱。本专利技术采取的技术方案是:一种知识图谱构建方法,所述方法包括:步骤S1:获取语料集;步骤S2:对语料集进行预处理;步骤S3:转化语料集并存入数据库;步骤S4:根据数据库构建知识图谱。语料集即语言材料的集合,语料是构成语料库的基本单元,为文本形式。本方案的语料从网上获取,具体获取方式为:选取目标网页,把网页定义为document格式,将所有的数据转化为文本,之后对转化为文本的网页进行遍历,获取里面所有的文本数据,最后建立元素组集element存储获取到的所有文本数据。转化为文本的网页不仅包含文字内容,还包含html的标签、注释等,而标签包含文字样式等信息。为了后续读取解析工作方便,元素组把html内容与html标签分开存储。获取语料集之后,将其进行预处理,使其的噪音减少。由于三元组对于数据库存储性能高,因此把预处理后的语料集转化为三元组,然后,存入数据库。最后根据数据库所存的数据构建知识图谱。本方案与现有的知识图谱构建方法相比,构建出来的知识图谱的质量更高。进一步地,所述步骤S2包括:步骤S2.1:对语料集进行清洗;步骤S2.2:使用分词工具对清洗后的语料集进行分词;步骤S2.3:对分词后的语料集进行词性标注;步骤S2.4:通过依存句法分析器对词性标注后的语料集进行解析;步骤S2.5:从解析后的语料集中提取名词短语,建立名词短语集。在本方案中,对语料集进行清洗包括删除清洗和正则表达式匹配清洗。获取到语料集后,因为语料集中必定含有不需要的信息,因此必须先进行过滤,把无用的内容,如:广告、无用链接、html注释等无用内容的删除;编写描述关键词的正则表达式,将删除清洗后的语料集与正则表达式进行匹配,过滤掉与正则表达式不相符的部分。将有用的内容文本提取出来后,选取适用的标注集,例如:政策性文本,选取人民日报标注语料库。使用分词工具根据其字、词的含义进行分词,然后给每个词打上相应的词性标签。根据词性对语料集进行句法分析,句法分析能识别句子中所包含的句法成分以及这些成分之间的关系,联系上下文对句子进行更深层次的理解,消除词语之间的歧义,使信息错误率更低。本方案的句法分析为依存句法分析,其形式简洁,便于应用;因为没有采用基于标注数据集的深度学习方法,而是在传统的无监督学习方法的基础上进行训练,所以无需大量的人工数据标注,不仅高效快捷,还避免了标注数据集质量差而导致的误差,节省大量的人力财力。最后,从依存句法分析器解析完的语料集中准确地从提取名词短语,建立名词短语集。进一步地,所述步骤S2.5提取名词短语的方式包括:(1)根据短语中的定中关系结构提取;(2)提取非定中关系下的有一定长度的名词。具体地,(1)短语中的定中关系常用来描述汉语中动-名复合词汇,其定语可以从数量、领属、范围、特征、质料对中心语做出限定,构成限制性定语,描述性定语等等定中短语,根据句法解析的结果,将定中关系的词语进行组合则能还原其短语语义。由于定中短语词与词之间存在组合先后顺序,在本方案中还使用了二分插入的方法对其id进行搜索和插入,提高了提取速度的同时保证了短语的完整性。(2)因为分词工具有时候能够直接将识别比较长的名词短语识别成名词或者专有名词,所以是对(1)的补充。进一步地,所述步骤S3包括:所述语料集转化为三元组,三元组(Field,Predicate,Value);其中Field为数据列名,Value为Field对应的值,Predicate为Field与Value之间的关系;所述Value包括数字类、地址类、名词性类。上述的方法从语料集中提取了所有可能的名词短语,然而不可能所有的名词短语都属于实体。因此,需要对得到的名词短语集进行进一步的筛选才能存入数据库。本方案采用的筛选方法是种子库模板的方法。具体过程为:构建一个数据库,数据库中数据以三元组的方式存储,数据库已有的数据作为模板集,将语料集也转化为三元组,然后与模板集进行匹配,若是通过匹配,则存入数据库。进一步地,所述Field的获取过程包括:步骤S3.11:获取数据库已有的数据集,作为短语模板集,利用BERT预训练的语言模型将短语模板集转为句向量;步骤S3.12:利用BERT预训练的语言模型将名词短语集转为句向量;步骤S3.13:计算短语模板集与名词短语集两个数据集短语之间的距离;步骤S3.14:若相似度满足一定阈值则名词短语集的短语归为短语模板集的短语一类;所述相似度的计本文档来自技高网
...

【技术保护点】
1.一种知识图谱构建方法,其特征在于,所述方法包括:/n步骤S1:获取语料集;/n步骤S2:对语料集进行预处理;/n步骤S3:转化语料集并存入数据库;/n步骤S4:根据数据库构建知识图谱。/n

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:
步骤S1:获取语料集;
步骤S2:对语料集进行预处理;
步骤S3:转化语料集并存入数据库;
步骤S4:根据数据库构建知识图谱。


2.根据权利要求1所述的一种知识图谱构建方法,其特征在于,所述步骤S2包括:
步骤S2.1:对语料集进行清洗;
步骤S2.2:使用分词工具对清洗后的语料集进行分词;
步骤S2.3:对分词后的语料集进行词性标注;
步骤S2.4:通过依存句法分析器对词性标注后的语料集进行解析;
步骤S2.5:从解析后的语料集中提取名词短语,建立名词短语集。


3.根据权利要求2所述的一种知识图谱构建方法,其特征在于,所述步骤S2.5提取名词短语的方式包括:
(1)根据短语中的定中关系结构提取;
(2)提取非定中关系下的有一定长度的名词。


4.根据权利要求2所述的一种知识图谱构建方法,其特征在于,所述步骤S3包括:所述语料集转化为三元组,三元组为(Field,Predicate,Value);
其中Field为数据列名,Value为Field对应的值,Predicate为Field与Value之间的关系;
所述Value包括数字类、地址类、名词性类。


5.根据权利要求4所述的一种知识图谱构建方法,其特征在于,所述Field的获取过程包括:步骤S3.11:获取数据库已有的数据集,作为短语模板集,利用BERT预训练的语言模型将短语模板集转为句向量;
步骤S3.12:利用BERT预训练的语言模型将名词短语集转为句向量;
步骤S3.13:计算短语模板集与名词短语集两个数据集短语之间的距离;
步骤S3.14:若相似度满足一定阈值则名词短语集的短语归为短语模板集当前的短语一类;
所述相似度的计算公式如下:



其中,Ssimilar表示两个短语的相似度,余弦值的范围为[-1,1],vec1与vec2为BERT模型中倒数第二层的输出,共768维向量。

【专利技术属性】
技术研发人员:金耀初何卫灵刘华张宏辉
申请(专利权)人:广州利科科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1