一种知识图谱构建方法技术

技术编号：23932961 阅读：45 留言：0更新日期：2020-04-25 02:07

本发明专利技术涉及自然语言处理技术领域，更具体地，涉及一种知识图谱构建方法，包括：步骤S1：获取语料集；步骤S2：对语料集进行预处理；步骤S3：转化语料集并存入数据库；步骤S4：根据数据库构建知识图谱。本发明专利技术与现有的知识图谱构建方法相比，构建出来的知识图谱的质量更高。

A construction method of knowledge map

全部详细技术资料下载

【技术实现步骤摘要】
一种知识图谱构建方法
本专利技术涉及自然语言处理
，更具体地，涉及一种知识图谱构建方法。
技术介绍
自然语言是指汉语、英语、法语等人们日常使用的语言，是自然而然的随着人类社会发展演变而来的语言，而不是人造的语言，它是人类学习生活的重要工具。概括说来，自然语言是指人类社会约定俗成的，区别于人工语言，如程序设计的语言。自然语言处理(naturallanguageprocessing，NLP)，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说，自然语言处理就是要计算机理解自然语言，自然语言处理机制涉及两个流程，包括自然语言理解和自然语言生成。当今社会，随着信息技术的发展与互联网的普及，大数据、云计算、人工智能已成为当前学术界的热点课题。自然语言处理是人工智能中最为困难的问题之一，如何实现人机间的信息交流，智能地筛选、处理海量的数据是人工智能界、计算机科学和语言学界的技术突破重点。因为人类语言有其特殊性、复杂性，使机器理解人类语言是一项艰巨的任务。尤其在自然语言处理的领域里，机器理解中文远比理解英文复杂的多。因此，如何使机器更好地解析中文，处理中文已成为了人工智能领域中无法绕开的难题。知识图谱是一种以自然语言处理(NLP)为中心，结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。在知识图谱里，每个节点表...

【技术保护点】
1.一种知识图谱构建方法，其特征在于，所述方法包括：/n步骤S1：获取语料集；/n步骤S2：对语料集进行预处理；/n步骤S3：转化语料集并存入数据库；/n步骤S4：根据数据库构建知识图谱。/n

【技术特征摘要】
1.一种知识图谱构建方法，其特征在于，所述方法包括：
步骤S1：获取语料集；
步骤S2：对语料集进行预处理；
步骤S3：转化语料集并存入数据库；
步骤S4：根据数据库构建知识图谱。

2.根据权利要求1所述的一种知识图谱构建方法，其特征在于，所述步骤S2包括：
步骤S2.1：对语料集进行清洗；
步骤S2.2：使用分词工具对清洗后的语料集进行分词；
步骤S2.3：对分词后的语料集进行词性标注；
步骤S2.4：通过依存句法分析器对词性标注后的语料集进行解析；
步骤S2.5：从解析后的语料集中提取名词短语，建立名词短语集。

3.根据权利要求2所述的一种知识图谱构建方法，其特征在于，所述步骤S2.5提取名词短语的方式包括：
(1)根据短语中的定中关系结构提取；
(2)提取非定中关系下的有一定长度的名词。

4.根据权利要求2所述的一种知识图谱构建方法，其特征在于，所述步骤S3包括：所述语料集转化为三元组，三元组为(Field，Predicate，Value)；
其中Field为数据列名，Value为Field对应的值，Predicate为Field与Value之间的关系；
所述Value包括数字类、地址类、名词性类。

5.根据权利要求4所述的一种知识图谱构建方法，其特征在于，所述Field的获取过程包括：步骤S3.11：获取数据库已有的数据集，作为短语模板集，利用BERT预训练的语言模型将短语模板集转为句向量；
步骤S3.12：利用BERT预训练的语言模型将名词短语集转为句向量；
步骤S3.13：计算短语模板集与名词短语集两个数据集短语之间的距离；
步骤S3.14：若相似度满足一定阈值则名词短语集的短语归为短语模板集当前的短语一类；
所述相似度的计算公式如下：

其中，Ssimilar表示两个短语的相似度，余弦值的范围为[-1，1]，vec1与vec2为BERT模型中倒数第二层的输出，共768维向量。

【专利技术属性】
技术研发人员：金耀初，何卫灵，刘华，张宏辉，
申请(专利权)人：广州利科科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人