当前位置: 首页 > 专利查询>赵维平专利>正文

古谱及古文化知识图谱自然语言处理方法技术

技术编号:18894516 阅读:57 留言:0更新日期:2018-09-08 10:58
本发明专利技术提供了一种古谱及古文化知识图谱自然语言处理方法,包括:根据古谱和古文化专业知识,创建古谱及古文化的知识图谱的模式;获取数据和抽取信息;融合知识,包括链接实体和合并知识;集成古谱及古文化知识库模式与数据,解决模式和数据的冲突。本发明专利技术在古谱研究领域使用自然语言处理技术和知识图谱技术,用图形显示古谱知识发展进程与结构关系,用可视化技术描述古谱知识资源及其载体,挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构,达到多学科融合,为古谱学科研究提供有价值的参考。

Ancient map and ancient culture knowledge map Natural Language Processing method

The present invention provides a natural language processing method for paleo-spectrum and paleo-culture knowledge map, which includes: a pattern for creating paleo-spectrum and paleo-culture knowledge map according to paleo-spectrum and paleo-culture knowledge knowledge knowledge knowledge knowledge; acquiring data and extracting information; integrating knowledge, including linking entities and merging knowledge; integrating paleo-spectrum and paleo-culture knowledge base model. Style and data, conflict between mode and data. The invention uses natural language processing technology and knowledge atlas technology in paleo-spectrum research field, displays paleo-spectrum knowledge development process and structure relationship with graphics, describes paleo-spectrum knowledge resources and their carriers with visualization technology, and excavates, analyzes, constructs and draws display knowledge and their mutual relations. It can display the core structure, development history and overall structure, achieve multi-disciplinary integration, and provide valuable reference for the study of paleography.

【技术实现步骤摘要】
古谱及古文化知识图谱自然语言处理方法
本专利技术涉及一种知识图谱生成方法,尤其涉及一种古谱及古文化知识图谱自然语言处理方法。
技术介绍
知识图谱是在大数据的时代背景下产生的一种新型的海量知识管理与服务模式。它是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,能够捕捉并呈现领域概念之间的语义关系。国内外互联网公司纷纷推出知识图谱以提升服务质量,如谷歌知识图谱、百度“知心”和搜狗的“知立方”。然而,在古谱研究领域,目前还没有能够提供类似功能的知识图谱。现今普遍的古谱研究集中在单一作曲的研究中,未能利用知识图谱技术扩展其研究方向,将古谱与古文化结合。
技术实现思路
鉴于上述现有技术中存在或潜在的不足之处,本专利技术提供了一种知识图谱生成方法,利用大数据处理技术和自然语言处理方法,生成古谱及古文化知识图谱,对古谱研究提供技术支撑。为实现上述目的,本专利技术提供了一种古谱及古文化知识图谱自然语言处理方法,其包括:创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=<GS,Gd,R>;模式图Gs=<NS,PS,ES>,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=<Nd,Pd,Ed>,Nd表示实例节点和字符节点,Pd表示属性边,Ed表示有多条边连接的两个节点之间的关系;每条边和边两边的节点表示主语、谓语和宾语;获取数据和抽取信息:从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据;对于图片内容,可采取光学字符识别OCR(OpticalCharacterRecognition)与ObjectDetection(对象识别)技术进行辨识取样;对于文字数据,可通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位,基于有向无环图(DAG)和使用Viterbi算法套用HMM模型处理;抽取信息,即从各种类型的数据源中提取出实体(概念)、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;抽取信息首先需要进行实体抽取,主要是从大量文字数据中自动抽取命名实体,其实需要提取出实体之间的关联关系,最后还需要获得特定实体的属性信息,以获得完整的数据信息;融合知识:获取实体、关系以及实体属性信息以后,为消除概念歧义、避免冗余和错误信息,需要实现实体链接,实体消歧(entitydisambiguation)方法会用于解决同名实体产生歧义的问题;共指消解(CoreferenceResolution)用于解决多个指称项对应于同一实体对象的问题;将现有的关系型数据库中的结构化数据融入到知识图谱中,可采用资源描述框架RDF作为数据模型,将关系型数据库的数据转换成RDF的三元组数据,即表示成<主语,谓语,宾语>这样的结构;从多源数据抽取数据会出现数据重复或者冲突问题,对数据源进行可信度评分,基于数据来源以及在不同来源中出现的频度,对数据项进行排序,补充至相应属性值字段中,将数据源正规化后存入知识图谱的索引数据库中;以及集成古谱及古文化知识库模式与数据:基于以上步骤,可以获得结构化和网络化的知识体系;建立模式过程中,当出现数据冲突,或者无法确认数据源质量时,由古谱及古文化专家人工评定,确定最终结果。采用上述技术方案,本专利技术在古谱研究领域使用自然语言处理技术和知识图谱技术,用图形显示古谱知识发展进程与结构关系,用可视化技术描述古谱知识资源及其载体,挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构,达到多学科融合,为古谱学科研究提供有价值的参考。在一些可能的设计中,在创建的古谱及古文化的知识图谱的模式中,所述数据图的数据来自古谱库和古文化库。在一些可能的设计中,在创建的古谱及古文化的知识图谱的模式中,包含古谱概念的属性、具体每一首乐谱的属性和古文化概念的属性。。在一些可能的设计中,所述古谱概念的属性包括古谱名称、分类、编著者、年代、版本、印刷法、现藏和题解中的一种或多种。在一些可能的设计中,所述具体某一乐谱的属性包括谱名、分类、传谱人、抄谱年代、曲调、材质及印刷、规格、现藏和题解中的一种或多种。在一些可能的设计中,所述古文化概念的属性包括种类和朝代中的一种或多种。在一些可能的设计中,在所述抽取信息的步骤中,数据源包括现有的图片及文字以及互联网上的相关图片及文字。在一些可能的设计中,所述方法还包括:在建立了古谱及古文化知识图谱的基础后,建立古谱及古文化知识反馈,解决模式与数据的冲突。在一些可能的设计中,利用所述问答引擎架构进行基于知识图谱的分词、模板匹配及模板的翻译执行。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的构建古谱及古文化知识图谱的流程图。图2为本专利技术实施例中知识图谱的数据图的示意图。图3为本专利技术实施例中明代古谱与古文化知识图谱的示意图。图4为本专利技术实施例中的基于古谱及古文化知识图谱的问答引擎架构的示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。本专利技术主要提供了一种基于自然语言处理的古谱及古文化知识图谱,涉及一种知识图谱生成方法,利用大数据处理技术和自然语言处理方法,生成古谱及古文化知识图谱,对古谱研究提供技术支撑。利用自然语言处理技术和知识图谱相关知识可以建立知识图谱,知识图谱的构建流程包括利用实体萃取、文本抽取、关系数据转换、数据融合、集成知识库模式与数据。目前,在古谱研究中,并未应用自然语言处理技术及知识图谱,本专利技术在古谱研究中引入了自然语言处理技术及知识图谱,将人类认知信息转换为数字信息和易理解的图,利用计算机处理方法和互联网相关技术为古谱研究提供新的思路和方法。下面结合附图和具体实施例来对本专利技术做进一步详细说明。参阅图1所示,图中释义了本专利技术古谱及古文化知识图谱自然语言处理方法的一种实现方式,其主要包括以下几个步骤:1、创建古谱及古文化的知识图谱的模式;2、获取数据和抽取信息;3、融合知识;4、集成古谱及古文化知识库模式与数据。下面对每一步骤进行展开说明。1、根据古谱专业知识,创建古谱及古文化的知识图谱的模式:定义古谱知识图谱G由古谱模式图Gs、古谱数据图Gd以及两者(Gs和Gd)之间的关系R组成,即G=<GS,Gd,R>;模式图Gs=<NS,PS,ES>,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=<Nd,Pd,Ed>,Nd表示实例节点和字符节点,Pd表示属性边,使用Ed表示由多条本文档来自技高网...

【技术保护点】
1.一种古谱及古文化知识图谱自然语言处理方法,其特征在于,包括步骤:创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=

【技术特征摘要】
1.一种古谱及古文化知识图谱自然语言处理方法,其特征在于,包括步骤:创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=<GS,Gd,R>;模式图Gs=<NS,PS,ES>,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=<Nd,Pd,Ed>,Nd表示实例节点和字符节点,Pd表示属性边,Ed表示由多条边连接的两个节点之间的关系;每条边和边两边的节点表示主语、谓语和宾语;获取数据和抽取信息:从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据;对于图片内容,采取光学字符识别OCR与对象识别技术进行辨识取样;对于文字数据,通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位,基于有向无环图和使用Viterbi算法套用HMM模型处理;抽取信息,从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;抽取信息首先进行实体抽取,从文字数据中自动抽取命名实体,其次提取出实体之间的关联关系,最后获得特定实体的属性信息,以获得完整的数据信息;融合知识:获取实体、关联关系以及实体的属性信息以后,为消除概念歧义、避免冗余和错误信息,实现实体链接,采用实体消歧方法用于解决同名实体产生歧义的问题;共指消解用于解决多个指称项对应于同一实体对象的问题;将现有的关系型数据库中的结构化数据融入到知识图谱中,采用资源描述框架RDF作为数据模型,将关系型数据库的数据转换成RDF的三元组数据,表示成<主语,谓语,宾语>这样的...

【专利技术属性】
技术研发人员:赵维平孙宁
申请(专利权)人:赵维平孙宁
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1