古谱及古文化知识图谱自然语言处理方法技术

技术编号：18894516 阅读：57 留言：0更新日期：2018-09-08 10:58

本发明专利技术提供了一种古谱及古文化知识图谱自然语言处理方法，包括：根据古谱和古文化专业知识，创建古谱及古文化的知识图谱的模式；获取数据和抽取信息；融合知识，包括链接实体和合并知识；集成古谱及古文化知识库模式与数据，解决模式和数据的冲突。本发明专利技术在古谱研究领域使用自然语言处理技术和知识图谱技术，用图形显示古谱知识发展进程与结构关系，用可视化技术描述古谱知识资源及其载体，挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构，达到多学科融合，为古谱学科研究提供有价值的参考。

Ancient map and ancient culture knowledge map Natural Language Processing method

The present invention provides a natural language processing method for paleo-spectrum and paleo-culture knowledge map, which includes: a pattern for creating paleo-spectrum and paleo-culture knowledge map according to paleo-spectrum and paleo-culture knowledge knowledge knowledge knowledge knowledge; acquiring data and extracting information; integrating knowledge, including linking entities and merging knowledge; integrating paleo-spectrum and paleo-culture knowledge base model. Style and data, conflict between mode and data. The invention uses natural language processing technology and knowledge atlas technology in paleo-spectrum research field, displays paleo-spectrum knowledge development process and structure relationship with graphics, describes paleo-spectrum knowledge resources and their carriers with visualization technology, and excavates, analyzes, constructs and draws display knowledge and their mutual relations. It can display the core structure, development history and overall structure, achieve multi-disciplinary integration, and provide valuable reference for the study of paleography.

全部详细技术资料下载

【技术实现步骤摘要】
古谱及古文化知识图谱自然语言处理方法
本专利技术涉及一种知识图谱生成方法，尤其涉及一种古谱及古文化知识图谱自然语言处理方法。
技术介绍
知识图谱是在大数据的时代背景下产生的一种新型的海量知识管理与服务模式。它是以“语义网络”为骨架构建起来的巨型、网络化的知识系统，能够捕捉并呈现领域概念之间的语义关系。国内外互联网公司纷纷推出知识图谱以提升服务质量，如谷歌知识图谱、百度“知心”和搜狗的“知立方”。然而，在古谱研究领域，目前还没有能够提供类似功能的知识图谱。现今普遍的古谱研究集中在单一作曲的研究中，未能利用知识图谱技术扩展其研究方向，将古谱与古文化结合。
技术实现思路
鉴于上述现有技术中存在或潜在的不足之处，本专利技术提供了一种知识图谱生成方法，利用大数据处理技术和自然语言处理方法，生成古谱及古文化知识图谱，对古谱研究提供技术支撑。为实现上述目的，本专利技术提供了一种古谱及古文化知识图谱自然语言处理方法，其包括：创建古谱及古文化的知识图谱的模式：知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成，表示为G＝<GS，Gd，R>；模式图Gs＝<NS，PS，ES>，其中NS表示图中的类节点，PS表示属性边，ES表示由多条边连接的两个类之间的关系；数据图Gd＝<Nd，Pd，Ed>，Nd表示实例节点和字符节点，Pd表示属性边，Ed表示有多条边连接的两个节点之间的关系；每条边和边两边的节点表示主语、谓语和宾语；获取数据和抽取信息：从现有的图片及文字以及互联网上的相关图片及文字获取古谱及...

【技术保护点】
1.一种古谱及古文化知识图谱自然语言处理方法，其特征在于，包括步骤：创建古谱及古文化的知识图谱的模式：知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成，表示为G＝

【技术特征摘要】
1.一种古谱及古文化知识图谱自然语言处理方法，其特征在于，包括步骤：创建古谱及古文化的知识图谱的模式：知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成，表示为G＝<GS，Gd，R>；模式图Gs＝<NS，PS，ES>，其中NS表示图中的类节点，PS表示属性边，ES表示由多条边连接的两个类之间的关系；数据图Gd＝<Nd，Pd，Ed>，Nd表示实例节点和字符节点，Pd表示属性边，Ed表示由多条边连接的两个节点之间的关系；每条边和边两边的节点表示主语、谓语和宾语；获取数据和抽取信息：从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据；对于图片内容，采取光学字符识别OCR与对象识别技术进行辨识取样；对于文字数据，通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位，基于有向无环图和使用Viterbi算法套用HMM模型处理；抽取信息，从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；抽取信息首先进行实体抽取，从文字数据中自动抽取命名实体，其次提取出实体之间的关联关系，最后获得特定实体的属性信息，以获得完整的数据信息；融合知识：获取实体、关联关系以及实体的属性信息以后，为消除概念歧义、避免冗余和错误信息，实现实体链接，采用实体消歧方法用于解决同名实体产生歧义的问题；共指消解用于解决多个指称项对应于同一实体对象的问题；将现有的关系型数据库中的结构化数据融入到知识图谱中，采用资源描述框架RDF作为数据模型，将关系型数据库的数据转换成RDF的三元组数据，表示成<主语，谓语，宾语>这样的...

【专利技术属性】
技术研发人员：赵维平，孙宁，
申请(专利权)人：赵维平，孙宁，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人