The present invention provides a natural language processing method for paleo-spectrum and paleo-culture knowledge map, which includes: a pattern for creating paleo-spectrum and paleo-culture knowledge map according to paleo-spectrum and paleo-culture knowledge knowledge knowledge knowledge knowledge; acquiring data and extracting information; integrating knowledge, including linking entities and merging knowledge; integrating paleo-spectrum and paleo-culture knowledge base model. Style and data, conflict between mode and data. The invention uses natural language processing technology and knowledge atlas technology in paleo-spectrum research field, displays paleo-spectrum knowledge development process and structure relationship with graphics, describes paleo-spectrum knowledge resources and their carriers with visualization technology, and excavates, analyzes, constructs and draws display knowledge and their mutual relations. It can display the core structure, development history and overall structure, achieve multi-disciplinary integration, and provide valuable reference for the study of paleography.
【技术实现步骤摘要】
古谱及古文化知识图谱自然语言处理方法
本专利技术涉及一种知识图谱生成方法,尤其涉及一种古谱及古文化知识图谱自然语言处理方法。
技术介绍
知识图谱是在大数据的时代背景下产生的一种新型的海量知识管理与服务模式。它是以“语义网络”为骨架构建起来的巨型、网络化的知识系统,能够捕捉并呈现领域概念之间的语义关系。国内外互联网公司纷纷推出知识图谱以提升服务质量,如谷歌知识图谱、百度“知心”和搜狗的“知立方”。然而,在古谱研究领域,目前还没有能够提供类似功能的知识图谱。现今普遍的古谱研究集中在单一作曲的研究中,未能利用知识图谱技术扩展其研究方向,将古谱与古文化结合。
技术实现思路
鉴于上述现有技术中存在或潜在的不足之处,本专利技术提供了一种知识图谱生成方法,利用大数据处理技术和自然语言处理方法,生成古谱及古文化知识图谱,对古谱研究提供技术支撑。为实现上述目的,本专利技术提供了一种古谱及古文化知识图谱自然语言处理方法,其包括:创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=<GS,Gd,R>;模式图Gs=<NS,PS,ES>,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=<Nd,Pd,Ed>,Nd表示实例节点和字符节点,Pd表示属性边,Ed表示有多条边连接的两个节点之间的关系;每条边和边两边的节点表示主语、谓语和宾语;获取数据和抽取信息:从现有的图片及文字以及互联网上的相关图片及文字获取古谱及 ...
【技术保护点】
1.一种古谱及古文化知识图谱自然语言处理方法,其特征在于,包括步骤:创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=
【技术特征摘要】
1.一种古谱及古文化知识图谱自然语言处理方法,其特征在于,包括步骤:创建古谱及古文化的知识图谱的模式:知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成,表示为G=<GS,Gd,R>;模式图Gs=<NS,PS,ES>,其中NS表示图中的类节点,PS表示属性边,ES表示由多条边连接的两个类之间的关系;数据图Gd=<Nd,Pd,Ed>,Nd表示实例节点和字符节点,Pd表示属性边,Ed表示由多条边连接的两个节点之间的关系;每条边和边两边的节点表示主语、谓语和宾语;获取数据和抽取信息:从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据;对于图片内容,采取光学字符识别OCR与对象识别技术进行辨识取样;对于文字数据,通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位,基于有向无环图和使用Viterbi算法套用HMM模型处理;抽取信息,从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;抽取信息首先进行实体抽取,从文字数据中自动抽取命名实体,其次提取出实体之间的关联关系,最后获得特定实体的属性信息,以获得完整的数据信息;融合知识:获取实体、关联关系以及实体的属性信息以后,为消除概念歧义、避免冗余和错误信息,实现实体链接,采用实体消歧方法用于解决同名实体产生歧义的问题;共指消解用于解决多个指称项对应于同一实体对象的问题;将现有的关系型数据库中的结构化数据融入到知识图谱中,采用资源描述框架RDF作为数据模型,将关系型数据库的数据转换成RDF的三元组数据,表示成<主语,谓语,宾语>这样的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。