【技术实现步骤摘要】
一种结合信息量和BERT
‑
BiLSTM
‑
CRF的NLP知识图谱构建方法
[0001]本申请涉及计算机
,尤其涉及一种结合信息量和BERT
‑
BiLSTM
‑
CRF的NLP知识图谱构建方法。
技术介绍
[0002]近几十年以来,自然语言处理处于快速发展阶段,与自然语言处理相关的学术研究论文数据量剧增,不管是学术界还是工业生产上,针自然语言处理领域相关论文的查阅需求愈发强烈,但自然语言处理领域多样的研究内容以及繁杂的概念关系给人们阅读论文带来了不小的挑战。
[0003]在对垂直领域知识图谱进行构建时,最重要的两个子任务是知识图谱模式层的构建以及知识抽取。知识图谱在逻辑上可以分为模式层和数据层两个层次。其中数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。模式层构建在数据层之上,定义了知识图谱的概念和概念间的联系等。通过模式层的定义可以规范整个知识图谱的数据结构化的表达;知识图谱的基本组成单位是“实体-关系-实体”三元组,知识抽取 ...
【技术保护点】
【技术特征摘要】
1.一种结合信息量和BERT
‑
BiLSTM
‑
CRF的NLP知识图谱构建方法,其特征在于,包括以下步骤:步骤1),定义NLP知识图谱模式层;定义模式层描述图谱中的实体、关系和属性;步骤2),数据集构建:NPL论文数据获取,通过爬虫的方法获取自然语言处理领域的数据并进行数据标注;步骤3),新词发现:通过使用新词发现算法找出摘要中的关键术语;新词算法包括以下步骤:通过统计信息量获取候选新词,通过BiLSTM
‑
CRF模型识别出低频新词,通过在BILSTM前面加入BERT的使用,获取输入文本对应的向量,通过使用向量表示上下文信息获取更多的低频新词,通过模型测试与评估后,完成新词发现;步骤4),文本多分类;定义细粒度NLP的研究任务,通过基于特征融合的文本多分类模型得出细粒度NLP的研究任务。步骤5),知识图谱构建;将三元组数据通过Neo4j图数据库进行存储和可视化展示,最终完成了NLP知识图谱的构建。2.根据权利要求1所述的结合信息量和BERT
‑
BiLSTM
‑
CRF的NLP知识图谱构建方法,其特征在于,所述的步骤1)中,模式层定义通过以下步骤完成,步骤1.1),确定本体构建的领域和范围为自然语言处理领域;步骤1.2),分析本领域内是否有可以复用的本体;步骤1.3),整理确定领域本体中的重要术语;步骤1.4),确定本体中类的结构层次;步骤1.5),确定类的属性信息;步骤1.6),确定类属性的约束条件;步骤1.7),对本体进行实例化。3.根据权利要求1所述的结合信息量和BERT
‑
BiLSTM
‑
CRF的NLP知识图谱构建方法,...
【专利技术属性】
技术研发人员:范春晓,吴岳辛,孙娟娟,蔡婷婷,王艺潼,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。