【技术实现步骤摘要】
本专利技术涉及自然语言处理与分析领域,具体涉及一种基于文档的概念图生成方法及装置。
技术介绍
1、概念图是将概念实体以逻辑的方式联合在一起形成的图结构数据,在组成结构上与知识图谱类似。它能够对一系列概念进行网络化的表示,以描述概念之间的关联或从属关系。基于文档的概念图生成是将文档中的关键概念提取出来,并以概念图的形式表示,以描述文档中存在的主要关系网络。
2、现有的概念图生成方法大多以实体抽取和关系构建为核心进行生成,这种方法大多是分段式的信息抽取方式,无法直接在文档级别进行概念图构建。
技术实现思路
1、本专利技术提供一种基于文档的概念图生成方法及装置,来解决以上
技术介绍
部分提到的技术问题。
2、为达到上述目的,本专利技术的实施例采用如下技术方案:
3、一方面,本专利技术提供了一种基于文档的概念图生成方法,包括:获取并处理文档内容;将文档导入到预先训练好的概念图生成模型得到概念词组与关系矩阵;根据概念词组和关系矩阵生成概念图。
4、可选地,
...【技术保护点】
1.一种基于文档的概念图生成方法,其特征在于,包括:
2.根据权利要求1所述的基于文档的概念图生成方法,其特征在于,上述获取并处理文档内容包括:收集需要进行处理的文档,文档类型可以是小说、邮件、网络文档或者其他以文本形式存储的文字符号组合;通过人工或半自动方式构建文档对应的关系图,具体包括对文档中的关键概念词进行提取,根据已有知识对概念词进行关系构建,组成能够描述该文档主要内容的概念图;对文档进行预处理,对文档按照段落进行划分,删除文档中的停用词和标点符号。
3.根据权利要求1所述的基于文档的概念图生成方法,其特征在于,将文档导入到预先训练好的
...【技术特征摘要】
1.一种基于文档的概念图生成方法,其特征在于,包括:
2.根据权利要求1所述的基于文档的概念图生成方法,其特征在于,上述获取并处理文档内容包括:收集需要进行处理的文档,文档类型可以是小说、邮件、网络文档或者其他以文本形式存储的文字符号组合;通过人工或半自动方式构建文档对应的关系图,具体包括对文档中的关键概念词进行提取,根据已有知识对概念词进行关系构建,组成能够描述该文档主要内容的概念图;对文档进行预处理,对文档按照段落进行划分,删除文档中的停用词和标点符号。
3.根据权利要求1所述的基于文档的概念图生成方法,其特征在于,将文档导入到预先训练好的概念图生成模型得到概念词组与关系矩阵包括:概念词组为概念图的节点信息,关系矩阵为概念图的关系信息,二者合并可以构成完整的概念图;概念词组由序列生成模型获得,关系矩阵由关系矩阵构建模型获得。
4.根据权利要求3所述的基于文档的概念图生成方法,其特征在于,上述概念词组由概念图中的节点组合而成,在初始化过程中,使用[sep]作为分隔符对概念词进行间隔,用来表示概念词之间不连续关系;在模型训练过程中,概念词组以向量编码方式重新表示,由预训练模型生成概念词的嵌入编码;
5.根据权利要求3所述的基于文档的概念图生成方法,其特征在于,序列生成模型用于接收文档内容,并生成文档对应的概念词组,同时,生成对应文档的向量表示;包括:对文档进行初始编码;使用序列生成模型...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。