【技术实现步骤摘要】
基于知识图谱的文本主题分割方法、装置及电子设备
[0001]本申请属于人工智能领域,特别涉及基于知识图谱的文本主题分割方法、装置及电子设备。
技术介绍
[0002]文本主题分割是一种将文档按照文本表述主题是否转移的标准,将原文档分割为主题连贯一致的多个子文档的技术。
[0003]文本主题分割技术可建模文档的主题结构,基于分割后的主题结构,可进行信息检索、文本摘要、主题检测与追踪等下游任务。常见的文本主题分割算法多基于有监督学习,有监督的文本主题分割算法需要大量标注数据且泛化能力、可解释性差。
[0004]基于上述问题,提出本专利技术的基于知识图谱的文本主题分割方法、装置及电子设备。
技术实现思路
[0005]为了解决所述现有技术的不足,本申请提供了一种基于知识图谱的文本主题分割方法,本专利技术基于知识图谱的文本主题分割方法,可在小规模数据集上训练得到较高精度的文本主题分割算法模型,获得算法泛化能力、可解释性强的技术效果。
[0006]本申请所要达到的技术效果通过以下方案实现:
...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的文本主题分割方法,其特征在于,所述方法包括:获取文本文档;通过实体识别算法,识别所述文本文档中的文本实体,所述实体识别算法包括第一识别算法和第二识别算法,第一识别算法和第二识别算法是不同的识别算法;将所述文本实体链接到知识图谱实体,其中,所述知识图谱实体表示知识图谱中与所述文本实体相对应的实体;基于所述文本实体与所述知识图谱实体的链接结果,对所述文本文档进行主题分割,其中,对所述文本文档进行文本主题分割包括:以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割。2.如权利要求1所述的基于知识图谱的文本主题分割方法,其特征在于,所述通过实体识别算法,识别所述文本文档中的文本实体,包括:采用第一识别算法识别所述文本文档中的第一类文本实体,其中,所述第一识别算法为Trie树识别算法,所述第一类文本实体表示已存在于所述知识图谱中的实体;采用第二识别算法识别所述文本文档中的第二类文本实体,其中,所述第二识别算法为Bert
‑
BiLSTM
‑
CRF识别算法,所述第二类文本实体表示不存在于所述知识图谱中的实体。3.如权利要求1所述的基于知识图谱的文本主题分割方法,其特征在于,所述将所述文本实体链接到知识图谱实体,包括:基于Bi
‑
encoder候选实体召回算法,从所述知识图谱中匹配出与所述文本实体相对应的N个所述知识图谱实体,其中,N是正整数;基于Cross
‑
encoder候选实体消岐算法,从所述N个知识图谱实体中确定出与所述文本实体相似度评分最高的候选实体。4.如权利要求2所述的基于知识图谱的文本主题分割方法,其特征在于,所述Bert
‑
BiLSTM
‑
CRF识别算法,包括:选择Bert作为嵌入层模型,对Bert
‑
base
‑
chinese预训练模型进行训练,得到Bert嵌入层输出的嵌入向量;将所述嵌入向量输入至双向长短期记忆网络,得到所述双向长短期记忆网络输出的特征向量;将所述特征向量输入至条件随机场,利用所述条件随机场学习序列标签之间的转移概率,综合所述序列标签的全局信息,将所述特征向量解码成序列标注。5.如权利要求3所述的基于知识图谱的文本主题分割方法,其特征在于,所述方法还包括:采用孪生网络训练进行所述文本实体的嵌入向量的训练,所述孪生网络训包括分类任务和回归任务;所述分类任务满足如下公式:o=softmax(W
t
(u1,v1,|u1
‑
v1|)),其中,o表示输出向量,u1,v1表示所述嵌入向量,W
t
表示向量乘参数矩阵,n为所述嵌入向量的维度,k为分类标签的数量。
6.如权利要求3所述的基于知识图谱的文本主题分割方法,其特征在于,所述以句子作为文本主题分割单位,基于所述句子中的所述文本实体来计算所述句子之间的语义相似度,并根据所述语义相似度进行所述文本主题分割,包括:以句子作为文本主题...
【专利技术属性】
技术研发人员:夏晓凯,管清泉,樊志强,刘禹,陈方悦,任芯雨,牛婵,
申请(专利权)人:北京航空航天大学中国电子科技集团公司第十五研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。