一种融合知识图谱和主题模型的短文本分类方法技术

技术编号：33532233 阅读：19 留言：0更新日期：2022-05-19 02:05

本发明专利技术公开一种融合知识图谱和主题模型的短文本分类方法，属于自然语言处理领域，通过对知识图谱和主题模型技术的融合，利用知识图谱获取外部知识，进行特征扩展，在不改变原文本语义的同时，能够有效地扩充短文本的特征内容；使用扩展后的文本数据训练主题模型，挖掘文本之间的语义关联并将其作为扩展特征，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。最终使用支持向量机进行短文本的分类预测。最终使用支持向量机进行短文本的分类预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合知识图谱和主题模型的短文本分类方法

[0001]本专利技术属于自然语言处理领域，具体涉及一种基于知识图谱和主题模型的短文本分类方法。

技术介绍

[0002]随着互联网的快速发展，在网络新闻、社交媒体、即时通讯等领域，产生了大量的短文本数据，如何有效地从短文本数据中挖掘有价值的信息是当前一个重点研究课题。
[0003]文本分类的应用十分广泛，包括信息推荐、自动问答、搜索引擎、邮件过滤等。在过去的几十年中，国内外的研究人员提出并改进了一些机器学习和深度学习算法，并将其应用在文本分类领域，这些解决方法包括：使用向量空间模型对文本进行特征表示，然后使用分类器进行文本分类；或者使用卷积神经网络等深度学习方法对文本进行特征抽取，从而进行分类。但是，对于短文本的分类问题，这些方法取得的效果还不够理想。相比于长文本，短文本具有篇幅短小、主题明确性弱等特点，经过去除停用词等预处理之后，通常只剩下几个或十几个蕴含实际意义的词语，很难构建高质量的用于分类的特征。直接将针对长文本分类的方法应用在短文本分类问题上会产生特征稀疏问题，难以实现准确的分类。另外，文本中的多义词现象常常给文本分类带来很大的噪声。

技术实现思路

[0004]针对以上关于短文本分类方面存在的弊端，本专利技术提出了一种融合了知识图谱和主题模型的短文本分类方法，能够对短文本进行准确分类。
[0005]为解决上述技术问题，本专利技术采用以下技术方案：
[0006]一种融合知识图谱和主题模型的短文本分类方法，包括以下步骤：
>[0007]将已有标签的短文本数据作为训练数据，进行文本的预处理；
[0008]将所述预处理后的文本进行关键词抽取，根据抽取得到的候选关键词构建候选关键词图，所述候选关键词图由节点、节点之间的边和边权重构成，所述节点即候选关键词；
[0009]采用共现关系构造任意两个节点之间的边，当节点对应的词汇在一预设长度窗口中共现时，则两个节点之间存在边，初始化各个节点的权重，再迭代计算各节点的权重，直到收敛，再按照各个节点权重的降序进行排序，选择出关键词；
[0010]将所述关键词映射到知识图谱中的实体上，得到候选实体集；
[0011]基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体，作为目标实体；
[0012]将所述目标实体作为关键词的背景知识，添加到所述短文本之后对所述短文本进行扩展，得到扩展内容，并作为基于知识图谱扩展的训练数据集；
[0013]根据所述基于知识图谱扩展的训练数据集训练出主题模型，利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数，得到各个主题的词分布和各个文档的主题分布，计算出每个文档的主题概率向量；
[0014]将所述扩展内容进行向量化得到扩展内容的文本向量，并将所述主题概率向量与所述扩展内容的文本向量拼接在一起，作为分类模型的输入；
[0015]将所述分类模型的输入作为训练数据集，输入到一短文本分类模型中进行训练，训练出短文本分类模型，利用所述训练出的短文本分类模型对待测的短文本进行分类，输出分类结果。
[0016]优选地，所述预处理包括对去除特殊符号，去除停用词和分词。
[0017]优选地，采用TextRank算法将所述预处理后的文本进行关键词抽取。
[0018]优选地，所述候选关键词图G＝(V，E，W)，其中节点集V＝{V1，V2，
…
，V
n
}，V
n
∈S是候选关键词，E＝{(V
i
，V
j
)|V
i
∈V^V
j
∈V^w
ij
∈W^w
ij
≠0}是各个节点i和j之间的边的集合，W＝{w
ij
|1≤i，j≤n}中的w
ij
是节点i和j之间边的权重。
[0019]优选地，计算各节点的权重的公式为：
[0020][0021]其中，v
i
，v
j
，v
k
是节点，w
ij
是节点i和j之间边的权重；WS()是节点权重；d为阻尼系数，表示图中某一节点指向其他节点的概率；in(v
i
)表示指向节点v
i
的节点集合；out(v
j
)表示v
j
指向的节点集合。
[0022]优选地，将所述关键词映射到知识图谱中的实体的映射关系为其中k为所述关键词，e为所述知识图谱中的某一实体。
[0023]优选地，所述基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体的方法为：
[0024]遍历得到关键词所对应实体的描述文本集合，对所有的描述文本进行预处理，所述预处理包括分词和移除停用词；
[0025]对原短文本的上下文信息设置一个滑动窗口，从所述原短文本的词集合中获取关键词前后的词，并作为所述关键词的上下文集合；
[0026]使用word2vec将所述关键词的上下文集合中的词转换为词向量V
c
；
[0027]将所述描述文本集合中的每个预处理后的描述文本转换为词向量V
d
；
[0028]按照以下公式计算V
c
和V
d
的相似度：
[0029][0030]优选地，所述主题模型采用LDA主题模型，采用所述用Gibbs采样算法计算文本的主题概率分布和主题的词项概率分布，根据这两个分布得到每个文档的主题概率向量。
[0031]优选地，所述短文本分类模型采用SVM模型。
[0032]本专利技术的优点在于对知识图谱和主题模型技术的融合，利用知识图谱获取外部知识，进行特征扩展，在不改变原文本语义的同时，能够有效地扩充短文本的特征内容；使用扩展后的文本数据训练主题模型，挖掘文本之间的语义关联并将其作为扩展特征，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。本专利技术方法相较于仅使用知识图谱或者仅使用主题模型取得了更好的技术效果，解决了短文本很难构建高质量的用于分类的特征的问题，利用知识图谱基于文本的原语义进行内容
扩充，对扩充实体进行消歧处理。同时解决了一词多义问题，引入主题模型来挖掘文本之间的语义关联，缓解同义词现象对文本分类任务带来的不准确性，最终使用支持向量机进行短文本的分类预测。
附图说明
[0033]图1是本专利技术实施例提供的一种融合知识图谱和主题模型的短文本分类方法流程图。
[0034]图2为本专利技术的实验中文本长度的统计图。
具体实施方式
[0035]为使本专利技术的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。
[0036]本专利技术实施例提供一种融合知识图谱和主题模型的短文本分类方法，包括以下步骤：
[0037]1.短文本预处理<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合知识图谱和主题模型的短文本分类方法，其特征在于，包括以下步骤：将已有标签的短文本数据作为训练数据，进行文本的预处理；将所述预处理后的文本进行关键词抽取，根据抽取得到的候选关键词构建候选关键词图，所述候选关键词图由节点、节点之间的边和边权重构成，所述节点即候选关键词；采用共现关系构造任意两个节点之间的边，当节点对应的词汇在一预设长度窗口中共现时，则两个节点之间存在边，初始化各个节点的权重，再迭代计算各节点的权重，直到收敛，再按照各个节点权重的降序进行排序，选择出关键词；将所述关键词映射到知识图谱中的实体上，得到候选实体集；基于文本相似度从所述候选实体集中选取一个与原文语义最相近的实体，作为目标实体；将所述目标实体作为关键词的背景知识，添加到所述短文本之后对所述短文本进行扩展，得到扩展内容，并作为基于知识图谱扩展的训练数据集；根据所述基于知识图谱扩展的训练数据集训练出主题模型，利用所述主题模型统计所有词的主题计数和每个文档对应词的主题计数，得到各个主题的词分布和各个文档的主题分布，计算出每个文档的主题概率向量；将所述扩展内容进行向量化得到扩展内容的文本向量，并将所述主题概率向量与所述扩展内容的文本向量拼接在一起，作为分类模型的输入；将所述分类模型的输入作为训练数据集，输入到一短文本分类模型中进行训练，训练出短文本分类模型，利用所述训练出的短文本分类模型对待测的短文本进行分类，输出分类结果。2.如权利要求1所述的方法，其特征在于，所述预处理包括对去除特殊符号，去除停用词和分词。3.如权利要求1所述的方法，其特征在于，采用TextRank算法将所述预处理后的文本进行关键词抽取。4.如权利要求1所述的方法，其特征在于，所述候选关键词图G＝(V,E,W)，其中节点集V＝{V1,V2,
…
,V
n
}，V
n
∈S是候选关键词，E＝{(V
i
,V
j
)|V
i
∈V∧V
j
∈V∧w
ij

【专利技术属性】
技术研发人员：刘峰，许淞源，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人