一种融合字符信息的知识驱动文本分类方法技术

技术编号:34605690 阅读:17 留言:0更新日期:2022-08-20 09:10
本发明专利技术公开了一种融合字符信息的知识驱动文本分类方法,其特点是该方法包括:获取词语序列和字符序列;提取词语所对应的实体,与知识图谱中的实体相关联,获取实体序列;查询知识图谱嵌入模型,获取实体序列的实体嵌入矩阵;搜索实体序列的上下文实体集来计算得到上下文嵌入矩阵;查询词嵌入模型,获取词语序列的词嵌入矩阵;查询字符嵌入模型,获取字符序列的字符嵌入矩阵;将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入CNN得到融合外部知识的表征向量;将字符嵌入矩阵输入另一个CNN获取字符表征向量;使用两个表征向量进行文本分类。本发明专利技术与现有技术相比具有更高的文本分类准确率,方法简便,并能够给出更准确的分类结果。分类结果。分类结果。

【技术实现步骤摘要】
一种融合字符信息的知识驱动文本分类方法


[0001]本专利技术涉及文本分类与深度学习
,具体涉及一种融合字符信息的知识驱动文本分类方法。

技术介绍

[0002]随着互联网的不断发展,媒体通常使用网站和微信公众号等来发布信息,人们也经常通过博客、论坛等来表达自己的观点,互联网文本数据的规模急速增长。文本分类是管理和组织这些网络文本信息的关键技术之一,可以用来过滤垃圾邮件和短信、分析人类的情感,以及学习人们阅读新闻的偏好从而实现新闻推荐等重要任务。
[0003]随着机器学习的快速发展,目前已有许多利用机器学习实现文本分类的方法,如使用Word2vec将文本中每个词向量化,输入到卷积神经网络、循环神经网络、支持向量机、随机森林或者K近邻等算法或模型中,从而得到文本分类的结果。然而,这些方法一般仅从文本的词语层面进行表示学习,没有考虑文本隐含的外部知识,未充分挖掘文本在知识层面的联系。典型的例子是在处理新闻分类任务时,新闻语言通常由大量的知识实体组成,比如训练集中有一条标题为“特斯拉在高速公路自动驾驶,司机乘客在车里呼呼大睡”的汽车类新闻,测试集中有一条标题为“福特领界领衔福特家族,成都展览备受瞩目”的新闻,这两句标题分别包含“特斯拉”和“福特”这两个知识实体,都代表了汽车品牌,这两条新闻有一定知识层面的关联。然而仅从文本的词语层面进行表示学习的模型只能根据词语所处的上、下文语境来判断词语的关联性,很难挖掘出像“特斯拉”与“福特”这两个词语在知识层面的关联性,从而可能导致测试集中的有关“福特”的新闻没有被分到“汽车”类新闻中,使得分类不准确。
[0004]除了词语和知识信息以外,很多文本分类方法还忽略了字符信息,字符信息对文本分类的结果也有重要影响。例如,测试集中有一句文本为“你很明智”,而“明智”对于知识库和通过训练集预先训练的词向量集合而言是一个新词语。若文本分类方法没有考虑字符信息,则“明智”无法被识别。若文本分类方法考虑了字符信息,虽然训练集的文本中没有“明智”这个词,但却有词语“智慧”,文本分类方法可以通过“智”这个字符在“智慧”与“明智”这两个词的文本之间建立联系,从而改善文本分类效果。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而设计的一种融合字符信息的知识驱动文本分类方法,采用知识图谱作为外部知识的载体,利用外部知识辅助文本分类任务,并考虑文本的字符信息,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,同时使用文本的字符特征捕获更细粒度的语义信息,充分考虑了文本中隐含的外部知识和字符信息,从而使该方法具有更高的文本分类性能,方法简便,可进一步提高了文本分类的准确率。
[0006]本专利技术的目的是这样实现的:一种融合字符信息的知识驱动文本分类方法,其特
点是该方法以知识图谱作为外部知识的载体,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,从而使文本分类方法能够更好地理解文本内容,给出更准确的分类结果,具体包括以下步骤:
[0007]S1:对文本进行预处理,获取待分类文本的词语序列和字符序列;
[0008]S2:提取文本中词语所对应的实体,并与知识图谱中的实体相关联,获取实体序列;
[0009]S3:查询通过知识子图预训练的知识图谱嵌入模型,获取实体序列的实体嵌入矩阵,矩阵的每一行为各实体的嵌入向量;
[0010]S4:搜索每个实体的上下文实体集来计算实体的上下文向量,得到实体序列的上下文嵌入矩阵;
[0011]S5:查询预训练的词嵌入模型,获取词语序列的词嵌入矩阵;
[0012]S6:查询预训练的字符嵌入模型,获取字符序列的字符嵌入矩阵;
[0013]S7:将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入到卷积神经网络得到融合外部知识的表征向量;
[0014]S8:将字符嵌入矩阵输入到另一个卷积神经网络获取字符表征向量;
[0015]S9:使用融合外部知识的表征向量和字符表征向量进行文本分类。
[0016]所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得,字符序列由文本中的每个字符所构成。将包含n个词语的待分类文本t的词语序列定义为w
1:n
=[w1,w2,...,w
n
],其中w
i
表示文本中第i个词语。
[0017]所述步骤S2具体包括:利用命名实体识别技术识别出待分类文本中词语是否指代实体,并通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体,由这些目标实体构成实体序列。
[0018]所述步骤S3具体包括:从知识图谱中获取语料库中的词语所指代的实体的三元组知识,用来构建知识子图。使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型,通过知识图谱嵌入模型映射可获得词语w
i
对应实体e
i
的实体向量e
i
∈R
k
×1,其中,k是实体向量的维度。实体嵌入矩阵则由知识图谱嵌入模型映射获得,其中实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。
[0019]所述步骤S4具体包括:搜索并使用实体序列中每个实体的上下文实体集(即实体在知识子图中的近邻实体)来计算实体的上下文向量,以得到更多互补和有意义的信息。实体e的上下文实体集由下述(a)式定义:
[0020]context(e)={e
i
|(e,r,e
i
)∈G or(e
i
,r,e)∈G}(a);
[0021]其中:r代表一个关系;G代表知识子图。
[0022]在获得了实体的上下文实体集后,实体的上下文向量可通过下述(b)式进行计算:
[0023][0024]其中:e
i
是实体e
i
的向量。
[0025]所述实体序列的上下文嵌入矩阵由实体的上下文向量构成,矩阵的每一行为实体序列中每一个实体对应的上下文向量。
[0026]所述步骤S5中词语序列的词嵌入矩阵是通过预训练或随机初始化的词嵌入模型
映射获得的,其中词嵌入矩阵的每一行为词语序列中每一个词语对应的词嵌入向量。文本t的词嵌入矩阵由下述(c)式表示为:
[0027]w
1:n
=[w1,w2,...,w
n
]∈R
d
×
n
ꢀꢀꢀ
(c);
[0028]其中:w
i
∈R
d
×1是文本中第i个词语w
i
的词向量;d是词向量的维度。
[0029]所述步骤S6中字符序列的字符嵌入矩阵是通过预训练或随机初始化的字符嵌入模型映射获得的,其中字符嵌入矩阵的每一行为字符序列中每一个字符对应的字符嵌入向量。
[0030]所述步骤S7本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合字符信息的知识驱动文本分类方法,其特征在于该方法以知识图谱作为外部知识的载体,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,利用外部知识辅助文本分类任务,具体包括以下步骤:S1:对文本进行预处理,获取待分类文本的词语序列和字符序列;S2:提取文本中词语所对应的实体,并与知识图谱中的实体相关联,获取实体序列;S3:查询通过知识子图预训练的知识图谱嵌入模型,获取实体序列的实体嵌入矩阵;S4:搜索每个实体的上下文实体集来计算实体的上下文向量,得到实体序列的上下文嵌入矩阵;S5:查询预训练的词嵌入模型,获取词语序列的词嵌入矩阵;S6:查询预训练的字符嵌入模型,获取字符序列的字符嵌入矩阵;S7:将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入到卷积神经网络得到融合外部知识的表征向量;S8:将字符嵌入矩阵输入到另一个卷积神经网络获取字符表征向量;S9:使用融合外部知识的表征向量和字符表征向量进行文本分类。2.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得,所述字符序列由文本中的每个字符所构成,将包含n个词语的待分类文本t的词语序列定义为w
1:n
=[w1,w2,...,w
n
],其中:w
i
表示文本中第i个词语。3.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S2具体包括:利用命名实体识别技术识别出待分类文本中词语是否指代实体;通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体,并由这些目标实体构成实体序列。4.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S3具体包括:S3

1:从知识图谱中获取语料库中的词语所指代的实体的三元组知识,用来构建知识子图;S3

2:使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型;S3

3:通过知识图谱嵌入模型映射可获得词语w
i
对应实体e
i
的实体向量e
i
∈R
k
×1,其中:k是实体向量的维度;S3

4:实体嵌入矩阵则由知识图谱嵌入模型映射获得,实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。5.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S4具体包括:搜索并使用实体序列中每个实体e的上下文实体集(即实体在知识子图中的近邻实体)来计算实体e的上下文向量得到实体序列的上下文嵌入矩阵,所述实体e的上下文实体集由下述(a)式定义的集合获得:context(e)={e
i
|(e,r,e
i
)∈G or(e
i
,r,e)∈G}
ꢀꢀꢀ
(a);其中:r代表一个关系,G代表知识子图;所述实体e的上下文向量由下述(b)式进行计算:
其中:e
i
是实体e
i
的向...

【专利技术属性】
技术研发人员:金天成窦亮周爱民
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1