【技术实现步骤摘要】
一种融合字符信息的知识驱动文本分类方法
[0001]本专利技术涉及文本分类与深度学习
,具体涉及一种融合字符信息的知识驱动文本分类方法。
技术介绍
[0002]随着互联网的不断发展,媒体通常使用网站和微信公众号等来发布信息,人们也经常通过博客、论坛等来表达自己的观点,互联网文本数据的规模急速增长。文本分类是管理和组织这些网络文本信息的关键技术之一,可以用来过滤垃圾邮件和短信、分析人类的情感,以及学习人们阅读新闻的偏好从而实现新闻推荐等重要任务。
[0003]随着机器学习的快速发展,目前已有许多利用机器学习实现文本分类的方法,如使用Word2vec将文本中每个词向量化,输入到卷积神经网络、循环神经网络、支持向量机、随机森林或者K近邻等算法或模型中,从而得到文本分类的结果。然而,这些方法一般仅从文本的词语层面进行表示学习,没有考虑文本隐含的外部知识,未充分挖掘文本在知识层面的联系。典型的例子是在处理新闻分类任务时,新闻语言通常由大量的知识实体组成,比如训练集中有一条标题为“特斯拉在高速公路自动驾驶,司机乘客在车里呼呼大睡”的汽车类新闻,测试集中有一条标题为“福特领界领衔福特家族,成都展览备受瞩目”的新闻,这两句标题分别包含“特斯拉”和“福特”这两个知识实体,都代表了汽车品牌,这两条新闻有一定知识层面的关联。然而仅从文本的词语层面进行表示学习的模型只能根据词语所处的上、下文语境来判断词语的关联性,很难挖掘出像“特斯拉”与“福特”这两个词语在知识层面的关联性,从而可能导致测试集中的有关“福特”的新闻没有被分到“ ...
【技术保护点】
【技术特征摘要】
1.一种融合字符信息的知识驱动文本分类方法,其特征在于该方法以知识图谱作为外部知识的载体,将文本内容中的每个词与知识图谱中的相关实体以及其上下文相关联,融入知识层面的表示,利用外部知识辅助文本分类任务,具体包括以下步骤:S1:对文本进行预处理,获取待分类文本的词语序列和字符序列;S2:提取文本中词语所对应的实体,并与知识图谱中的实体相关联,获取实体序列;S3:查询通过知识子图预训练的知识图谱嵌入模型,获取实体序列的实体嵌入矩阵;S4:搜索每个实体的上下文实体集来计算实体的上下文向量,得到实体序列的上下文嵌入矩阵;S5:查询预训练的词嵌入模型,获取词语序列的词嵌入矩阵;S6:查询预训练的字符嵌入模型,获取字符序列的字符嵌入矩阵;S7:将文本的词嵌入矩阵、实体嵌入矩阵、上下文嵌入矩阵输入到卷积神经网络得到融合外部知识的表征向量;S8:将字符嵌入矩阵输入到另一个卷积神经网络获取字符表征向量;S9:使用融合外部知识的表征向量和字符表征向量进行文本分类。2.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S1中待分类文本中的词语序列中的每个词由分词器对文本进行分词处理后所得,所述字符序列由文本中的每个字符所构成,将包含n个词语的待分类文本t的词语序列定义为w
1:n
=[w1,w2,...,w
n
],其中:w
i
表示文本中第i个词语。3.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S2具体包括:利用命名实体识别技术识别出待分类文本中词语是否指代实体;通过实体链接技术将文本中的实体指称(指代实体的词语)链接其在知识图谱中的目标实体,并由这些目标实体构成实体序列。4.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S3具体包括:S3
‑
1:从知识图谱中获取语料库中的词语所指代的实体的三元组知识,用来构建知识子图;S3
‑
2:使用知识子图与知识图谱嵌入方法训练知识图谱嵌入模型;S3
‑
3:通过知识图谱嵌入模型映射可获得词语w
i
对应实体e
i
的实体向量e
i
∈R
k
×1,其中:k是实体向量的维度;S3
‑
4:实体嵌入矩阵则由知识图谱嵌入模型映射获得,实体嵌入矩阵的每一行为实体序列中每一个实体对应的实体向量。5.根据权利要求1所述融合字符信息的知识驱动文本分类方法,其特征在于所述步骤S4具体包括:搜索并使用实体序列中每个实体e的上下文实体集(即实体在知识子图中的近邻实体)来计算实体e的上下文向量得到实体序列的上下文嵌入矩阵,所述实体e的上下文实体集由下述(a)式定义的集合获得:context(e)={e
i
|(e,r,e
i
)∈G or(e
i
,r,e)∈G}
ꢀꢀꢀ
(a);其中:r代表一个关系,G代表知识子图;所述实体e的上下文向量由下述(b)式进行计算:
其中:e
i
是实体e
i
的向...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。