【技术实现步骤摘要】
融合知识图谱的深度学习文本分类方法
本专利技术涉及深度学习与文本分类
,具体涉及融合知识图谱的深度学习文本分类方法。
技术介绍
文本分类在互联网和金融等领域有着广泛的应用。当前的深度学习或者机器学习文本分类模型大多基于文本本身的信息,比如文本本身的分词。但是文本中通常包含大量的人名、地名和机构名等实体,这些实体通常隐含有重要的信息,是实体名称本身没有包含的,缺失这些隐含的实体信息将导致文本分类的准确性下降。
技术实现思路
针对现有技术的不足,本专利技术提供了融合知识图谱的深度学习文本分类方法,克服了现有技术的不足,将知识图谱引入到深度学习的文本分类中,通过从知识图谱中查询隐含信息并转换为格式化文本,对原始文本进行信息补充,从而提升深度学习文本分类的准确性。为实现以上目的,本专利技术通过以下技术方案予以实现:融合知识图谱的深度学习文本分类方法,包括以下步骤:S1:提取待分类文本中的实体;S2:利用已构建的知识图谱,获取实体相关隐含信息;S3:将实体名称和隐含信息 ...
【技术保护点】
1.融合知识图谱的深度学习文本分类方法,其特征在于:包括以下步骤:/nS1:提取待分类文本中的实体;/nS2:利用已构建的知识图谱,获取实体相关隐含信息;/nS3:将实体名称和隐含信息转换为格式化的文本,添加到原始文本的尾部,形成补充后的文本;/nS4:对补充后的文本进行分词处理,并预处理得到文本的分词序列;/nS5:查询预设或随机初始化的词嵌入模型获取分词序列的词嵌入矩阵,矩阵的每一行为各分词的嵌入向量;/nS6:将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测。/n
【技术特征摘要】
1.融合知识图谱的深度学习文本分类方法,其特征在于:包括以下步骤:
S1:提取待分类文本中的实体;
S2:利用已构建的知识图谱,获取实体相关隐含信息;
S3:将实体名称和隐含信息转换为格式化的文本,添加到原始文本的尾部,形成补充后的文本;
S4:对补充后的文本进行分词处理,并预处理得到文本的分词序列;
S5:查询预设或随机初始化的词嵌入模型获取分词序列的词嵌入矩阵,矩阵的每一行为各分词的嵌入向量;
S6:将分词序列的词嵌入矩阵输入深度学习文本分类算法,进行训练或者预测。
2.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S1中待分类文本中的实体通过命名实体识别方法从原始文本中提取获得,所述实体包括人名、地名、机构名和专有名词。
3.根据权利要求1所述的融合知识图谱的深度学习文本分类方法,其特征在于:所述步骤S2具体包括:所提取的待分类文本实体的隐含信息,通过已有的知识图谱查询获得,其中查询包括直接获取实体属性值和通过知识推理间接获取实体的相关信息。
4.根据权利要求1所述的融合知识图谱的...
【专利技术属性】
技术研发人员:刘星辰,麻沁甜,陈晓峰,
申请(专利权)人:上海勃池信息技术有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。