【技术实现步骤摘要】
融合领域知识图谱的跨境民族文本分类方法及装置
[0001]本专利技术涉及融合领域知识图谱的跨境民族文本分类方法及装置,属于自然语言处理
技术介绍
[0002]跨境民族文本分类任务是跨境民族文化分析中的基础性工作,传统的机器学习文本分类方法通常采用不同类型的机器学习算法作为算法分类器,并结合特征工程进行分类,然而存在难以捕获跨境民族文本深层含义和依赖人工提取跨境民族特征等问题。基于深度学习的分类方法是当今的主流方法,但大部分基于通用领域的相关研究,跨境民族文本分类任务属于特定领域分类问题,目前基于此领域的研究相对较少,针对跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本专利技术考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
[0003]本专利技术主要考虑融合领域知识图谱的跨境民族文本分类方法,在Yang等人提出的分层注意力文本分类方法上进行了改进,并借鉴Shen等人、Bordes等人的思想将外部知识信息与文本有效的结合起来辅助正文分类。
技术实现思路
[0004]本专利技术提供了一种融合领域知识图谱的跨境民族文本分类方法,以用于解决跨境民族文本数据中存在的语义环境复杂,类别相互交叉的问题,本专利技术考虑融入跨境民族知识图谱辅助分类,以取得更好的文本分类效果。
[0005]本专利技术的技术方案是:第一方面,提供一种基于融合领域知识图谱的跨境民族文本分类方法,所述方法的具体步骤如下:
[0006]Step1、跨境民族文化知识图谱构建:通过爬取各大民 ...
【技术保护点】
【技术特征摘要】
1.融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述方法的具体步骤如下:Step1、跨境民族文化知识图谱构建:通过爬取各大民族网站获取跨境民族文化数据,进行文化类别的划分,根据跨境民族类别信息分别定义实体属性以及实体之间的关系,利用跨境民族实体属性丰富跨境民族文化三元组知识,构建包含实体、实体属性、关系的跨境民族文化知识图谱;Step2、跨境民族文本数据预处理:采用预训练模型训练跨境民族文本数据获得跨境民族文本词向量表示;将实体属性中的实体别称和实体类别标签组成实体标签,采用知识表示模型对跨境民族文化知识图谱中的实体、关系和实体标签进行向量化表示;Step3、融合领域知识图谱的跨境民族文本分类模型训练:对正文中的跨境民族文化实体进行实体语义的扩展,利用实体的类别语义特征增强正文类别特征;利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,采用门控机制融合标题和正文的词级和句子级特征信息,缓解了跨境民族文化类别交叉的问题;进行跨境民族文本分类模型训练,获得跨境民族文本分类模型;Step4、跨境民族文化类别预测:通过训练跨境民族文本分类模型对输入的跨境民族文本数据进行跨境民族文化类别预测。2.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step1的具体步骤为:Step1.1、跨境民族文化知识图谱类别体系构建:将跨境民族文化文本数据分为六个大类,包括跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化,其中跨境民族包括:傣族、泰族、彝族、倮倮族;Step1.2、跨境民族实体属性定义:跨境民族文化实体的属性包括:跨境民族实体名称、跨境民族实体别称、跨境民族实体描述内容以及跨境民族实体类别标签;针对跨境民族文化文本数据中一词多种表述的现象,在实体属性中利用跨境民族实体别称进行标注;Step1.3、跨境民族关系属性定义:将跨境民族文化中的实体关系定义为以下几种:包含关系、属性关系、位置关系。3.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step2的具体步骤为:Step2.1、通过爬取各大网站获取跨境民族文化文本数据,经过筛选、过滤、去重、去停用词操作后获得跨境民族文本数据,共选取39450条数据,其中包括:类别数为28,每个类别的数据的数量为1000~1500条,标题的长度集中在10到20个字符,正文的长度在100到250个字符之间,正文句子为5到10句;Step2.2、首先,将跨境民族文化文本数据进行分句处理,然后,对每个句子采用跨境民族文化词库辅助分词;最后,对跨境民族文本数据采用预训练模型得到跨境民族文化词向量表示,训练得到的跨境民族文化词库包含34117个词,文化类别包括:跨境民族宗教文化、跨境民族建筑文化、跨境民族习俗文化、跨境民族艺术文化、跨境民族服饰文化、跨境民族饮食文化;
Step2.3、跨境民族文化实体语义扩展方法:利用跨境民族文化知识图谱实体的类别标签实现对跨境民族文化实体的语义扩展;实体的标签由实体的别称和实体的类别标签构成,利用知识表示模型将实体、关系、以及实体的标签进行向量化表示得到实体的向量表示、关系向量表示以及标签向量表示,最后把相应的实体向量和关系向量进行对位相加得到实体语义向量;最后将所有实体的实体语义向量进行存储得到跨境民族实体语义向量表。4.根据权利要求1所述的融合领域知识图谱的跨境民族文本分类方法,其特征在于:所述Step3的具体步骤为:Step3.1、使用跨境民族文化词向量获得标题中每个词的向量表征,为了获得跨境民族文本标题的隐藏向...
【专利技术属性】
技术研发人员:毛存礼,陈春吉,余正涛,黄于欣,高盛祥,张勇丙,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。