【技术实现步骤摘要】
融合领域知识图谱的汉越跨境民族文本检索方法及装置
[0001]本专利技术涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置,属于自然语言处理
技术介绍
[0002]跨语言文本检索是在大规模文本集合中查找相关文档以回答特定查询的任务,该任务的核心是在于如何学习查询和文本之间的潜在语义特征以及查询和文本特征之间的相似性如何度量。跨语言检索任务是信息抽取技术的研究热点。汉越跨境民族文本检索任务旨在以一种语言作为问题查询,检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档。然而,在汉越跨境民族领域中,存在大量不常见的领域实体以及实体表达形式多样,这些问题突出了跨境民族领域的特殊性。尤其是在汉越跨境民族文本检索中,还面临着领域词对齐困难和语义对齐困难问题。因此,当前通用的跨语言文本检索模型无法解决以上问题,导致通用模型无法精准的检索出相应的跨境民族文档。
[0003]本专利技术提出了融合领域知识图谱的汉越跨境民族文本检索方法,利用跨境民族领域知识图谱扩充查询文本的实体表征并融合在查询文档之中,然后利用多头注意力机制将汉越知识图谱融入查询文档,实现丰富查询文档数据相关的汉越跨境民族实体信息,最后引入对比学习将融合跨境民族实体后的查询文档表征对齐并利用余弦相似度计算作为相关性得分,从而提升文本检索的效率。
技术实现思路
[0004]本专利技术提供了融合领域知识图谱的汉越跨境民族文本检索方法及装置,用以扩展汉越跨境民族查询文本实体和丰富查询和文本相关的跨境民族领域实体信息,提升文本检索的效率
【技术保护点】
【技术特征摘要】
1.融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述方法的具体步骤如下:Step1、进行汉越跨境民族文本数据预处理:汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据;Step2、基于汉越知识图谱对查询文档进行扩展:抽取查询或文本中的中文或越南语实体,抽取出的实体与汉越知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;Step3、进行汉越跨境民族查询文档特征融合:利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量;Step4、进行汉越跨境民族文本检索:引入对比学习将融合知识图谱特征后的查询文档表征对齐,将相同类型的查询和文档聚类在一起,然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。2.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step1的具体步骤为:Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据,数据进行过滤、筛选、去停用词、特殊字符预处理操作,特殊字符包括空格、乱码、表情符号以及公式符号;Step1.2、根据预处理后的数据分别构建中文和越南语正负样本对;Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征,得到查询文本的向量表示;汉越跨境民族查询与文本分别视为序列q={q1,q2,
…
,q
n
}和序列d={d1,d2,
…
,d
n
}组成,其中q
i
和d
i
分别是查询和文本的第i个词,q和d表示查询和文本;V
q
=XLM
‑
R(q)V
d
=XLM
‑
R(d)其中V
q
和V
d
分别表示汉越跨境民族文化查询和文本的向量表示,经过多语言预训练模型能更好的捕捉汉越跨境民文化文本之间的信息。3.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法,其特征在于:所述Step2的具体步骤为:Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体,与中文知识图谱实体链接扩展出相关实体;而在查询或文本中的越南语实体使用越南语实体抽取模型抽取,与越南语知识图谱实体链接扩展出相关实体;另外,为了扩充汉越跨境民族中不常见的领域实体,采用多语言知识表示模型MtransE对汉越跨境民族知识图谱中的三元组知识嵌入,得到汉越知识图谱对齐的汉越实体,将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体;Step2.2、扩展出的实体由于是很多个词集合构成,将查询与知识图谱扩展出的实体视为一个词序列集合文本与知识图谱扩展出的实体视为一个词序列
集合其中V
E
是汉越知识图谱中的实体,e
q
和e
d
分别表示查询和文本与汉越知识图谱扩展出的词集合;和是查询和文本词序列集合中的第i个词;和分别通过多语言预训练模型得到词向...
【专利技术属性】
技术研发人员:毛存礼,刘思源,余正涛,黄于欣,高盛祥,张勇丙,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。