融合领域知识图谱的汉越跨境民族文本检索方法及装置制造方法及图纸

技术编号：36353336 阅读：69 留言：0更新日期：2023-01-14 18:09

本发明专利技术涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置，属于自然语言处理技术领域。汉越跨境民族领域文本特征主要体现在存在大量不常见的领域实体且实体表达形式多样问题。这些问题突出了跨境民族领域的特殊性。本发明专利技术提出了融合领域知识图谱的汉越跨境民族文本检索方法，包括汉越跨境民族文本数据预处理、基于汉越知识图谱对查询文档进行扩展、进行汉越跨境民族查询文档特征融合、进行汉越跨境民族文本检索构成。根据这四个功能模块化制成融合领域知识图谱的汉越跨境民族文本检索装置，具有重要的理论和实际运用价值。具有重要的理论和实际运用价值。具有重要的理论和实际运用价值。

全部详细技术资料下载

【技术实现步骤摘要】
融合领域知识图谱的汉越跨境民族文本检索方法及装置

[0001]本专利技术涉及融合领域知识图谱的汉越跨境民族文本检索方法及装置，属于自然语言处理

技术介绍

[0002]跨语言文本检索是在大规模文本集合中查找相关文档以回答特定查询的任务，该任务的核心是在于如何学习查询和文本之间的潜在语义特征以及查询和文本特征之间的相似性如何度量。跨语言检索任务是信息抽取技术的研究热点。汉越跨境民族文本检索任务旨在以一种语言作为问题查询，检索出另一种语言对应的民族、宗教、文化习俗等跨境民族文档。然而，在汉越跨境民族领域中，存在大量不常见的领域实体以及实体表达形式多样，这些问题突出了跨境民族领域的特殊性。尤其是在汉越跨境民族文本检索中，还面临着领域词对齐困难和语义对齐困难问题。因此，当前通用的跨语言文本检索模型无法解决以上问题，导致通用模型无法精准的检索出相应的跨境民族文档。
[0003]本专利技术提出了融合领域知识图谱的汉越跨境民族文本检索方法，利用跨境民族领域知识图谱扩充查询文本的实体表征并融合在查询文档之中，然后利用多头注意...

【技术保护点】

【技术特征摘要】
1.融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述方法的具体步骤如下：Step1、进行汉越跨境民族文本数据预处理：汉越跨境民族文本数据通过过滤、筛选、去停用词、特殊符号操作后获得傣族、泰族、彝族、佬族、阿萨姆族、掸族六个汉越跨境民族文本数据；Step2、基于汉越知识图谱对查询文档进行扩展：抽取查询或文本中的中文或越南语实体，抽取出的实体与汉越知识图谱实体链接扩展出相关实体；另外，为了扩充汉越跨境民族中不常见的领域实体，还对汉越跨境民族知识图谱进行知识嵌入得到对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体；Step3、进行汉越跨境民族查询文档特征融合：利用多头注意力机制将融入汉越跨境民族知识图谱后查询和文档中的向量分别与知识图谱扩展出来的实体集合向量相拼接得到融合后的表征向量；Step4、进行汉越跨境民族文本检索：引入对比学习将融合知识图谱特征后的查询文档表征对齐，将相同类型的查询和文档聚类在一起，然后在通过查询表示和文档表示之间的点积或余弦相似度作为相关性得分。2.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述Step1的具体步骤为：Step1.1、通过爬虫技术在汉越跨境民族相关网站获取汉越跨境民族文本数据，数据进行过滤、筛选、去停用词、特殊字符预处理操作，特殊字符包括空格、乱码、表情符号以及公式符号；Step1.2、根据预处理后的数据分别构建中文和越南语正负样本对；Step1.3、采用多语言预训练模型对汉越跨境民族查询文本进行向量表征，得到查询文本的向量表示；汉越跨境民族查询与文本分别视为序列q＝{q1,q2,
…
,q
n
}和序列d＝{d1,d2,
…
,d
n
}组成，其中q
i
和d
i
分别是查询和文本的第i个词，q和d表示查询和文本；V
q
＝XLM
‑
R(q)V
d
＝XLM
‑
R(d)其中V
q
和V
d
分别表示汉越跨境民族文化查询和文本的向量表示，经过多语言预训练模型能更好的捕捉汉越跨境民文化文本之间的信息。3.根据权利要求1所述的融合领域知识图谱的汉越跨境民族文本检索方法，其特征在于：所述Step2的具体步骤为：Step2.1、利用跨境民族文化实体识别方法抽取查询或文本中的中文实体，与中文知识图谱实体链接扩展出相关实体；而在查询或文本中的越南语实体使用越南语实体抽取模型抽取，与越南语知识图谱实体链接扩展出相关实体；另外，为了扩充汉越跨境民族中不常见的领域实体，采用多语言知识表示模型MtransE对汉越跨境民族知识图谱中的三元组知识嵌入，得到汉越知识图谱对齐的汉越实体，将查询或文本中抽取出的实体与对齐的汉越实体进行实体链接扩展出另一语言相关的实体；Step2.2、扩展出的实体由于是很多个词集合构成，将查询与知识图谱扩展出的实体视为一个词序列集合文本与知识图谱扩展出的实体视为一个词序列
集合其中V
E
是汉越知识图谱中的实体，e
q
和e
d
分别表示查询和文本与汉越知识图谱扩展出的词集合；和是查询和文本词序列集合中的第i个词；和分别通过多语言预训练模型得到词向...

【专利技术属性】
技术研发人员：毛存礼，刘思源，余正涛，黄于欣，高盛祥，张勇丙，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人