基于BERT的两阶段民间故事检索方法技术

技术编号:33640432 阅读:33 留言:0更新日期:2022-06-02 02:00
一种基于BERT模型的两阶段民间故事检索方法,由收集民间故事、民间故事数据预处理、构建民间故事数据集、一阶段构建向量搜索引擎、筛选候选民间故事集合、训练BERT模型、二阶段确定相关度、展示检索结果步骤组成。采用本发明专利技术与现有的传统检索方法进行了对比试验,实验结果表明,本发明专利技术可以更好地了解民间故事的上下文信息,更好地将查询请求与民间故事结合起来,在提升了检索准确率的同时还加快了检索速度。本发明专利技术具有检索结果准确、检索速度快等特点,可以在海量的民间故事中准确找到用户想要了解的民间故事。了解的民间故事。了解的民间故事。

【技术实现步骤摘要】
基于BERT的两阶段民间故事检索方法


[0001]本专利技术属于计算机
,具体涉及到计算机信息检索系统。

技术介绍

[0002]21世纪是信息化的时代,互联网的发展使得收集民间故事的工作变的简单,进而人们可以了解到的民间故事大大增加。同时,文本信息处理的门槛和难度与日俱增,对文本检索技术的质量标准和效率要求也与日俱增。通常情况下,在大量的民间故事中找到符合需求的民间故事需要耗费大量的时间,而且检测的结果往往达不到预期结果。传统的检索方法有很多,例如有基于文本相似度计算的方法、基于本体的检索方法和基于聚类的检索方法。但是传统的检索方法是基于文本的浅层特征进行匹配计算的,因此存在很大的问题:第一,如果被检索的数据集很大,传统检索方法极度耗费时间并且检测准确度很低。第二,民间故事通常包含丰富的文本内容,仅仅依靠文本的浅层特征是远远不够的。因而寻求一种新的检索方法显得格外重要。民间故事包含了丰富的历史知识、深厚的民族情感,种类丰富且数量庞大。如何从种类繁多,数量庞大的民间故事中查询相关的民间故事成为民间故事检索的难点。
>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT模型的两阶段民间故事检索方法,其特征在于由下述步骤组成:(1)收集民间故事从民族民间文化资源管理系统中找到民间故事部分,采用爬虫方法将民间故事中的文本数据爬取下来,得到民间故事;(2)民间故事数据预处理删除民间故事内容中的乱码、内容为空、与内容不符、同义词随机替换的部分;(3)构建民间故事数据集将民间故事处理成标题

内容的民间故事对,制作成民间故事数据集Y,Y∈{t1:c1,t2:c2,

,t
n
:c
n
},其中t
n
表示第n个民间故事的标题,c
n
表示第n个民间故事的内容,n选取10000条民间故事,按9:1的比例分为训练集、测试集;(4)一阶段构建向量搜索引擎采用BERT

whitening模型将民间故事数据集Y转化成词向量J,用Faiss检索方法对词向量J建立数据库向量D,D∈{d1,d2,

,d
n
},将数据库向量D采用倒排快速索引方法分割为N个空间,N为有限的正整数,构建成向量搜索引擎;(5)筛选候选民间故事集合将用户的查询请求q通过BERT

whitening模型转化成查询向量q
V
,将查询向量q
v
与数据库向量D按下式确定余弦相似度cosθ:其中
·
表示点积操作,d表示数据库向量中的一个向量,|| ||表示取模操作,返回前k个候选民间故事集合G,G∈{g1,g2,

,g
k
},k取值为20~50;(6)训练BERT模型将民间故事数据集Y输入至BERT模型进行训练,按下式确定交叉熵损失函数L(y,a):L(y,a)=y
×
lna+(1

y)
×
ln(1

a)其中,y为真实值,y取值为0或1,a为预测值,a∈(0,1);模型的学习率r∈[10
‑5,10
‑3],丢弃率取值为[0.05,0.1],训练轮数为[10,15],每轮训练的批尺寸为8,优化器选择Adam,迭代至交叉熵损失函数L(y,a)收敛;(7)二阶段确定相关度将训练好的BERT模型输出的词嵌入E和第l个编码层的输出X
l
,l为有限的正整数,对查询请求q和候选民间故事集合按下式确定候选民间故事集合G的相关度F1:E=E
s
+E
p
+E
t
X1=E=EQ=X
l
‑1×
W
Q
K=X
l
‑1×
W
K
V=X
l
‑1×
W
V
F1=s(H
12
...

【专利技术属性】
技术研发人员:吴晓军刘隆涛张玉梅路纲赵力
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1