【技术实现步骤摘要】
一种文本的相似度确定方法、装置和电子设备
本说明书一个或多个实施例涉及人工智能
,尤其涉及一种文本的相似度确定方法、装置和电子设备。
技术介绍
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。在人们所面临的信息中有大量的文本信息,因此,对文本信息的处理技术尤为重要。其中,自然语言处理是一个重要的研究方向,其通过识别文本的语义,从而实现人与计算机之间用自然语言进行有效通信。常见的应用自然语言处理的系统,如问答系统、推荐系统等,均需要根据文本的相似度来进行不同的业务处理。具体的,可以通过预先训练的机器学习模型来确定文本的相似度。如何提高确定文本相似度的准确度,是目前亟需解决的问题。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种文本的相似度确定方法、装置和电子设备。基于上述目的,本说明书一个或多个实施例提供了一种文本的相似度确定方法,包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述 ...
【技术保护点】
1.一种文本的相似度确定方法,包括:/n获取第一文本和第二文本;/n根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;/n根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;/n根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;/n根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。/n
【技术特征摘要】
1.一种文本的相似度确定方法,包括:
获取第一文本和第二文本;
根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;
根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;
根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;
根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。
2.根据权利要求1所述的方法,所述根据所述第一文本和第二文本,生成对应于所述第一文本和第二文本的文本特征向量,包括:
获取基于BERT的文本相似度模型;
将所述第一文本和所述第二文本输入基于BERT的文本相似度模型的输入层;
获取所述输入层的输出,作为所述文本表示向量。
3.根据权利要求2所述的方法,所述根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量,包括:
将所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,输入所述基于BERT的文本相似度模型的编码器层;
获取所述编码器层的输出,作为所述文本特征向量。
4.根据权利要求3所述的方法,根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度,包括:
将所述文本特征向量输入所述基于BERT的文本相似度模型的输出层;
获取所述输出层输出的所述相似度。
5.根据权利要求4所述的方法,所述根据所述第一文本和第二文本,生成对应于所述第一文本和第二文本的文本特征向量,具体包括:
将所述第一文本和所述第二文本排列为序列,并将所述第一文本和所述第二文本划分为若干单字;
在所述序列的首部添加语义符;在所述序列的尾部和所述第一文本、所述第二文本之间添加断句符;
生成对应于所述语义符的语义表示向量、对应于所述单字的单字表示向量,以及对应于所述断句符的断句表示向量;
根据所述语义表示向量、所述单字表示向量和所述断句表示向量,得到所述文本表示向量。
6.根据权利要求5所述的方法,所述编码器层设置有至少两个,且至少两个所述编码器层依次连接;
所述根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量,具体包括:
将文本表示向量与所述共有单字表示向量和所述差异单字表示向量进行组合并输入至少两个所述编码器层;其中,每个所述编码器层的输出均与所述共有单字表示向量和所述差异单字表示向量进行组合后输入下一所述编码器层;
获取最后一个所述编码器层的输出,作为所述文本特征向量。
7.根据权利要求6所述的方法,所述将文本表示向量与所述共有单字表示向量和所述差异单字表示向量进行组合,包括:
将所述共有单字表示向量与在所述第一文本和所述第二文本中均存在的单字对应的单字表示向量相加;以及,将所述差异单字表示向量与仅在所述第一文本和所述第二文本之一中存在的单字对应的单字表示向量相加。
8.根据权利要求6所述的方法,每个所述编码器层的输出包括:对应于所述语义符的语义特征向量、对应于所述单字的单字特征向量,以及对应于所述断句符的断句特征向量;
所述编码器层的输出均与所述共有单字表示向量和所述差异单字表示向量进行组合,包括:将所述共有单字表示向量与在所述第一文本和所述第二文本中均存在的单字对应的单字特征向量相加;以及,将所述差异单字表示向量与仅在所述第一文本和所述第二文本之一中存在的单字对应的单字特征向量相...
【专利技术属性】
技术研发人员:陈晓军,杨明晖,陈显玲,崔恒斌,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。