一种文本的相似度确定方法、装置和电子设备制造方法及图纸

技术编号:24854827 阅读:28 留言:0更新日期:2020-07-10 19:08
本说明书一个或多个实施例提供一种文本的相似度确定方法、装置和电子设备;所述方法包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。

【技术实现步骤摘要】
一种文本的相似度确定方法、装置和电子设备
本说明书一个或多个实施例涉及人工智能
,尤其涉及一种文本的相似度确定方法、装置和电子设备。
技术介绍
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。在人们所面临的信息中有大量的文本信息,因此,对文本信息的处理技术尤为重要。其中,自然语言处理是一个重要的研究方向,其通过识别文本的语义,从而实现人与计算机之间用自然语言进行有效通信。常见的应用自然语言处理的系统,如问答系统、推荐系统等,均需要根据文本的相似度来进行不同的业务处理。具体的,可以通过预先训练的机器学习模型来确定文本的相似度。如何提高确定文本相似度的准确度,是目前亟需解决的问题。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种文本的相似度确定方法、装置和电子设备。基于上述目的,本说明书一个或多个实施例提供了一种文本的相似度确定方法,包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。基于同一专利技术构思,本说明书一个或多个实施例还提供了一种文本的相似度确定装置,包括:获取模块,被配置为获取第一文本和第二文本;第一执行模块,被配置为根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;第二执行模块,被配置为根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;第三执行模块,被配置为根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;确定模块,被配置为根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。基于同一专利技术构思,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的方法。从上面所述可以看出,本说明书一个或多个实施例提供的文本的相似度确定方法、装置和电子设备,通过引入表示两个文本的相同部分的共有单字表示向量,以及表示两个文本的差异部分的差异单字表示向量来影响差异单字表示向量对应的单字在机器学习模型中的权重,使得机器学习模型能够有效的区别文本间较小的差异,从而更加准确的确定本文间的相似度。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为现有的BERT模型进行文本相似度确定的工作过程示意图;图2为本说明书一个或多个实施例的文本的相似度确定方法流程图;图3为本说明书一个或多个实施例的基于BERT的文本相似度模型工作过程示意图;图4为本说明书一个或多个实施例中的文本表示向量的生成流程图;图5为本说明书一个或多个实施例的文本的相似度确定装置结构示意图;图6为本说明书一个或多个实施例的电子设备结构示意图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。如
技术介绍
部分所述,现有的通过机器学习模型来判断文本的相似度的技术普遍存在准确度不高的问题。专利技术人在实现本公开的过程中发现,现有技术判断文本的相似度的准确度不高的主要原因在于,对于大部分内容相同的文本,现有的机器学习模型难以对文本间的差异部分进行有效的识别和考虑,这造成了实际上语义不相同的文本会被现有技术认为是相似的。例如,对于一问答系统,输入的“我的钱不见了”和“我余额宝的钱不见了”两个文本,“我的钱不见了”对应的回答内容应为现金或银行卡安全方面的,而“我余额宝的钱不见了”对应的回答内容应为理财APP安全方面的。上述两个文本大部分内容相同,差异部分较小,现有技术很难有效的识别其差异部分,会判断上述个文本相似,进而返回相同的回答内容。可见,文本的相似度判断的准确度低下,严重影响了业务处理的质量。针对上述问题,本说明书一个或多个实施例的提供了一种文本的相似度确定方案,通过构建两种向量来分别表示文本之间的相同部分和差异部分,具体的,通过共有单字表示向量和差异单字表示向量来分别对应表示文本中相同的单字和不同的单字,使得机器学习模型能够有效的区别文本间较小的差异,从而更加准确的确定文本的相似度。以下结合附图,对本说明书所提供的各个非限制性实施例进行详细描述。本说明书一个或多个实施例提供了一种文本的相似度确定方法,具体的,通过机器学习模型来实现文本的相似度的确定。其中,所述的机器学习模型为基于BERT的文本相似度模型。BERT全称为:BidirectionalEncoderRepresentationfromTransformers,是一个能够广泛应用于执行各种类型的自然语言处理任务的语言模型。BERT模型一般包括有多个编码器层,该编码器层能够提取得到文本的特征表示,并以特征向量的形式输出。基于BERT的文本相似度模型,进行一般的文本相似度确定时,其工作过程可参考图1所示。第一文本和第二文本输入基于BERT的文本相似度模型后,首先由输入层将第一文本和第二文本向量化,得到表示向量。然后,依次经过若干编码器层,上一层编码器层的输出作为下一层编码器层的输入;其中,编码器层包括若干编码器,每个编码器对应一个单字,编码器将单字对应的表示向量转化为预定长度的增强语义,以表示其上下文语境的语义。最后一层编码器层的输出则作为对应于第一文本和第二文本的特征向量,基于该特征向量来进行相似度的确定,相似度的确定由输出层实现。本文档来自技高网
...

【技术保护点】
1.一种文本的相似度确定方法,包括:/n获取第一文本和第二文本;/n根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;/n根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;/n根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;/n根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。/n

【技术特征摘要】
1.一种文本的相似度确定方法,包括:
获取第一文本和第二文本;
根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;
根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;
根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;
根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。


2.根据权利要求1所述的方法,所述根据所述第一文本和第二文本,生成对应于所述第一文本和第二文本的文本特征向量,包括:
获取基于BERT的文本相似度模型;
将所述第一文本和所述第二文本输入基于BERT的文本相似度模型的输入层;
获取所述输入层的输出,作为所述文本表示向量。


3.根据权利要求2所述的方法,所述根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量,包括:
将所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,输入所述基于BERT的文本相似度模型的编码器层;
获取所述编码器层的输出,作为所述文本特征向量。


4.根据权利要求3所述的方法,根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度,包括:
将所述文本特征向量输入所述基于BERT的文本相似度模型的输出层;
获取所述输出层输出的所述相似度。


5.根据权利要求4所述的方法,所述根据所述第一文本和第二文本,生成对应于所述第一文本和第二文本的文本特征向量,具体包括:
将所述第一文本和所述第二文本排列为序列,并将所述第一文本和所述第二文本划分为若干单字;
在所述序列的首部添加语义符;在所述序列的尾部和所述第一文本、所述第二文本之间添加断句符;
生成对应于所述语义符的语义表示向量、对应于所述单字的单字表示向量,以及对应于所述断句符的断句表示向量;
根据所述语义表示向量、所述单字表示向量和所述断句表示向量,得到所述文本表示向量。


6.根据权利要求5所述的方法,所述编码器层设置有至少两个,且至少两个所述编码器层依次连接;
所述根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量,具体包括:
将文本表示向量与所述共有单字表示向量和所述差异单字表示向量进行组合并输入至少两个所述编码器层;其中,每个所述编码器层的输出均与所述共有单字表示向量和所述差异单字表示向量进行组合后输入下一所述编码器层;
获取最后一个所述编码器层的输出,作为所述文本特征向量。


7.根据权利要求6所述的方法,所述将文本表示向量与所述共有单字表示向量和所述差异单字表示向量进行组合,包括:
将所述共有单字表示向量与在所述第一文本和所述第二文本中均存在的单字对应的单字表示向量相加;以及,将所述差异单字表示向量与仅在所述第一文本和所述第二文本之一中存在的单字对应的单字表示向量相加。


8.根据权利要求6所述的方法,每个所述编码器层的输出包括:对应于所述语义符的语义特征向量、对应于所述单字的单字特征向量,以及对应于所述断句符的断句特征向量;
所述编码器层的输出均与所述共有单字表示向量和所述差异单字表示向量进行组合,包括:将所述共有单字表示向量与在所述第一文本和所述第二文本中均存在的单字对应的单字特征向量相加;以及,将所述差异单字表示向量与仅在所述第一文本和所述第二文本之一中存在的单字对应的单字特征向量相...

【专利技术属性】
技术研发人员:陈晓军杨明晖陈显玲崔恒斌
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1