文本的匹配方法、匹配装置及终端制造方法及图纸

技术编号:24799586 阅读:14 留言:0更新日期:2020-07-07 21:03
本发明专利技术涉及自然语言处理技术领域,提供了一种文本的匹配方法、匹配装置、终端及计算机可读存储介质。其中,所述匹配方法包括:获取第一文本和第二文本;获取所述第一文本对应的第一向量以及所述第二文本对应的第二向量;计算所述第一向量和所述第二向量的向量积;根据第一映射函数将所述向量积映射为第一特征向量;根据第二映射函数将所述第一向量映射为第二特征向量;基于所述第一特征向量和所述第二特征向量,确定第二文本与所述第一文本的匹配度。本发明专利技术应用于自动客服系统,能够为用户输入的问题文本匹配到较为准确的匹配文本,从而可以实现对用户问题的准确作答,有利于提升用户体验。

【技术实现步骤摘要】
文本的匹配方法、匹配装置及终端
本专利技术属于自然语言处理
,尤其涉及一种文本的匹配方法、匹配装置、终端及计算机可读存储介质。
技术介绍
传统的人工客服是典型的劳动密集型行业,工作时间长、工作重复性高,提高了企业的人力成本和管理成本。因此,亟需一种能够对用户的提问进行自动作答的智能客服系统来替代人工客服。现有技术中,通常采用获取用户提问的问题文本中的关键词,并通过关键词匹配来搜索与用户提问的问题相关的回答,并将回答返回给用户。然而,关键词仅属于用户输入的问题文本的一个局部特征,根据该局部特征可能会搜索到多个匹配文本,匹配的细粒度不够好、准确率低,用户体验很差。
技术实现思路
有鉴于此,本专利技术提供了一种文本的匹配方法、匹配装置、终端及计算机可读存储介质,以解决现有的自动客服系统文本匹配的细粒度不够好、准确率低的问题。本专利技术实施例的第一方面提供了一种文本的匹配方法,包括:获取第一文本和第二文本;获取所述第一文本对应的第一向量以及所述第二文本对应的第二向量;计算所述第一向量和所述第二向量的向量积;根据第一映射函数将所述向量积映射为第一特征向量;根据第二映射函数将所述第一向量映射为第二特征向量;基于所述第一特征向量和所述第二特征向量,确定第二文本与所述第一文本的匹配度。本专利技术实施例的第二方面提供了一种文本的匹配装置,包括:文本获取单元,用于获取第一文本和第二文本;向量获取单元,用于获取所述第一文本对应的第一向量以及所述第二文本对应的第二向量;向量计算单元,用于计算所述第一向量和所述第二向量的向量积;第一映射单元,用于根据第一映射函数将所述向量积映射为第一特征向量;第二映射单元,用于根据第二映射函数将所述第一向量映射为第二特征向量;匹配单元,用于基于所述第一特征向量和所述第二特征向量,确定第二文本与所述第一文本的匹配度。本专利技术实施例的第三方面提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如任一项所述文本的匹配方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如任一项所述文本的匹配方法的步骤。本专利技术与现有技术相比存在的有益效果是:本专利技术通过将第一文本和第二文本以第一向量和第二向量进行文本表示,取得第一文本和第二文本的文本特征;利用第一映射函数将二者的文本特征的向量积进行映射,提取到包含较好细粒度的第一文本和第二文本的匹配特征,并通过第二映射函数对第一向量进行映射,取得第一文本的浅层文本特征,利用该浅层文本特征可以对第一文本和第二文本的匹配特征进行权重调整,使得最终确定的匹配结果具有较好的准确性。应用于自动客服系统,能够为用户输入的问题文本匹配到较为准确的匹配文本,从而可以实现对用户问题的准确作答,有利于提升用户体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的文本的匹配方法的实现流程图;图2是本专利技术另一实施例提供的文本的匹配方法的实现流程图;图3是本专利技术实施例提供的文本的匹配装置的结构示意图;图4是本专利技术实施例提供的终端的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。参见图1,其示出了本专利技术实施例提供的文本的匹配方法的实现流程图,详述如下:在步骤101中、获取第一文本和第二文本。在本专利技术实施例中,第一文本可以为用户输入的问题对应的文本,第二文本可以为预设的文本库中选取的一个文本,通过计算第一文本和第二文本之间的匹配度,可以从文本库中选取与第一文本匹配度最高的一个文本,并将该文本的关联语句(例如,该文本对应的回答语句)返回给用户,实现对用户问题的自动作答。在步骤102中、获取所述第一文本对应的第一向量以及所述第二文本对应的第二向量。在本专利技术实施例中,文本对应的向量指该文本的特征表示,具体的,可以通过对文本进行分词处理,并去除其中的停用词(例如一些简单的连接词、语气助词等)、标点符号以及无意义词,根据训练好的词向量模型将其余的词映射为词向量,这些词向量的集合即为文本对应的向量。具体的,可以采用Word2vec模型实现词向量的生成。当应用于客服问答系统时,可以结合客服问题的常见专业词,对模型进行重训练,得到符合客服问答系统需求的词向量模型。这样,生成的词向量不仅能够适应客服语料,还能保证常用词的通用性。在本专利技术实施例中,文本的分词结果可以映射为指定维度的词向量,例如映射为300维的词向量。在步骤103中、计算所述第一向量和所述第二向量的向量积。在本专利技术实施例中,设第一向量为q1=(x1,x2,x3,...,xm),第二向量为q2=(y1,y2,y3,...,yn),则可以根据以下的向量积计算公式计算第一向量和第二向量的向量积,其中,向量积计算公式为:其中,z(0)表示计算得到的向量积,表示叉乘。在步骤104中、根据第一映射函数将所述向量积映射为第一特征向量。在本专利技术实施例中,可以根据第一映射函数将上述计算得到的向量积映射为第一特征向量。本次映射的过程可以理解为提取向量积中最大的前K个值(例如K的取值可以为10)。这样既关注了最关键的前K个词,又能够将变长的输入问题转换成固定长度的问题。在本专利技术实施例中,第一映射函数还可以理解为神经网络的核函数,也即,该第一映射函数对应了一个神经网络,将上述计算得到的向量积输入该神经网络,即可输出该第一特征向量。其中,神经网络的参数即该第一映射函数的参数,该第一映射函数的多层映射关系可以对应神经网络的各隐藏层,神经网络的参数包括多层映射关系分别对应的权重矩阵和偏置向量,这些参数可以通过预先训练来确定。所述第一映射函数包括多层映射关系,所述第一映射函数的数学表示为:z(l)=relu(W(l)z(l-1)+b(l))其中,设第一映射函数包括的映射关系的层数为L,则l=1,2,...,L,W(l)表示第l层映射对应的权重矩阵,b(l)表示第l层映射对应的偏置向量,z(l-1)表示第l层映射对应的输入,z(l)本文档来自技高网...

【技术保护点】
1.一种文本的匹配方法,其特征在于,所述匹配方法包括:/n获取第一文本和第二文本;/n获取所述第一文本对应的第一向量以及所述第二文本对应的第二向量;/n计算所述第一向量和所述第二向量的向量积;/n根据第一映射函数将所述向量积映射为第一特征向量;/n根据第二映射函数将所述第一向量映射为第二特征向量;/n基于所述第一特征向量和所述第二特征向量,确定第二文本与所述第一文本的匹配度。/n

【技术特征摘要】
1.一种文本的匹配方法,其特征在于,所述匹配方法包括:
获取第一文本和第二文本;
获取所述第一文本对应的第一向量以及所述第二文本对应的第二向量;
计算所述第一向量和所述第二向量的向量积;
根据第一映射函数将所述向量积映射为第一特征向量;
根据第二映射函数将所述第一向量映射为第二特征向量;
基于所述第一特征向量和所述第二特征向量,确定第二文本与所述第一文本的匹配度。


2.根据权利要求1所述的文本的匹配方法,其特征在于,所述获取第一文本和第二文本包括:
获取第一文本,以及所述第一文本的类别信息;
基于所述类别信息确定与所述第一文本对应的文本匹配库;
从所述文本匹配库中选取与所述第一文本进行匹配的第二文本。


3.根据权利要求2所述的文本的匹配方法,其特征在于,所述匹配方法还包括:
分别确定所述文本匹配库中各文本与所述第一文本的匹配度;
将所述匹配库中与所述第一文本的匹配度最高的文本作为所述第一文本的匹配文本。


4.根据权利要求1至3任一项所述的文本的匹配方法,其特征在于,所述第一映射函数包括多层映射关系,所述第一映射函数的数学表示为:
z(l)=relu(W(l)z(l-1)+b(l))
其中,设第一映射函数包括的映射关系的层数为L,则l=1,2,...,L,W(l)表示第l层映射对应的权重矩阵,b(l)表示第l层映射对应的偏置向量,z(l-1)表示第l层映射对应的输入,z(l)表示第l层映射对应的映射输出,relu表示映射输出的激励方式;
所述第二映射函数的数学表示为:
h=relu(Wpq1+bp)
其中,h表示第二映射函数的映射输出,q1表示第二映射函数的输入,Wp表示第二映射函数的权重矩阵,bp表示第二映射函数的偏置向量,relu表示映射输出的激励方式。


5.根据权利要求4所述的文本的匹配方法,其特征在于,所述第一映射函数的各层映射关系对应的权重矩阵和偏置向量、以及所述第二映射函数的权重矩阵和偏置向量为通过训练得到,训练的步骤包括:
获取训练样本,其中,所述训练样本包括正向样本和负向样本,所述正向样本包含的文本对之间的匹配度大于所述负向样本包含的文本对之间的匹配度;
利用所述训练样本对所述第一映射函数和所述第二映射函数进行迭代计算;
根据预设的损...

【专利技术属性】
技术研发人员:熊友军熊为星廖洪涛
申请(专利权)人:深圳市优必选科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1