一种文本排序方法及装置制造方法及图纸

技术编号:32128520 阅读:21 留言:0更新日期:2022-01-29 19:22
本申请涉及人工智能技术领域,提供一种文本排序方法及装置,通过两次排序,提高排序结果的准确性。具体的,根据搜索请求中的至少一个搜索词在每个推荐文本的各个预设文本域中的词频,以及预设文档域对应的权重,确定搜索文本与各推荐文本之间的词义相似度,使得词与词之间的相关度更能反映推荐文本主体内容与搜索词的相关性,从而根据多个词义相似度,对各推荐文本进行初始排序时,排序结果更加满足用户的搜索意图;初始排序后,根据各推荐文本之间的语义信息,采用训练好的目标文本排序模型,对初始排序后的各推荐文本进行目标排序,提高了模型的排序效率,且由于目标排序时利用了各推荐文本之间的语义信息,排序后的结果更准确性。准确性。准确性。

【技术实现步骤摘要】
一种文本排序方法及装置


[0001]本申请涉及人工智能
,公开了一种文本排序方法及装置。

技术介绍

[0002]语义搜索是从海量的文本集中筛选出符合搜索意图的有限文本集合,并有序的展示给用户,且对在线搜索引擎的响应速度有较高的要求,一般为毫秒级。
[0003]目前,常用的文本排序方法主要是:基于用户输入的搜索词,采用倒排文本索引的方式,从原始文本集合中匹配出与搜索词相关的多个推荐文本,利用搜索引擎自带的排序算法,计算各推荐文本中的关键词分别与搜索词的相关性得分,按照分数的高低对多个搜索文本进行排序。
[0004]搜索引擎自带的排序算法在进行词与词之间的相关性计算时,将推荐文本作为一个整体进行分析,导致词义相似度计算不准确,进而响应了排序结果;并且,搜索词与关键词的词义相似度仅反映搜索文本与推荐文本的浅层关联,基于搜索词与关键词的相关性得分进行的排序,导致排序结果的准确性较低。

技术实现思路

[0005]本申请实施例提供一种文本排序方法及装置,用以提高文本排序的准确性和文本排序的效率。
[0006]第一方面,本申请实施例提供了一种文本排序方法,所述方法包括:
[0007]响应于目标对象发送的搜索请求,根据所述搜索请求携带的搜索文本中的至少一个搜索词,从原始文本集合中筛选出多个推荐文本;
[0008]根据所述至少一个搜索词在每个推荐文本的各个预设文本域中的词频,以及所述预设文本域对应的权重,确定所述搜索文本与各推荐文本之间的词义相似度;
[0009]根据多个词义相似度,对各推荐文本进行初始排序;
[0010]根据各推荐文本之间的语义信息,采用训练好的目标文本排序模型,对初始排序后的各推荐文本进行目标排序。
[0011]可选的,所述各个预设文本域至少包括主题域、关键词域和统计域,所述各个预设文本域是通过以下方式确定的:
[0012]采用训练好的主题模型,为每个推荐文本标记主题标签,得到每个推荐文本的主题域;以及
[0013]根据预先生成的关键词词库,对每个推荐文本进行分词,根据每个推荐文本中的关键词与相应推荐文本的信息熵,生成每个推荐文本的关键词域;以及
[0014]根据每个推荐文本的文本长度,生成每个推荐文本的统计域。
[0015]可选的,所述搜索文本与一个推荐文本之间的词义相似度的计算公式如下:
[0016][0017][0018][0019]其中,q
i
表示搜索文本中的第i个搜索词,d
i
表示与第i个搜索词相关的一个推荐文本,0.5为调教系数,N为推荐文本的总数,O为各搜索词相关的推荐文本总数量,n
i
为第i个搜索词对应的推荐文本总数量,r
i
为与第i个搜索词相关的推荐文本数量,k1为调节因子,u为一个推荐文本中预设文档域的个数,w
k
为第k个预设文档域对应的权重,f
ui
为第i个搜索词在预设文档域中的词频,f
iu
为第i个搜索词在预设文档域中的总词频,B
u
为预设文档域的长度,ul
u
为每个预设文档域的实际长度,uvul
u
为各预设文档域的平均长度,b
u
为每个预设文档域的长度调节因子。
[0020]可选的,所述根据各推荐文本之间的语义信息,采用训练好的目标排序模型,对初始排序后的各推荐文本进行目标排序,包括:
[0021]根据初始排序后的各推荐文本的特征向量,以及初始排序后的各推荐文本之间的双向语义信息,分别对初始排序后的各推荐文本进行编码,得到初始排序后的各推荐文本的编码向量;
[0022]采用多头注意力机制,对初始排序后的各推荐文本的编码向量进行调整,并进行正则化表示;
[0023]根据正则化表示后的各推荐文本的编码向量,确定初始排序后的各推荐文本的截断位置集合,并确定所述截断位置集合中各个截断位置的概率;
[0024]根据各个截断位置的概率,对初始排序后的各推荐文本进行目标排序。
[0025]可选的,通过以下方式确定初始排序后的各推荐文本各自的特征向量:
[0026]针对初始排序后的各推荐文本中的一个推荐文本:
[0027]将所述搜索文本与所述一个推荐文本之间的词义相似度,作为所述一个推荐文本的第一特征向量;
[0028]计算所述一个推荐文本与相邻推荐文本之间的语义相似度;
[0029]根据所述一个推荐文本的基本特征以及对应的语义相似度,生成所述一个推荐文本的第二特征向量;
[0030]将所述第一特征向量和所述第二特征向量进行拼接,得到所述一个推荐文本的特征向量。
[0031]可选的,所述采用多头注意力机制,对初始排序后的各推荐文本的编码向量进行调整,包括:
[0032]针对初始排序后的各推荐文本中的一个推荐文本:
[0033]计算所述一个推荐文本分别与N

1个推荐文本的语义相似度,N为所述多个推荐文本的总数;
[0034]根据所述一个推荐文本对应的N

1个语义相似度,确定所述一个推荐文本对应的注意力系数;
[0035]根据所述注意力系数,调整所述一个推荐文本的编码向量,并对调整的编码向量进行正则化表示。
[0036]可选的,所述目标文本排序模型,是通过以下方式训练得到的:
[0037]获取训练样本集合;
[0038]基于所述训练样本集合,对待训练的文本排序模型进行多次迭代训练,获得目标文本推荐模型,其中,每次迭代过程中,执行以下操作:
[0039]将所述训练样本集合中的多个推荐文本样本,以及每个推荐文本样本的真实标签输入到所述待训练的文本排序模型,通过所述待训练的文本排序模型,对所述多个推荐文本样本的特征向量进行处理,得到每个推荐文本样本对应的预测标签;其中,所述真实标签用于表征所述推荐文本样本与相应搜索文本的语义相似度;
[0040]根据每个推荐文本样本对应的预测标签,确定所述多个推荐文本样本的预测截断位置;
[0041]根据真实标签,确定所述预测截断位置的预测截断损失值;
[0042]根据所述预测截断损失值,对所述待训练的文本排序模型进行参数调整。
[0043]第二方面,本申请实施例提供一种文本排序装置,包括:
[0044]响应模块,用于响应于目标对象发送的搜索请求,根据所述搜索请求携带的搜索文本中的至少一个搜索词,从原始文本集合中筛选出多个推荐文本;
[0045]相似度计算模块,用于根据所述至少一个搜索词在每个推荐文本的各个预设文本域中的词频,以及所述预设文本域对应的权重,确定所述搜索文本与各推荐文本之间的词义相似度;
[0046]第一排序模块,用于根据多个词义相似度,对各推荐文本进行初始排序;
[0047]第二排序模块,用于根据各推荐文本之间的语义信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本排序方法,其特征在于,所述方法包括:响应于目标对象发送的搜索请求,根据所述搜索请求携带的搜索文本中的至少一个搜索词,从原始文本集合中筛选出多个推荐文本;根据所述至少一个搜索词在每个推荐文本的各个预设文本域中的词频,以及所述预设文本域对应的权重,确定所述搜索文本与各推荐文本之间的词义相似度;根据多个词义相似度,对各推荐文本进行初始排序;根据各推荐文本之间的语义信息,采用训练好的目标文本排序模型,对初始排序后的各推荐文本进行目标排序。2.如权利要求1所述的方法,其特征在于,所述各个预设文本域至少包括主题域、关键词域和统计域,所述各个预设文本域是通过以下方式确定的:采用训练好的主题模型,为每个推荐文本标记主题标签,得到每个推荐文本的主题域;以及根据预先生成的关键词词库,对每个推荐文本进行分词,根据每个推荐文本中的关键词与相应推荐文本的信息熵,生成每个推荐文本的关键词域;以及根据每个推荐文本的文本长度,生成每个推荐文本的统计域。3.如权利要求1所述的方法,其特征在于,所述搜索文本与一个推荐文本之间的词义相似度的计算公式如下:似度的计算公式如下:似度的计算公式如下:其中,q
i
表示搜索文本中的第i个搜索词,d
i
表示与第i个搜索词相关的一个推荐文本,0.5为调教系数,N为推荐文本的总数,O为各搜索词相关的推荐文本总数量,n
i
为第i个搜索词对应的推荐文本总数量,r
i
为与第i个搜索词相关的推荐文本数量,k1为调节因子,u为一个推荐文本中预设文档域的个数,w
k
为第k个预设文档域对应的权重,f
ui
为第i个搜索词在预设文档域中的词频,f
iu
为第i个搜索词在预设文档域中的总词频,B
u
为预设文档域的长度,ul
u
为每个预设文档域的实际长度,uvul
u
为各预设文档域的平均长度,b
u
为每个预设文档域的长度调节因子。4.如权利要求1所述的方法,其特征在于,所述根据各推荐文本之间的语义信息,采用训练好的目标排序模型,对初始排序后的各推荐文本进行目标排序,包括:根据初始排序后的各推荐文本的特征向量,以及初始排序后的各推荐文本之间的双向语义信息,分别对初始排序后的各推荐文本进行编码,得到初始排序后的各推荐文本的编码向量;采用多头注意力机制,对初始排序后的各推荐文本的编码向量进行调整,并进行正则化表示;根据正则化表示后的各推荐文本的编码向量,确定初始排序后的各推荐文本的截断位
置集合,并确定所述截断位置集合中各个截断位置的概率;根据各个截断位置的概率,对初始排序后的各推荐文本进行目标排序。5.如权利要求4所述的方法,其特征在于,通过以下方式确定初始排序后的各推荐文本各自的特征向量:针对初始排序后的各推荐文本中的一个推荐文本:将所述搜索文本与所述一个推荐文本之间的词义相似度,作为所述一个推荐文本的第一特征向量;计算所述一个推荐文本与相邻推荐文本之间的语义相似度;根据所述一个推荐文本的基本特征以及对应的语义相似度,生成所述一个推荐文本的第二特征向量;将所述第一特征向量和所述第二特征向量进行拼接,得到所述一个推荐文本的特征向量。6.如权利要求4所述的方法,其特征在于,所述采用多头注意力机制,对初始排序后的各推荐文本的编码向量进行调整,包括:针对初始排序后的各推荐文本中的一个推荐文本:计算所述一个推荐文本分别与N

1个推荐文本的语义相似度,N为所述多个推荐文本的总数;根据所述一个推荐文本对应的N

1个语义相似度,确定所述一个推荐文本对应的注意力系数;根据所述注意力系数,调整所述一个推荐文本的编码向量,并对调整的编码向量进行正则化表示。7.如权利要求1

6中任一项所述的方法,其特征在于,所述目标文本排序模型,是通过以下方式训练得到的:获取训练样本集合;基于所述训练样本集合,对待训练的文本排序模型进行多次迭代训练,获得目标文本推荐模型,其中,每次迭代过程中,执行以下操作:将所述训练样本集合中的多个推荐文本样本,以及每个推荐文本样本的真实标签输入到所述待训练的文本排序模型,通过所述待训练的文本排序模型,对所述多个推荐文本样本的特征向量进行处理,得到每个推荐文本样本对应的预测标签;其中,所述真实标签用于表征所述推荐文本样本与相应搜索文本的语义相似度;根据每个推荐文本样本对应的预测标签,确定所述多个推荐文本样本的预测截断位置;根据真实标签,确定所述预测截断位置的预测截断损失值;根据所述预测截断损失值,对所述待训练的文本排序模型进行参数调整。8.一种文本排序装置,其特征在于,包括:...

【专利技术属性】
技术研发人员:陈达纲李昱王全礼蒲柯锐孙昊王斌
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1