一种跨语言环境的检索结果排序方法、装置及电子设备制造方法及图纸

技术编号:37046231 阅读:14 留言:0更新日期:2023-03-29 19:24
本申请实施例提供的跨语言环境的检索结果排序方法、装置及电子设备,涉及信息检索排序技术领域。在源语言关键字为短关键字串时,通过词义扩展进行关键字跨语言匹配,并根据扩展词义在匹配结果中的词频对匹配结果进行排序;在语言关键字为长关键字串时,基于语义级模糊匹配技术进行源语言关键字跨语言匹配,计算得到源语言关键字与目标语言文本的整体匹配参数,根据整体匹配参数筛选与源语言关键字匹配的目标语言匹配文本,并基于整体匹配参数对目标语言匹配文本进行排序。上述方案可以采用不同的排序方法对与不同分类的源语言关键字匹配的目标语言匹配文本进行排序,解决基于精确匹配检索方式下的排序算法在语义匹配环境下不可用的问题。境下不可用的问题。境下不可用的问题。

【技术实现步骤摘要】
一种跨语言环境的检索结果排序方法、装置及电子设备


[0001]本申请涉及信息检索排序
,具体而言,涉及一种跨语言环境的检索结果排序方法、装置及电子设备。

技术介绍

[0002]在进行信息检索时,不可避免的涉及到对检索结果进行排序的问题,用户一般都希望能将最相关的检索结果信息排在最前面,以减少用户浏览筛选检索结果信息的时间,提高信息检索效率。然而现有的检索结果排序算法往往是针对面向倒排索引结构的精确匹配设计的,比如,BM25检索结果排序算法,不能适应跨语言环境的基于语义进行匹配的信息检索场景。

技术实现思路

[0003]为了解决上述技术问题,本申请提供一种跨语言环境的检索结果排序方法、装置及电子设备。
[0004]第一方面,本申请实施例提供一种跨语言环境的检索结果排序方法,所述方法包括:
[0005]获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;
[0006]对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
[0007]在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序;
[0008]在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序。
[0009]在一种可能的实现方式中,所述在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序的步骤,包括:
[0010]在所述源语言关键字为所述短关键字串时,采用同义词词典对所述源语言关键字进行词义扩展,得到所述源语言关键字的同义关键字组;
[0011]采用所述目标语言对所述同义关键字组中的关键字进行翻译,得到所述同义关键字组对应的目标语言同义关键字组;
[0012]将所述目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同所述目标语言文本与所述目标语言同义关键字组中的关键字的匹配信息,其中,所述匹配信息包括所述目标语言文本命中所述目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在所述目标语言文本中的位置及所述目标语言文本命中不同关键字的个数;
[0013]将存在所述匹配信息的目标语言文本作为所述源语言关键字的目标语言匹配文本;
[0014]根据所述匹配信息计算所述目标语言同义关键字组中的所有关键字在所述目标语言匹配文本中的词频,并基于所述词频对所述目标语言匹配文本进行排序。
[0015]在一种可能的实现方式中,在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序的步骤,包括:
[0016]在所述源语言关键字为所述长关键字串时,采用所述目标语言对所述源语言关键字进行翻译得到目标语言关键字;
[0017]将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集;
[0018]计算所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数;
[0019]计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数;
[0020]基于所述整体语义累计匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数;
[0021]将所述整体匹配度参数与预设的匹配度阈值进行比较,在所述整体匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言检索结果排序的目标语言匹配文本;
[0022]根据各个所述目标语言匹配文本的整体匹配度参数,对所述各个所述目标语言匹配文本进行排序。
[0023]在一种可能的实现方式中,所述将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集的步骤,包括:
[0024]采用设定的第一类标点符号对所述目标语言文本进行分段处理,得到所述目标语言文本的初始分段集;
[0025]在所述初始分段集中分段的长度小于第一预设分段长度时,将所述分段过滤掉;
[0026]在所述初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,并将同一所述分段经过再次分段处理所得到的多个分段标注为同一分段族,其中,所述第二预设
分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口长度;
[0027]将所述初始分段集中分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段,以及再次分段后分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段放入一分段集合中,得到所述目标语言文本的可用分段集。
[0028]在一种可能的实现方式中,所述计算所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数的步骤,包括:
[0029]采用同一目标语言关键字对所述目标语言文本的可用分段集逐段进行语义匹配,计算得到所述可用分段集中各分段与所述同一目标语言关键字之间的语义相似度值,将所述分段集中各分段与所述同一目标语言关键字之间的语义相似度值进行降序排列,将排序在预设名次之前的多个语义相似度值作为目标语义相似度值,其中,标注同一分段族的多个分段中只有语义相似度值最大的分段参与所述降序排列;
[0030]对所述目标语义相似度值进行归一化处理,得到目标归一化语义相似度值,其中,所述目标归一化语义相似度值等于所述目标语义相似度值与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值;
[0031]基于所述目标归一化语义相似度值计算得到所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数。
[0032]在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨语言环境的检索结果排序方法,其特征在于,所述方法包括:获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序;在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序。2.如权利要求1所述的跨语言环境的检索结果排序方法,其特征在于,所述在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序的步骤,包括:在所述源语言关键字为所述短关键字串时,采用同义词词典对所述源语言关键字进行词义扩展,得到所述源语言关键字的同义关键字组;采用所述目标语言对所述同义关键字组中的关键字进行翻译,得到所述同义关键字组对应的目标语言同义关键字组;将所述目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同所述目标语言文本与所述目标语言同义关键字组中的关键字的匹配信息,其中,所述匹配信息包括所述目标语言文本命中所述目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在所述目标语言文本中的位置及所述目标语言文本命中不同关键字的个数;将存在所述匹配信息的目标语言文本作为所述源语言关键字的目标语言匹配文本;根据所述匹配信息计算所述目标语言同义关键字组中的所有关键字在所述目标语言匹配文本中的词频,并基于所述词频对所述目标语言匹配文本进行排序。3.如权利要求1所述的跨语言环境的检索结果排序方法,其特征在于,在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序的步骤,包括:在所述源语言关键字为所述长关键字串时,采用所述目标语言对所述源语言关键字进
行翻译得到目标语言关键字;将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集;计算所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数;计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数;基于所述整体语义累计匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数;将所述整体匹配度参数与预设的匹配度阈值进行比较,在所述整体匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言检索结果排序的目标语言匹配文本;根据各个所述目标语言匹配文本的整体匹配度参数,对所述各个所述目标语言匹配文本进行排序。4.如权利要求3所述的跨语言环境的检索结果排序方法,其特征在于,所述将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集的步骤,包括:采用设定的第一类标点符号对所述目标语言文本进行分段处理,得到所述目标语言文本的初始分段集;在所述初始分段集中分段的长度小于第一预设分段长度时,将所述分段过滤掉;在所述初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,并将同一所述分段经过再次分段处理所得到的多个分段标注为同一分段族,其中,所述第二预设分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口...

【专利技术属性】
技术研发人员:朱永强江雪张倩
申请(专利权)人:成都网安科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1