【技术实现步骤摘要】
一种跨语言环境的检索结果排序方法、装置及电子设备
[0001]本申请涉及信息检索排序
,具体而言,涉及一种跨语言环境的检索结果排序方法、装置及电子设备。
技术介绍
[0002]在进行信息检索时,不可避免的涉及到对检索结果进行排序的问题,用户一般都希望能将最相关的检索结果信息排在最前面,以减少用户浏览筛选检索结果信息的时间,提高信息检索效率。然而现有的检索结果排序算法往往是针对面向倒排索引结构的精确匹配设计的,比如,BM25检索结果排序算法,不能适应跨语言环境的基于语义进行匹配的信息检索场景。
技术实现思路
[0003]为了解决上述技术问题,本申请提供一种跨语言环境的检索结果排序方法、装置及电子设备。
[0004]第一方面,本申请实施例提供一种跨语言环境的检索结果排序方法,所述方法包括:
[0005]获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;
[0006]对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;
[0007]在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序;
[0008]在所述 ...
【技术保护点】
【技术特征摘要】
1.一种跨语言环境的检索结果排序方法,其特征在于,所述方法包括:获取用于匹配目标语言文本的源语言关键字,其中,目标语言和源语言为不同的语言;对所述源语言关键字进行分词处理,基于分词结果将所述源语言关键字划分为短关键字串或长关键字串;在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序;在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序。2.如权利要求1所述的跨语言环境的检索结果排序方法,其特征在于,所述在所述源语言关键字为所述短关键字串时,基于所述源语言关键字得到与所述源语言关键字对应的目标语言同义关键字组,采用所述目标语言同义关键字组对所述目标语言文本进行匹配,将包括所述目标语言同义关键字组中关键字的目标语言文本作为目标语言匹配文本,计算所述目标语言同义关键字组中的关键字在所述目标语言匹配文本中的词频,根据所述词频对所述目标语言匹配文本进行排序的步骤,包括:在所述源语言关键字为所述短关键字串时,采用同义词词典对所述源语言关键字进行词义扩展,得到所述源语言关键字的同义关键字组;采用所述目标语言对所述同义关键字组中的关键字进行翻译,得到所述同义关键字组对应的目标语言同义关键字组;将所述目标语言同义关键字组中的关键字依次输入不同的目标语言文本中进行模式匹配,得到不同所述目标语言文本与所述目标语言同义关键字组中的关键字的匹配信息,其中,所述匹配信息包括所述目标语言文本命中所述目标语言同义关键字组中的关键字、命中关键字的次数、命中关键字在所述目标语言文本中的位置及所述目标语言文本命中不同关键字的个数;将存在所述匹配信息的目标语言文本作为所述源语言关键字的目标语言匹配文本;根据所述匹配信息计算所述目标语言同义关键字组中的所有关键字在所述目标语言匹配文本中的词频,并基于所述词频对所述目标语言匹配文本进行排序。3.如权利要求1所述的跨语言环境的检索结果排序方法,其特征在于,在所述源语言关键字为所述长关键字串时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,根据所述源语言关键字对应的目标语言关键字和所述目标语言文本的可用分段集计算所述源语言关键字与所述目标语言文本的整体匹配参数,基于所述整体匹配参数筛选出与所述目标语言检索结果排序的目标语言匹配文本,并基于所述整体匹配参数对所述目标语言匹配文本进行排序的步骤,包括:在所述源语言关键字为所述长关键字串时,采用所述目标语言对所述源语言关键字进
行翻译得到目标语言关键字;将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集;计算所述目标语言关键字与所述可用分段集中各分段的整体语义累计匹配参数;计算所述目标语言关键字与所述目标语言文本之间的整体相关性参数;基于所述整体语义累计匹配参数和所述整体相关性参数计算得到所述目标语言关键字与所述目标语言文本之间的整体匹配度参数;将所述整体匹配度参数与预设的匹配度阈值进行比较,在所述整体匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言检索结果排序的目标语言匹配文本;根据各个所述目标语言匹配文本的整体匹配度参数,对所述各个所述目标语言匹配文本进行排序。4.如权利要求3所述的跨语言环境的检索结果排序方法,其特征在于,所述将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集的步骤,包括:采用设定的第一类标点符号对所述目标语言文本进行分段处理,得到所述目标语言文本的初始分段集;在所述初始分段集中分段的长度小于第一预设分段长度时,将所述分段过滤掉;在所述初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,并将同一所述分段经过再次分段处理所得到的多个分段标注为同一分段族,其中,所述第二预设分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口...
【专利技术属性】
技术研发人员:朱永强,江雪,张倩,
申请(专利权)人:成都网安科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。