长关键字串匹配方法、装置及计算机可读存储介质制造方法及图纸

技术编号:37550821 阅读:10 留言:0更新日期:2023-05-15 07:36
本申请实施例提供的长关键字串匹配方法、装置及计算机可读存储介质,涉及信息检索技术领域。首先,获取用于匹配目标语言文本的源语言长关键字串;接着,对源语言长关键字串进行翻译得到翻译后的目标语言关键字串;然后,检测目标语言关键字串中词元的数量,并根据目标语言关键字串中词元的数量,采用不同的匹配方式匹配目标语言文本。由于不同长度的关键字串在匹配时存在差异,上述方案可以基于源语言长关键字串翻译后目标语言关键字串的长度对目标语言文本进行不同的匹配,如此可以提高长关键字串在跨语言匹配时进行匹配的准确性,减小匹配过程中的漏检率,提高长关键字串在跨语言环境的信息检索准确率。环境的信息检索准确率。环境的信息检索准确率。

【技术实现步骤摘要】
长关键字串匹配方法、装置及计算机可读存储介质


[0001]本申请涉及信息检索
,具体而言,涉及一种长关键字串匹配方法、装置及计算机可读存储介质。

技术介绍

[0002]在信息检索过程中,用户不可避免的会涉及到非母语文本信息的检索,这对不精通其它非母语的用户而言是一个极大的挑战,特别是采用长关键字串进行检索时,由于翻译原因会导致长关键字串对应的翻译存在多种可能的翻译结果,在选择某一翻译结果对非母语文本信息进行检索时,一般基于语义匹配的方式对非母语文本信息进行检索以确保匹配结果具有较小的漏检情况,然而即便采用上述方法还是存在漏检率居高不下的情况,如何提高长关键字串在跨语言环境的信息检索准确率是本领域技术人员急需要解决的技术问题。

技术实现思路

[0003]为了解决上述技术问题,本申请提供一种长关键字串匹配方法、装置及计算机可读存储介质。
[0004]第一方面,本申请实施例提供一种长关键字串的匹配方法,所述方法包括:
[0005]获取用于匹配目标语言文本的源语言长关键字串,其中,目标语言和源语言为不同的语言,所述源语言长关键字串包括至少两个源语言关键词;
[0006]对所述源语言长关键字串进行翻译得到翻译后的目标语言关键字串;
[0007]检测所述目标语言关键字串中词元的数量,其中,所述词元是目标语言词典中的基本词单元;
[0008]根据所述目标语言关键字串中词元的数量,采用不同的匹配方式匹配目标语言文本。
[0009]在一种可能的实现方式中,所述根据所述目标语言关键字串中词元的数量,采用不同的匹配方式匹配目标语言文本的步骤,包括:
[0010]在所述目标语言关键字串中词元的数量小于或等于预设词元数量时,采用所述目标语言关键字串对目标语言文本进行精确匹配,将包括所述目标语言关键字串的目标语言文本作为目标语言匹配文本;
[0011]在所述目标语言关键字串中词元的数量大于所述预设词元数量时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,采用所述目标语言关键字串与所述可用分段集中的分段进行匹配,将包括与所述目标语言关键字串匹配的分段所对应的目标语言文本作为目标语言匹配文本。
[0012]在一种可能的实现方式中,所述在所述目标语言关键字串中词元的数量大于所述预设词元数量时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集的步骤,包括:
[0013]对所述目标语言文本进行去噪处理,得到去噪后的目标语言文本;
[0014]采用设定的标点符号对所述去噪后的目标语言文本进行分段处理,得到所述目标语言文本的第一初始分段集;
[0015]根据所述第一初始分段集中各分段的段落长度,对所述第一初始分段集中的各分段进行处理,得到目标语言文本的可用分段集。
[0016]在一种可能的实现方式中,所述根据所述第一初始分段集中各分段的段落长度,对所述第一初始分段集中的各分段进行处理,得到目标语言文本的可用分段集的步骤,包括:
[0017]在所述第一初始分段集中分段的长度小于第一预设分段长度时,将所述分段过滤掉;
[0018]在所述第一初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,其中,所述第二预设分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口长度;
[0019]将所述第一初始分段集中分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段,以及再次分段后分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段放入一分段集合中,得到所述目标语言文本的可用分段集。
[0020]在一种可能的实现方式中,所述第一预设分段长度为所述目标语言关键字串的长度与预设的第一经验参数的比值进行下取整处理后得到的整数,其中,第一经验参数大于1且小于或等于2;
[0021]所述第二预设分段长度为所述目标语言关键字串的长度与预设的第二经验参数的积值进行上取整处理后得到的整数,其中,第二经验参数大于1且小于或等于2;
[0022]所述设定的滑动窗口长度为所述目标语言关键字串的长度与预设的第三经验参数的和值,所述设定的滑动步长为1,其中,所述第三经验参数取值为0、1或者2。
[0023]在一种可能的实现方式中,所述采用所述目标语言关键字串与所述可用分段集中的分段进行匹配,将包括与所述目标语言关键字串匹配的分段所对应的目标语言文本作为目标语言匹配文本的步骤,包括:
[0024]将同一目标语言关键字串与所述目标语言文本的可用分段集中各分段进行语义匹配,计算得到所述可用分段集中各分段与所述同一目标语言关键字串之间的语义相似度值,并将所述可用分段集中各分段与所述同一目标语言关键字串之间的语义相似度值中的最大值作为所述可用分段集中分段与所述同一目标语言关键字串之间的最大语义相似度值;
[0025]将所述可用分段集中分段与所述同一目标语言关键字串之间的最大语义相似度值进行归一化处理,得到最大归一化语义相似度值,其中,所述最大归一化语义相似度值等于所述最大语义相似度值与相似度理论的最小值之差与相似度理论最大值与相似度理论的最小值之差的比值;
[0026]将所述最大归一化语义相似度值与预先设定的归一化语义相似度域值进行比较,在所述最大归一化语义相似度值小于所述预先设定的归一化语义相似度域值时,判定所述目标语言文本的可用分段集中不存在与所述目标语言关键字串匹配的分段;在所述最大归
一化语义相似度值大于或等于所述预先设定的归一化语义相似度域值时,判定所述目标语言文本的可用分段集中存在与所述目标语言关键字串匹配的分段,并将所述最大归一化语义相似度值作为所述目标语言关键字串与所述可用分段集中各分段的语义匹配参数;
[0027]计算所述目标语言关键字串与所述目标语言文本之间的整体相关性参数;
[0028]基于所述语义匹配参数和所述整体相关性参数计算得到所述目标语言关键字串与所述目标语言文本之间整体匹配的匹配度参数;
[0029]将所述匹配度参数与预设的匹配度阈值进行比较,在所述匹配度参数大于所述预设的匹配度阈值时,将所述目标语言文本作为与所述源语言长关键字串匹配的目标语言匹配文本。
[0030]在一种可能的实现方式中,所述计算所述目标语言关键字串与所述目标语言文本之间的整体相关性参数的步骤包括:
[0031]在向量空间模型中,以词的词频

逆文本频率指数作为权重,计算所述目标语言关键字串与所述目标语言文本之间的余弦相似度,采用所述余弦相似度作为所述目标语言关键字串与所述目标语言文本之间的整体相关性参数;其中,向量空间模型基于目标语言库中的语料集构建而成;
[0032]所述基于所述语义匹配参数和所述整体相关性参数计算得到所述目标语言关键字串与所述目标语言文本之间整体匹配的匹配度参数的步骤,包括:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长关键字串的匹配方法,其特征在于,所述方法包括:获取用于匹配目标语言文本的源语言长关键字串,其中,目标语言和源语言为不同的语言,所述源语言长关键字串包括至少两个源语言关键词;对所述源语言长关键字串进行翻译得到翻译后的目标语言关键字串;检测所述目标语言关键字串中词元的数量,其中,所述词元是目标语言词典中的基本词单元;根据所述目标语言关键字串中词元的数量,采用不同的匹配方式匹配目标语言文本。2.如权利要求1所述的长关键字串的匹配方法,其特征在于,所述根据所述目标语言关键字串中词元的数量,采用不同的匹配方式匹配目标语言文本的步骤,包括:在所述目标语言关键字串中词元的数量小于或等于预设词元数量时,采用所述目标语言关键字串对目标语言文本进行精确匹配,将包括所述目标语言关键字串的目标语言文本作为目标语言匹配文本;在所述目标语言关键字串中词元的数量大于所述预设词元数量时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集,采用所述目标语言关键字串与所述可用分段集中的分段进行匹配,将包括与所述目标语言关键字串匹配的分段所对应的目标语言文本作为目标语言匹配文本。3.如权利要求2所述的长关键字串的匹配方法,其特征在于,所述在所述目标语言关键字串中词元的数量大于所述预设词元数量时,将所述目标语言文本进行分段处理得到所述目标语言文本的可用分段集的步骤,包括:对所述目标语言文本进行去噪处理,得到去噪后的目标语言文本;采用设定的标点符号对所述去噪后的目标语言文本进行分段处理,得到所述目标语言文本的第一初始分段集;根据所述第一初始分段集中各分段的段落长度,对所述第一初始分段集中的各分段进行处理,得到目标语言文本的可用分段集。4.如权利要求3所述的长关键字串的匹配方法,其特征在于,所述根据所述第一初始分段集中各分段的段落长度,对所述第一初始分段集中的各分段进行处理,得到目标语言文本的可用分段集的步骤,包括:在所述第一初始分段集中分段的长度小于第一预设分段长度时,将所述分段过滤掉;在所述第一初始分段集中分段的长度大于第二预设分段长度时,采用设定的滑动窗口长度和设定的滑动步长沿着所述分段的延伸方向滑动,对所述分段进行再次分段,其中,所述第二预设分段长度大于所述第一预设分段长度,所述第二预设分段长度大于所述滑动窗口长度;将所述第一初始分段集中分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段,以及再次分段后分段长度位于所述第一预设分段长度和所述第二预设分段长度之间的分段放入一分段集合中,得到所述目标语言文本的可用分段集。5.如权利要求4所述的长关键字串的匹配方法,其特征在于,所述第一预设分段长度为所述目标语言关键字串的长度与预设的第一经验参数的比值进行下取整处理后得到的整数,其中,第一经验参数大于1且小于或等于2;所述第二预设分段长度为所述目标语言关键字串的长度与预设的第二经验参数的积
值进行上取整处理后得到的整数,其中,第二经验参数大于1且小于或等于2;所述设定的滑动窗口长度为所述目标语言关键字串的长度与预设的第三经验参数的和值,所述设定的滑动步长为1,其中,所述第三经验参数取值为0、1或者2。6.如权利要求2

5中任意一项所述的长关键字串的匹配方法,其特征在于,所述采用所述目标语言关键字串与所述可用分段集中的分段进行匹配,将包括与所述目标语言关键字串匹配的分段所对应的目标语言文本作为目标语言匹配文本的步骤,包括:将同一目标语言关键字串与所述目标语言文本的可用分段集中...

【专利技术属性】
技术研发人员:朱永强杨光明许万
申请(专利权)人:成都网安科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1