文本匹配方法、装置、计算机系统及可读存储介质制造方法及图纸

技术编号:27432725 阅读:32 留言:0更新日期:2021-02-25 03:08
本公开实施例公开了一种文本匹配方法、装置、计算机系统及可读存储介质,所述文本匹配方法包括:获取第一文本和第二文本的数据;通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。否为潜在匹配文本对。否为潜在匹配文本对。

【技术实现步骤摘要】
文本匹配方法、装置、计算机系统及可读存储介质


[0001]本公开涉及计算机
,具体涉及一种文本匹配方法、装置、计算机系统及可读存储介质。

技术介绍

[0002]随着全球化进程的继续深入,对于语言之间翻译的需求越来越多,机器翻译发挥着越来越大的作用。在机器翻译中,双语平行语料对于训练机器翻译模型有着非常重要的作用。语料系统的建设最早来源于新闻机构和政府机构提供的双语语料等。随着互联网的飞速发展以及全球化的深化,从互联网获取的双语语料成了各个语料系统的重要来源。互联网上的双语语料具有数量巨大、语法真实、语料种类丰富、易获取等特性,所以已经成为今年来各语料系统最重要的语料来源。其中,对下载网页进行网页匹配,找到潜在匹配的网页对是非常关键的步骤。
[0003]在提出本公开的过程中,专利技术人发现,在真实的语料系统中,网页的数目极其庞大,可以达到数百亿的量级,网页匹配的工作量十分巨大。而且,随着网络上的网页数越来越多,每次对有网页更新的站点进行一次全量的网页匹配会浪费过多的机器资源,甚至在有限的机器资源下根本无法做到全量有更新站点的网页匹配本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:获取第一文本和第二文本的数据;通过处理所述第一文本和第二文本的数据,确定所述第一文本与所述第二文本中的n连词的重合程度,其中,所述n连词包含n个连续词,n≥1;至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。2.根据权利要求1所述的方法,其特征在于:所述n连词至少包括N1连词N2连词,其中,N1≠N2。3.根据权利要求1所述的方法,其特征在于,所述确定所述第一文本与所述第二文本中的n连词的重合程度,包括:根据同时出现在所述第一文本和所述第二文本中的n连词个数,确定所述第一文本与所述第二文本中的n连词的重合程度。4.根据权利要求1所述的方法,其特征在于:所述第一文本是从第一语言的第一原始文本转换得到的;和/或所述第二文本是从第二语言的第二原始文本转换得到的;和/或所述第一语言和所述第二语言是不同的语言;和/或所述第一文本和所述第二文本是所述第二语言的文本。5.根据权利要求4所述的方法,其特征在于:对所述第一原始文本的转换包括对所述第一原始文本进行以下至少一种处理:分词、以词粒度从所述第一语言翻译为所述第二语言、去停用词;和/或对所述第二原始文本的转换包括对所述第二原始文本进行以下至少一种处理:分词、去停用词。6.根据权利要求4所述的方法,其特征在于:所述第一原始文本是所述第一语言的当前原始文本集合中相比于所述第一语言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中的增量原始文本或存量原始文本;或者所述第一原始文本是所述第一语言的当前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二语言的当前原始文本集合中相比于所述第二语言的存量原始文本而言的增量原始文本。7.根据权利要求6所述的方法,其特征在于,所述至少根据所述第一文本与所述第二文本中的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对,包括:当所述第一原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第一文本与从所述第二语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对;和/或当所述第二原始文本是存量原始文本时,至少根据所述第一文本与所述第二文本中的n连词的重合程度,以及所述第二文本与从所述第一语言的存量原始文本转换得到的文本的n连词的重合程度,确定所述第一文本和所述第二文本是否为潜在匹配文本对。8.根据权利要求4所述的方法,其特征在于:
所述第一原始文本是从第一网页获得的;所述第二原始文本是从第二网页获得的;所述第一网页是所述第一语言的当前网页集合中相比于所述第一语言的存量网页而...

【专利技术属性】
技术研发人员:葛鑫施杨斌赵宇骆卫华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1