【技术实现步骤摘要】
【国外来华专利技术】基于文档结构提取检索多语言文档
本专利技术涉及信息检索,更具体地涉及检索多语言文档。
技术介绍
国际商业和企业全球化要求公司以许多自然语言和方言进行交流。对于事件或对象的许多情况,存在大量相关的从不同的角度和以不同的自然语言的报告、评论或描述。可以生成公司的单个内部文档的多个版本,其中每个版本具有相同的内容,但是以不同的自然语言表达。用户可以使用以用户精通的自然语言表达的搜索查询,以便查找文档的多语言版本。已知的信息检索系统将文档的多语言版本翻译为单一自然语言,然后使用该单一自然语言跨多语言版本应用搜索。文档的翻译通常是不准确的,特别是如果文档包含特定行业领域的术语。为了提高翻译准确性,用户必须努力了解文档的含义,并了解如何将文档从一种语言翻译成不同的语言,包括如何翻译专门针对特定行业领域的术语。其他已知的信息检索系统需要多个搜索引擎来搜索文档的多语言版本,其中单个搜索查询被翻译成多种自然语言,并且每个搜索引擎在那些自然语言的相应一种中搜索文本。搜索查询的翻译受制于上述提及的相同的不准确和困难。还有其他已知的 ...
【技术保护点】
1.一种用于搜索以多种自然语言表达的文档的计算机实现的方法,所述方法包括如下步骤:/n计算机提取以所述多种自然语言表达的文档的结构的组件;/n基于所提取的文档的结构的组件,计算机将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别,每个集合中的文档具有匹配的内容;/n计算机检测查询用的自然语言;/n基于所述查询和所检测的自然语言以及基于搜索引擎的利用,计算机选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档;/n计算机提取所选择的文档的结构的第一组件;/n基于所提取的第一组件,所述计算机识别在所述各类别中包括的,包括了所选择 ...
【技术特征摘要】
【国外来华专利技术】20171121 US 15/818,8601.一种用于搜索以多种自然语言表达的文档的计算机实现的方法,所述方法包括如下步骤:
计算机提取以所述多种自然语言表达的文档的结构的组件;
基于所提取的文档的结构的组件,计算机将文档分类为包括以各自不同的自然语言表达的各自相互排他的文档集合的各类别,每个集合中的文档具有匹配的内容;
计算机检测查询用的自然语言;
基于所述查询和所检测的自然语言以及基于搜索引擎的利用,计算机选择包含在所述文档中的其内容由查询指示并且其自然语言与所检测的自然语言匹配的文档;
计算机提取所选择的文档的结构的第一组件;
基于所提取的第一组件,所述计算机识别在所述各类别中包括的,包括了所选择的文档的类别;
计算机识别在所识别的类别中的一个或多个其他文档;以及
计算机将所述一个或多个其他文档呈现为具有与所选择的文档的内容相匹配的内容,所述一个或多个其他文档以与所选择的文档的自然语言不同的一种或多种相应的自然语言表达。
2.如权利要求1所述的方法,其中执行提取组件,为文档分类,检测自然语言,选择文档,提取第一组件,识别一个或多个其他文档以及呈现所述一个或多个其他文档的步骤,不需要翻译所述文档、一个或多个其他文档或查询。
3.如前述权利要求中任一项所述的方法,其中提取组件的步骤包括以下步骤:
将包括在所述文档中的第一文档的结构建模为所述第一组件的第一流,所述流包括所述文档的单词和文档结构的其他指示符,而没有文档语义含义的指示符;
用指示单词的第一标签替换流中的单词;以及
接着所述替换步骤,通过利用长短期记忆(LSTM)网络将流编码为数值向量,其中将文档分类的步骤包括确定包括所述文档和所述一个或多个其他文档的类别,所述类别通过最小化所述数值向量和一个或多个其他数值向量之间的距离确定,所述其他数值向量产生于为对所述一个或多个其他文档建模的一个或多个其他流编码。
4.如权利要求3所述的方法,其中识别类别的步骤包括如下步骤:
通过利用LSTM网络,确定为另一个流编码的另一个数值向量,所述另一个流为所选择的文档的结构建模;
确定所述数值向量和其他数值向量之间的第一距离;
确定所述第一距离小于所述阈值距离;以及
基于所述第一距离小于所述阈值距离,确定在类别中的一个或多个其他文档具有匹配所选择的文档的内容的内容。
5.如前述权利要求中任一项所述的方法,进一步包括如下步骤:
计算机提取多个因素作为用于查询的候选结果的向量,所述因素包括查询用的语言、用户语言和普及性;以及
计算机基于提取的多个因素排列候选结果,其中识别所述一个或多个其他文档的步骤是部分基于排列的候选结果。
6.如权利要求5所述的方法,进一步包括如下步骤:
计算机收集关于所述文档的其他查询的结果的用户反馈;以及
基于所收集的用户反馈,计算机调节排列的候选结果的次序。
7.如前述权利要求中任一项所述的方法,其中提取组件的步骤包括提取文档中的单词、标签、图像和行的指示符。
8.如前述权利要求中任一项所述的方法,进一步包括如下步骤:
提供至少一个支持服务,用于在计算机中创建、集成、托管、维护和部署计算机可读代码的至少一个,程序代码由计算机处理器执行以实施提取组件、为文档分类、检测自然语言、选择文档、提取第一组件、识别类别、识别一个或多个其他文档以及呈现一个或多个其他文档的步骤。
9.一种用于搜索以多种自然语言表达的文档的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,其可由处理电路读取并且存储用于由处理电路执行以用于执行根据权利要求1至8中任一项所述的方法的指令。
10.一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,包括软...
【专利技术属性】
技术研发人员:唐鑫,殷昆燕,李贺,赵学良,徐欣,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。