A plurality of embodiments provide methods for indexing documents used for file retrieval. This document may include: document vector, vector file indicating each of the plurality of terms in the existence of a file; using the document vector and semantic relation matrix calculation document semantic inference vector file semantic inference vector for each of a plurality of term and document the presence of the different semantic relations between terms of multiple terms in semantic identify and document semantic relation matrix; background vector calculation inference based on semantic inference using vector file, index file. A plurality of embodiments provide corresponding devices and computer-readable media.
【技术实现步骤摘要】
【国外来华专利技术】索引用于文件检索的文件的方法及装置
本专利技术涉及索引用于文件检索的文件的方法、装置以及计算机可读媒介。
技术介绍
说话是用于人与人和人与机器的相互作用的最方便的方式。在教育、商业和娱乐中应用语音文件检索(SDR)正在快速增长。成功的示例包括多语言口述历史档案访问。传统手段聚焦在检索信息并试图满足用户的需求。由于语音的变化,难以直接比较语音查询与数据库中的语音文件。为了构造高效且有效的检索系统,现有技术的语音文件检索(SDR)技术采用从自动语音识别获得的用于索引的转换。向量空间模型和概率模型依赖于一些相似性功能,这些相似性功能假定如果文件包括查询术语的更多次出现,则该文件更有可能与查询相关。基于文本的信息检索的索引技术已广泛地使用在语音文件检索中。然而,由于不完美的语音识别、未登录词汇、同音字歧义以及词语符号化,传统的基于文本的索引技术的方法并不总是适于语音文件检索。转换错误可致使不期望的语义与语法表达,因此导致不充分的索引。已经提出了多个手段以利用多种索引单元(如词语,子词、音素等)解决这些问题。
技术实现思路
多个实施方式提供了索引用于文件检索的文件的方法,其包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。在一实施方式中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述 ...
【技术保护点】
索引用于文件检索的文件的方法,包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。
【技术特征摘要】
【国外来华专利技术】2011.03.28 SG 201102176-31.索引用于文件检索的文件的方法,包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件,其中,所述语义关系矩阵通过以下步骤产生:使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及,通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。2.根据权利要求1所述的方法,其中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。3.根据权利要求2所述的方法,其中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。4.根据权利要求1所述的方法,其中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。5.根据权利要求4所述的方法,其中,根据以下表达式应用所述术语加权方案:其中为所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语在文件d中出现的次数;df(ak)是所述术语至少出现一次的文件的数目。6.根据权利要求1至5中任一项所述的方法,其中,根据以下表达式执行所述术语-术语矩阵:其中为所述术语-术语矩阵;W为所述术语-文件矩阵;以及T表示矩阵转置。7.根据权利要求6所述的方法,其中,根据以下表达式执行所述术语-术语矩阵的奇异值分解:其中为所述术语-术语矩阵;U为左奇异矩阵;V为右奇异矩阵;Σ为R×R对角矩阵,该对角矩阵的非负值为以递减次序排列的R个奇异值,R为分解的阶数;以及T表示矩阵转置。8.根据权利要求7所述的方法,其中,基于以下表达式减少所述术语-文件矩阵的维数:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。