索引用于文件检索的文件的方法、装置及计算机可读媒介制造方法及图纸

技术编号:9622149 阅读:113 留言:0更新日期:2014-01-30 12:18
多个实施方式提供了索引用于文件检索的文件的方法。该文件可包括:产生文件向量,文件向量指示多个术语中的每个是否存在于文件中;使用文件向量和语义关系矩阵计算文件语义推断向量,文件语义推断向量用于文件中存在的多个术语中的每个,语义关系矩阵辨别多个术语中不同术语之间的语义关系;以及使用基于文件语义推断向量计算的文件语义背景推断向量,索引文件。多个实施方式提供了对应的装置和计算机可读媒介。

Method, device, and computer-readable medium for indexing files for file retrieval

A plurality of embodiments provide methods for indexing documents used for file retrieval. This document may include: document vector, vector file indicating each of the plurality of terms in the existence of a file; using the document vector and semantic relation matrix calculation document semantic inference vector file semantic inference vector for each of a plurality of term and document the presence of the different semantic relations between terms of multiple terms in semantic identify and document semantic relation matrix; background vector calculation inference based on semantic inference using vector file, index file. A plurality of embodiments provide corresponding devices and computer-readable media.

【技术实现步骤摘要】
【国外来华专利技术】索引用于文件检索的文件的方法及装置
本专利技术涉及索引用于文件检索的文件的方法、装置以及计算机可读媒介。
技术介绍
说话是用于人与人和人与机器的相互作用的最方便的方式。在教育、商业和娱乐中应用语音文件检索(SDR)正在快速增长。成功的示例包括多语言口述历史档案访问。传统手段聚焦在检索信息并试图满足用户的需求。由于语音的变化,难以直接比较语音查询与数据库中的语音文件。为了构造高效且有效的检索系统,现有技术的语音文件检索(SDR)技术采用从自动语音识别获得的用于索引的转换。向量空间模型和概率模型依赖于一些相似性功能,这些相似性功能假定如果文件包括查询术语的更多次出现,则该文件更有可能与查询相关。基于文本的信息检索的索引技术已广泛地使用在语音文件检索中。然而,由于不完美的语音识别、未登录词汇、同音字歧义以及词语符号化,传统的基于文本的索引技术的方法并不总是适于语音文件检索。转换错误可致使不期望的语义与语法表达,因此导致不充分的索引。已经提出了多个手段以利用多种索引单元(如词语,子词、音素等)解决这些问题。
技术实现思路
多个实施方式提供了索引用于文件检索的文件的方法,其包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。在一实施方式中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。在一实施方式中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。在一实施方式中,产生所述语义关系矩阵还包括以下步骤:使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。在一实施方式中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。在一实施方式中,根据以下表达式应用所述术语加权方案:其中为所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语在文件d中出现的次数;df(ak)是所述术语至少出现一次的文件的数目。在一实施方式中,根据以下表达式执行所述术语-术语矩阵:其中为所述术语-术语矩阵;W为所述术语-文件矩阵;以及T表示矩阵转置。在一实施方式中,根据以下表达式执行所述术语-术语矩阵的奇异值分解:其中为所述术语-术语矩阵;U为左奇异矩阵;V为右奇异矩阵;Σ为R×R对角矩阵,该对角矩阵的非负值为以递减次序排列的R个奇异值,R为分解的阶数;以及T表示矩阵转置。在一实施方式中,基于以下表达式减少所述术语-文件矩阵的维数:其中θ为经验性地用于基于具有第一R维度的所述本征值选择所述本征向量的阈值,R≤K表示原始术语向量在本征空间中的投影维度。在一实施方式中,根据以下表达式产生所述术语-术语矩阵:其中为所述术语-术语语义关系矩阵,T表示矩阵置换。在一实施方式中,所述方法还包括:接收搜索查询;以及基于使用所述文件语义背景推断向量和所述搜索查询的比较,检索所述文件。在一实施方式中,检索所述文件还包括:产生搜索查询向量,所述搜索查询向量指示所述多个术语中的每个是否存在于所述搜索查询中;使用所述搜索查询向量和所述语义关系矩阵,计算搜索查询语义推断向量,所述搜索查询语义推断向量用于所述搜索查询中存在的所述多个术语中的一个或多个;基于每个搜索查询语义推断向量,计算搜索查询语义背景推断向量。以及基于所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的比较,检索所述文件。在一实施方式中,使用所述搜索查询向量和语义关系矩阵计算搜索查询语义推断向量,以用于所述搜索查询中存在的所述多个术语中的每个。在一实施方式中,通过将所述搜索查询语义推断向量加起来,计算所述搜索查询语义背景推断向量。在一实施方式中,根据以下表达式执行所述文件语义背景推断向量与所述搜索查询语义背景推断向量之间的所述比较:其中和表示搜索查询q和文件d的语义背景推断向量;e表示所述语义背景推断向量的维度。在一实施方式中,每个文件为语音文件。在一实施方式中,术语为词语。各个实施装置提供了索引用于文件检索的文件的装置,其包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,利用所述至少一个处理器,所述至少一个存储器和所述计算机程序代码配置成致使所述装置至少执行:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。多个实施方式提供了索引用于文件检索的文件的计算机可读媒介,所述计算机可读媒介上存储有计算机程序码,当通过计算机执行所述计算机程序代码时,其致使所述计算机至少执行:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。关于上述方法并在这里关于上述方法重述的附加特征和优点等同地适于上述装置和计算机可读媒介。附图说明通过参考仅以示例方式给出的以下描述并结合附图,将更好地理解本专利技术的实施方式,并且本专利技术的实施方式对本领域普通技术人员将变得显而易见,在附图中:图1A示出了根据一个实施方式的用于索引语音文件的装置的功能结构,而图1B是根据一个实施方式的对应方法的流程图;图2A示出了根据一个实施方式的用于检索语音文件的装置的功能结构,而图2B是根据一个实施方式的对应方法的流程图;图3示出了根据一个实施方式的奇异值分解的方法;图4A示出了根据一个实施方式的产生语义背景推断向量的方法,而图4B是该方法的流程图;图5示出了根据一个实施方式的用于文件检索的示例性计算机界面;图6至图8是来自一个实施方式的模拟的试验结果;以及图9示出了根据一个实施方式的装置的物理结构。具体实施方式以下描述的一些部分以操作的功能或符号表示以及算法的形式明确地或隐含地表现在计算机存储器内的数据上。这些算法描述和功能或符号表示是数据处理领域的技术人员向该领域其他人有效地传达其工作内容的手段。这里,通常算法被认为是步骤的自洽序列,其导致期望结果。这些步骤需要实际操作物理量,如能够进行存储、传输、结合、比较、及其他操作的电学、磁性或光学信号。除非另外特别地说明,并如从下文显而易见的,应理解在整个说明书中,使用诸如“扫描”、“计算”、“确定”、“替换”、“产生”、“初始化”、“输出”等术语的论述指的是计算机系统或类似电子设备的过程和动作,该计算机系统本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201280024604.html" title="索引用于文件检索的文件的方法、装置及计算机可读媒介原文来自X技术">索引用于文件检索的文件的方法、装置及计算机可读媒介</a>

【技术保护点】
索引用于文件检索的文件的方法,包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件。

【技术特征摘要】
【国外来华专利技术】2011.03.28 SG 201102176-31.索引用于文件检索的文件的方法,包括:产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件,其中,所述语义关系矩阵通过以下步骤产生:使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及,通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。2.根据权利要求1所述的方法,其中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。3.根据权利要求2所述的方法,其中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。4.根据权利要求1所述的方法,其中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。5.根据权利要求4所述的方法,其中,根据以下表达式应用所述术语加权方案:其中为所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语在文件d中出现的次数;df(ak)是所述术语至少出现一次的文件的数目。6.根据权利要求1至5中任一项所述的方法,其中,根据以下表达式执行所述术语-术语矩阵:其中为所述术语-术语矩阵;W为所述术语-文件矩阵;以及T表示矩阵转置。7.根据权利要求6所述的方法,其中,根据以下表达式执行所述术语-术语矩阵的奇异值分解:其中为所述术语-术语矩阵;U为左奇异矩阵;V为右奇异矩阵;Σ为R×R对角矩阵,该对角矩阵的非负值为以递减次序排列的R个奇异值,R为分解的阶数;以及T表示矩阵转置。8.根据权利要求7所述的方法,其中,基于以下表达式减少所述术语-文件矩阵的维数:

【专利技术属性】
技术研发人员:黄建霖马斌李海州
申请(专利权)人:新加坡科技研究局
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1