信息处理方法和装置制造方法及图纸

技术编号:22055323 阅读:110 留言:0更新日期:2019-09-07 15:16
本申请实施例公开了信息处理方法和装置。该方法的一具体实施方式包括:对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系。实现了预先基于由多个知识点中的权重较高的部分词语参与构建权重模式字典树,当关键语句中包含一个知识点中权重较高的部分词语时,即可作为与关键语句对应的词语集合匹配的知识点语句,进而建立文本与知识点语句的对应关系。一方面,减少了建立文本与知识点语句的对应关系的开销,另一方面,与知识点语句语义相似的关键语句均可以被查找出,建立文本与知识点语句的对应关系。

Information Processing Method and Device

【技术实现步骤摘要】
信息处理方法和装置
本申请涉及计算机领域,具体涉及互联网领域,尤其涉及信息处理方法和装置。
技术介绍
在可提供文本的浏览和下载的站点中,需要预先建立文本与相应的知识点语句的对应关系。目前,通常采用的建立文本与相应的知识点语句的对应关系的方式为:预先利用多个知识点语句通过AC自动机(Aho-Corasickautomaton)算法构建出字典树,对于一个文本,该文本中的关键语句需要与参与构建字典树的一个知识点语句完全匹配才能查找出匹配的知识点语句,建立文本与查找出的知识点语句的对应关系。一方面,查找与文本匹配的知识点语句的过程开销大,另一方面,对于与知识点语句语义相同仅个别与语义关联度低的词语不同的文本中的关键语句,依然会导致无法查找出与用户输入的语句匹配的知识点语句,进而无法建立文本与知识点语句的对应关系。
技术实现思路
本申请实施例提供了信息处理方法和装置。第一方面,本申请实施例提供了信息处理方法,该方法包括:对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,本文档来自技高网...

【技术保护点】
1.一种信息处理方法,包括:对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。

【技术特征摘要】
1.一种信息处理方法,包括:对文本中的关键语句进行分词,得到关键语句对应的词语集合;基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句,以及建立所述文本和查找出的知识点语句的对应关系,其中,一个权重模式匹配树预先基于多个用于构建所述权重模式匹配树的知识点语句构建,多个用于构建所述权重模式匹配树的知识点语句中的每一个知识点语句在权重模式匹配树中对应一个路径,路径中包含知识点语句中的部分词语中的每一个词语各自对应的节点,部分词语中的每一个词语各自对应的节点的权重之和大于权重和阈值。2.根据权利要求1所述的方法,所述方法还包括:分别对多个用于构建一个权重模式匹配树的知识点语句中的每一个知识点语句执行构建操作,构建操作包括:根据知识点语句中的每一个词语对应的平均权重,对知识点语句对应的词语集合中的词语进行排序,得到词语序列以及执行路径建立子操作,路径建立子操作包括:当满足预设条件时,建立知识点语句与最新词语对应的节点的对应关系,将最新词语对应的节点的类型设置为叶子节点,最新词语为最新访问到的所述词语序列中的词语;当不满足预设条件时,将最新词语对应的节点的类型设置为非叶子节点,访问词语序列中最新词语的下一个词语对应的节点,确定再次执行路径建立子操作,预设条件包括:当前权重和大于权重和阈值并且当前相似度大于相似度阈值,其中,当前权重和为最新词语对应的节点与已访问到的节点的权重之和,当前相似度为最新词语和已访问到的节点对应的词语构成的词语集合与所述知识点语句对应的词语集合之间的相似度;对于每一个访问过的节点,分别配置访问过的节点的失配指针,得到所述权重模式匹配树。3.根据权利要求2所述的方法,基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合匹配的知识点语句包括:对于至少一个权重模式匹配树的每一个权重模式匹配树,执行语句查找操作,所述语句查找操作包括:确定起始节点集合以及对于起始节点集合中的每一个起始节点,执行路径查找子操作,得到起始节点对应的目标路径,其中,起始节点集合中一个起始节点为对应于关键语句对应的词语集合中的一个词语的权重模式匹配树的根节点的一个子节点,所述路径查找子操作包括:查找出起始节点对应的所有目标路径,其中,起始节点对应的目标路径中的首个节点为起始节点,起始节点对应的目标路径中包括关键语句对应的词语集合中的至少一个词语各自对应的节点,在查找起始节点对应的目标路径的过程中当访问到的节点为叶子节点时,访问所述节点的失配指针指向的节点;对于每一个起始节点对应的目标路径,当起始节点对应的目标路径的最后一个节点对应有知识点语句时,将目标路径的最后一个节点对应的知识点语句作为查找出的与关键语句对应的词语集合匹配的知识点语句。4.根据权利要求3所述的方法,所述方法还包括:根据知识点语句中的全局最大权重词语,对用于构建多个权重模式匹配树的所有知识点语句进行分组,得到多个知识点语句集合,其中,一个知识点语句集合中的每一个知识点中的全局最大权重词语相同,全局最大权重词语为对应的全局平均权重最大的词语,一个词语对应的全局平均权重为所述词语在用于构建多个权重模式匹配树的所有知识点语句中的权重的均值;分别利用多个知识点语句集合中的每一个知识点语句集合,构建出每一个知识点语句集合各自对应的权重模式匹配树;分别建立构建出的每一个权重模式匹配树与全局最大权重词语的对应关系。5.根据权利要求4所述的方法,所述方法还包括:从多个权重模式匹配树中查找出对应的全局最大权重词语为关键语句对应的词语集合中的一个词语的权重模式匹配树;将查找出的权重模式匹配树作为所述至少一个权重模式匹配树。6.一种信息处理装置,包括:处理单元,配置用于对文本中的关键语句进行分词,得到关键语句对应的词语集合;查找单元,配置用于基于至少一个权重模式匹配树,查找出与关键语句对应的词语集合...

【专利技术属性】
技术研发人员:叶君健郝萌薛璐影姚源林
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1