当前位置: 首页 > 专利查询>北京大学专利>正文

信息检索方法和装置制造方法及图纸

技术编号:16128888 阅读:47 留言:0更新日期:2017-09-01 20:53
本申请公开了一种信息检索方法和装置,属于互联网领域,以提高检索出的用户待解决问题的结果的准确性。所述方法包括:接收输入的待解决问题;确定所述待解决问题所属的技术领域;根据预先建立的在所述技术领域的知识库,确定所述技术领域中与所述待解决问题相匹配的目标文档,其中,所述知识库中包括问题对象、知识对象、文档对象、所述问题对象和所述知识对象之间的对应关系以及所述知识对象和所述文档对象之间的对应关系,所述知识对象选自所述问题对象的一部分;返回所述目标文档。本申请用于回答待解决问题。

Information retrieval method and apparatus

The invention discloses an information retrieval method and a device, belonging to the field of the Internet, in order to improve the accuracy of the result of the problem to be solved by the user to be retrieved. The method comprises: receiving input to solve problems; technical field to solve the problem is to determine the; according to the technology in the field of the knowledge base is established beforehand, to solve the problem of matching the target document, and the determination of the technical field which includes the relationship between the relationship between the problem of object, knowledge object, document object, the object and the object of knowledge and knowledge of the object and the document object of the knowledge base, a part of the knowledge object selected from the object returned by the target document. This application is used to answer questions to be answered.

【技术实现步骤摘要】
信息检索方法和装置
本申请涉及互联网领域,特别涉及一种信息检索方法和装置。
技术介绍
随着互联网的高速发展,用户当前越来越多的倾向于通过在互联网上提问来获取问题的答案。搜索引擎在获取到用户的提问后,会基于提问中出现的一或多个关键词进行检索,并返回与所述一或多个关键词匹配的结果。然而,对于机器来说,理解人类的一个问题是一件很困难的事情,通过上述这种方式获取到的结果很可能并不是用户提问想要获取的结果,从而造成检索准确率偏低。
技术实现思路
本申请实施例提供了一种信息检索方法和装置,以提高检索出的用户待解决问题的结果的准确性。所述技术方案如下:一方面,提供了一种信息检索方法,所述方法包括:接收输入的待解决问题;确定所述待解决问题所属的
;根据预先建立的在所述
的知识库,确定所述
中与所述待解决问题相匹配的目标文档,其中,所述知识库中包括问题对象、知识对象、文档对象、所述问题对象和所述知识对象之间的对应关系以及所述知识对象和所述文档对象之间的对应关系,所述知识对象选自所述问题对象的一部分;返回所述目标文档。另一方面,提供了一种信息检索装置,所述信息检索装置包括:界面模块,用于接收输入的待解决问题;处理模块,用于确定所述待解决问题所属的
;所述处理模块,还用于根据预先建立的在所述
的知识库,确定所述
中与所述待解决问题相匹配的目标文档,其中,所述知识库中包括问题对象、知识对象、文档对象、所述问题对象和所述知识对象之间的对应关系以及所述知识对象和所述文档对象之间的对应关系,所述知识对象选自所述问题对象的一部分;所述界面模块,还用于返回所述目标文档。本申请实施例提供的技术方案带来的有益效果包括:在基于用户的待解决问题(即用户提问)进行检索时,不仅考虑到问题中的一或多个关键词,同时考虑到问题的
,通过考虑待解决问题的
以及利用预先构建的特定知识库,可以大幅提高检索出的用户待解决问题的结果的准确性。附图说明图1是本申请实施例提供的特定
中的四层知识图的示意图;图2是本申请实施例提供的一种示例性的问题节点、知识节点和文件节点的关系图;图3是本申请实施例提供的示例信息检索方法的流程图;图4是本申请实施例提供的一种示例信息检索方法的示意图;图5是本申请实施例提供的示出节点间随机游走概率的节点之间的关系图;图6是本申请实施例提供的一种示例信息检索装置的结构框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。文中所讲的“电子设备”可以包括智能手机、平板电脑、智能电视、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。文中所讲的“信息检索装置”可以是一或多个服务器等。相关的信息检索方法仅仅考虑到在一个问题当中出现的关键词,往往很难理解用户的意图。为了理解一个问题,人类通常使用他们在
的基本知识。比如对于问题“当用户尝试在发件箱中发送一些特殊表格时,程序就停滞在等待状态”。首先,我们会关注到“特殊表格”和“发件箱”,这些都是产品outlook的一些部件,我们就能推断出这是outlook产生的一些问题。从以上分析可以得出,
的背景知识在问题理解当中发挥着重要作用。本申请中通过构建特定
的知识库来方便机器理解用户问题。本申请中的信息检索方法是基于预先构建的知识库。所述知识库中包括问题对象、知识对象、文档对象、所述问题对象和所述知识对象之间的对应关系以及所述知识对象和所述文档对象之间的对应关系。其中,问题对象可以是用户输入的一个个待解决问题,知识对象可选自所述待解决问题的一部分,文档对象可以是一个个解决待解决问题的文档。为便于理解本申请中提到的知识库,下面的描述中是以知识图的形式展现知识库中的各个部分及其关系。一个技术问题通常由三部分组成:产品,组件和事件词。通常来说,本申请中的知识图可包含四部分:概念层、产品层、组件层和事件层。其中:概念层:在概念层中,一个节点表示一个概念,一个概念表示一组具有相似功能的产品,一个概念通常也是另一个概念的子概念。产品层:产品层中包含了所有的产品以及产品的属性。产品层是整个知识图的核心,产品层的节点表示了一个特定的产品或者产品的属性。可预先定义产品的几种属性,例如版本、语言和运行环境。组件层:通常来讲,一个技术问题都是关于产品的某个组件,组件层包含了所有产品的组件。事件层:当产品或者组件已经定义之后,需要理解一个问题的具体现象,组件层包含描述问题现象的一些名词,动词,形容词等等。一个知识图的例子可如1所示,图1中按从上到下的顺序以虚线分割出四层:概念层、产品层、组件层和事件层。本文利用技术语料构建知识图,下面将描述具体的构建方法。概念层和产品层本文从产品信息中抽取概念和产品。总共得到了例如6052个产品,一共属于例如214个不同的类别。同时本文利用预先定义的规则来抽取产品的属性,比如“OfficeProWin32IT”表示产品名为Office,版本为Pro,语言是意大利语(Italian),并且是安装在32位的windows操作系统上。组件层本文利用技术语料和用户的问题日志来抽取组件。首先,利用一些序列标注的方法识别出语料当中提到的组件。这些抽取出的短语被表示为组件层的节点,本文使用产品与组件的PMI值来衡量。PMI是一种常见的用来衡量两个短语之间相似度的方法,如果说一个组件c与一个产品p的PMI值超过一个阈值,那么我们认为c是p的一个组件。PMI的定义如下:其中#(c)表示c的出现次数,#(p)表示p的出现次数,#(p,c)表示p和c的共现次数。事件层事件层有两种不同的边,分别是“事件词(EventWordOf)”和“有关于(RelatedTo)”,我们分别讨论这两种边。首先,事件词(EventWordOf)连接一个产品和一个动作词,我们使用类似组件层的方法,利用PMI来抽取这样的关系。通常来说,用户都使用动词、形容词、副词、名词等来描述一个问题的现象。给定大规模的技术语料,首先利用一些成熟的位置标签(POS-TAG)的方法,标注出技术语料的词性。同时,假定两个技术问题如果能被同一个问题解决,那么它们在语义上应该是非常相似的,比如,文档d能解决3个技术问题,分别如下:q2:Outlook2007不动了(Outlook2007getsfrozen)。q9:Outlook发送状态保持数小时了(Outlooksendingstatusremainsforhours)。q15:电子邮件卡在发件箱了(Emailsgetstuckinoutbox)。所以,我们能得出不动(frozen)、保持(remain)和卡住(stuck)三个词在语义上比较相似,所以在这三个词语对应的时间节点之间,会连接“有关于(RelatedTo)”的关系。为了返回和用户待解决问题相关联的目标文档,本申请中将知识对象和文档对象进行关联。其中,文档对象可根据网络上本文档来自技高网
...
信息检索方法和装置

【技术保护点】
一种信息检索方法,其特征在于,所述方法包括:接收输入的待解决问题;确定所述待解决问题所属的技术领域;根据预先建立的在所述技术领域的知识库,确定所述技术领域中与所述待解决问题相匹配的目标文档,其中,所述知识库中包括问题对象、知识对象、文档对象、所述问题对象和所述知识对象之间的对应关系以及所述知识对象和所述文档对象之间的对应关系,所述知识对象选自所述问题对象的一部分;返回所述目标文档。

【技术特征摘要】
1.一种信息检索方法,其特征在于,所述方法包括:接收输入的待解决问题;确定所述待解决问题所属的技术领域;根据预先建立的在所述技术领域的知识库,确定所述技术领域中与所述待解决问题相匹配的目标文档,其中,所述知识库中包括问题对象、知识对象、文档对象、所述问题对象和所述知识对象之间的对应关系以及所述知识对象和所述文档对象之间的对应关系,所述知识对象选自所述问题对象的一部分;返回所述目标文档。2.根据权利要求1所述的方法,其特征在于,所述与所述待解决问题相匹配的目标文档为解决所述待解决问题的目标文档;所述返回所述目标文档包括:返回所述目标文档的名称和/或返回所述目标文档中的内容。3.根据权利要求1所述的方法,其特征在于,所述确定所述技术领域中与所述待解决问题相匹配的技术文档包括:根据所述知识库中所述问题对象、所述知识对象以及所述问题对象和所述知识对象之间的对应关系,确定所述技术领域中与所述待解决问题类似的问题;确定每个所述类似的问题与所述待解决问题之间的相似度得分;基于所述相似度得分,以及每个所述类似的问题对应的目标文档,确定与所述待解决问题相匹配的目标文档。4.根据权利要求3所述的方法,其特征在于,每个所述类似的问题对应的目标文档作为候选文档,所述基于所述相似度得分以及每个所述类似的问题对应的目标文档,确定与所述待解决问题相匹配的目标文档包括:基于所述相似度得分,确定所述待解决问题与所述候选文档中的每一个的相似度;按照所述待解决问题与所述候选文档之间相似度从高到低的顺序选择一或多个候选文档作为与所述待解决问题相匹配的目标文档;其中,以如下方式确定所述待解决问题与所述候选文档中的每一个的相似度:q表示待解决问题,d表示一个候选文档,score(q,d)表示待解决问题q和候选文档d之间的相似度,#(d,C)表示d在C中出现的总次数,#(d,C0)表示d在C0中出现的次数,(q’i,d)∈C0表示d能解决在C0中的问题q’i,score(q’i,q)表示q’i与q的相似度得分;且C0表示问题日志C的子集,q’表示与待解决问题q类似的问题,且C0={(q′0,d′0),{(q′1,d′1),...,{q′m,d′m)},q’i表示第i个与q类似的问题,m表示与q类似的问题的总数,d’表示与q’对应的目标文档。5.根据权利要求1-4任一所述的方法,其特征在于,在确定目标文档之后,所述方法还包括:基于随机游走算法,计算所述待解决问题与所述知识库中的每一个文档对象的相似度;基于所述待解决问题与所述知识库中的每一个文档对象的相似度,对所述多个目标文档进行重排序。6.根据权利要求5所述的方法,其特征在于,所述基于随机游走算法,计算所述待解决问题与所述知识库中的每一个文档对象的相似度包括:选择所述待解决问题与所述文档对象之间的一或多个节点设置索引,其中,所述节点的索引表示该节点到所述知识库中的各个文档对象的相似度;基于为所述一或多个节点设置的所述索引,计算所述待解决问题与所述知识库中的每一个文档对象的相似度。7.根据权利要求6所述的方法,其特征在于,选择设置索引的节点包括:选择路径上的频繁节点设置索引,其中,频繁节点为入度和出度的乘积大于阈值的节点。8.一种信息检索装置,其特征在于...

【专利技术属性】
技术研发人员:杨硕邹磊
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1