用于获取信息的方法及装置制造方法及图纸

技术编号:18458853 阅读:22 留言:0更新日期:2018-07-18 12:43
本申请实施例公开了用于获取信息的方法及装置。该方法的一具体实施方式包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将上述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,上述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含上述至少一个内容关键词的待处理文件内容作为目标信息。该实施方式提高了获取信息的准确性和有效性。

The method and device for obtaining information

The application embodiment discloses a method and device for acquiring information. The specific implementation of this method includes: extracting at least one structure key word and at least one content keyword from the received input information, in which the structure key words are used to find file contents corresponding to the file structure in the file, and the content key words are used to query the contents of the file content corresponding to the structure key words. At least one of the above structural keywords is introduced into the pre trained position query model to obtain at least one pending file content of the corresponding structure key words. The above location query model is used to represent the corresponding relationship between the structural key words and the contents of the pending files; it will include at least one of the above key words. The content of the pending file is used as the target information. The implementation method improves the accuracy and effectiveness of obtaining information.

【技术实现步骤摘要】
用于获取信息的方法及装置
本申请实施例涉及数据处理
,具体涉及计算机
,尤其涉及用于获取信息的方法及装置。
技术介绍
随着信息技术的发展,海量的数据通过多种方式在用户的终端设备之间传输,极大地提高了用户获取信息的效率。用户在获取信息前,通常首先需要通过与需要的信息相关的关键词等进行信息搜索获取到搜索信息;然后再从搜索信息中挑选需要的信息。
技术实现思路
本申请实施例的目的在于提出了用于获取信息的方法及装置。第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将上述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,上述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含上述至少一个内容关键词的待处理文件内容作为目标信息。在一些实施例中,上述方法包括构建位置查询模型的步骤,上述构建位置查询模型的步骤包括:将历史文件按照文件类型进行划分,得到至少一种文件类型的文件集合;对于上述至少一种文件类型的文件集合中的每一个文件集合,获取该文件集合中文件的结构信息,从结构信息中提取结构关键词,上述结构信息用于对文件的文件内容进行划分;利用机器学习方法,将结构关键词作为输入,将与结构关键词对应的文件内容作为输出,训练得到位置查询模型。在一些实施例中,上述获取该文件类型的文件的结构信息,包括:若与文件类型对应的文件没有结构信息,则为该文件类型对应的文件设置结构信息。在一些实施例中,上述构建位置查询模型的步骤包括:通过文件类型和结构关键词建立结构关键词查询表。在一些实施例中,上述从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词包括:通过待处理输入信息中的词条组成词条集合;将上述词条集合中包含在上述结构关键词查询表中的词条作为结构关键词。第二方面,本申请实施例提供了一种用于获取信息的装置,该装置包括:关键词提取单元,用于从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;待处理文件内容获取单元,用于将上述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,上述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;目标信息筛选单元,用于将包含上述至少一个内容关键词的待处理文件内容作为目标信息。在一些实施例中,上述装置包括位置查询模型构建单元,用于构建位置查询模型,上述位置查询模型构建单元包括:文件类型划分子单元,用于将历史文件按照文件类型进行划分,得到至少一种文件类型的文件集合;结构关键词提取子单元,用于对于上述至少一种文件类型的文件集合中的每一个文件集合,获取该文件集合中文件的结构信息,从结构信息中提取结构关键词,上述结构信息用于对文件的文件内容进行划分;位置查询模型构建子单元,用于利用机器学习方法,将结构关键词作为输入,将与结构关键词对应的文件内容作为输出,训练得到位置查询模型。在一些实施例中,上述结构关键词提取子单元包括:若与文件类型对应的文件没有结构信息,则为该文件类型对应的文件设置结构信息。在一些实施例中,上述位置查询模型构建单元包括:通过文件类型和结构关键词建立结构关键词查询表。在一些实施例中,上述关键词提取单元包括:词条集合构建子单元,用于通过待处理输入信息中的词条组成词条集合;结构关键词提取子单元,用于将上述词条集合中包含在上述结构关键词查询表中的词条作为结构关键词。第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述第一方面的用于获取信息的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述第一方面的用于获取信息的方法。本申请实施例提供的用于获取信息的方法及装置,首先从待处理输入信息中提取至少一个结构关键词和至少一个内容关键词;之后,将至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容;最后,将包含内容关键词的待处理文件内容作为目标信息,提高了获取信息的准确性和有效性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于获取信息的方法的一个实施例的流程图;图3是根据本申请的用于获取信息的方法的一个应用场景的示意图;图4是根据本申请的用于获取信息的装置的一个实施例的结构示意图;图5是适于用来实现本申请实施例的终端设备的系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请实施例的用于获取信息的方法或用于获取信息的装置的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、信息查询应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持信息查询的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103发来的待处理输入信息包含的结构关键词和内容关键词进行对应的信息搜索的服务器。服务器可以对接收到的待处理输入信息等数据进行分析等处理,并将获取到的对应的目标信息发送给终端设备101、102、103。需要说明的是,本申请实施例所提供的用于获取信息的方法一般由服务器105执行,相应地,用于获取信息的装置一般设置于服务器105中。需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务本文档来自技高网...

【技术保护点】
1.一种用于获取信息的方法,其特征在于,所述方法包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将所述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,所述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含所述至少一个内容关键词的待处理文件内容作为目标信息。

【技术特征摘要】
1.一种用于获取信息的方法,其特征在于,所述方法包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将所述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,所述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含所述至少一个内容关键词的待处理文件内容作为目标信息。2.根据权利要求1所述的方法,其特征在于,所述方法包括构建位置查询模型的步骤,所述构建位置查询模型的步骤包括:将历史文件按照文件类型进行划分,得到至少一种文件类型的文件集合;对于所述至少一种文件类型的文件集合中的每一个文件集合,获取该文件集合中文件的结构信息,从结构信息中提取结构关键词,所述结构信息用于对文件的文件内容进行划分;利用机器学习方法,将结构关键词作为输入,将与结构关键词对应的文件内容作为输出,训练得到位置查询模型。3.根据权利要求2所述的方法,其特征在于,所述获取该文件类型的文件的结构信息,包括:若与文件类型对应的文件没有结构信息,则为该文件类型对应的文件设置结构信息。4.根据权利要求2所述的方法,其特征在于,所述构建位置查询模型的步骤包括:通过文件类型和结构关键词建立结构关键词查询表。5.根据权利要求4所述的方法,其特征在于,所述从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词包括:通过待处理输入信息中的词条组成词条集合;将所述词条集合中包含在所述结构关键词查询表中的词条作为结构关键词。6.一种用于获取信息的装置,其特征在于,所述装置包括:关键词提取单元,用于从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应...

【专利技术属性】
技术研发人员:孙飞刘明浩邓射卫韩超朱翰闻张发恩郭江亮唐进尹世明
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1