The application embodiment discloses a method and device for acquiring information. The specific implementation of this method includes: extracting at least one structure key word and at least one content keyword from the received input information, in which the structure key words are used to find file contents corresponding to the file structure in the file, and the content key words are used to query the contents of the file content corresponding to the structure key words. At least one of the above structural keywords is introduced into the pre trained position query model to obtain at least one pending file content of the corresponding structure key words. The above location query model is used to represent the corresponding relationship between the structural key words and the contents of the pending files; it will include at least one of the above key words. The content of the pending file is used as the target information. The implementation method improves the accuracy and effectiveness of obtaining information.
【技术实现步骤摘要】
用于获取信息的方法及装置
本申请实施例涉及数据处理
,具体涉及计算机
,尤其涉及用于获取信息的方法及装置。
技术介绍
随着信息技术的发展,海量的数据通过多种方式在用户的终端设备之间传输,极大地提高了用户获取信息的效率。用户在获取信息前,通常首先需要通过与需要的信息相关的关键词等进行信息搜索获取到搜索信息;然后再从搜索信息中挑选需要的信息。
技术实现思路
本申请实施例的目的在于提出了用于获取信息的方法及装置。第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将上述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,上述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含上述至少一个内容关键词的待处理文件内容作为目标信息。在一些实施例中,上述方法包括构建位置查询模型的步骤,上述构建位置查询模型的步骤包括:将历史文件按照文件类型进行划分,得到至少一种文件类型的文件集合;对于上述至少一种文件类型的文件集合中的每一个文件集合,获取该文件集合中文件的结构信息,从结构信息中提取结构关键词,上述结构信息用于对文件的文件内容进行划分;利用机器学习方法,将结构关键词作为输入,将与结构关键词对应的文件内容作为输出,训练得到位置查询模型。在一些实施例中,上述获取该文件类型的文件的结构信息,包括:若与文件类型对应的文件没有结构信息, ...
【技术保护点】
1.一种用于获取信息的方法,其特征在于,所述方法包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将所述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,所述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含所述至少一个内容关键词的待处理文件内容作为目标信息。
【技术特征摘要】
1.一种用于获取信息的方法,其特征在于,所述方法包括:从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应的文件内容中查询目标信息;将所述至少一个结构关键词导入预先训练的位置查询模型,得到对应结构关键词的至少一个待处理文件内容,所述位置查询模型用于表征结构关键词与待处理文件内容之间的对应关系;将包含所述至少一个内容关键词的待处理文件内容作为目标信息。2.根据权利要求1所述的方法,其特征在于,所述方法包括构建位置查询模型的步骤,所述构建位置查询模型的步骤包括:将历史文件按照文件类型进行划分,得到至少一种文件类型的文件集合;对于所述至少一种文件类型的文件集合中的每一个文件集合,获取该文件集合中文件的结构信息,从结构信息中提取结构关键词,所述结构信息用于对文件的文件内容进行划分;利用机器学习方法,将结构关键词作为输入,将与结构关键词对应的文件内容作为输出,训练得到位置查询模型。3.根据权利要求2所述的方法,其特征在于,所述获取该文件类型的文件的结构信息,包括:若与文件类型对应的文件没有结构信息,则为该文件类型对应的文件设置结构信息。4.根据权利要求2所述的方法,其特征在于,所述构建位置查询模型的步骤包括:通过文件类型和结构关键词建立结构关键词查询表。5.根据权利要求4所述的方法,其特征在于,所述从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词包括:通过待处理输入信息中的词条组成词条集合;将所述词条集合中包含在所述结构关键词查询表中的词条作为结构关键词。6.一种用于获取信息的装置,其特征在于,所述装置包括:关键词提取单元,用于从接收的待处理输入信息中提取至少一个结构关键词和至少一个内容关键词,其中,结构关键词用于查找文件中对应文件结构的文件内容,内容关键词用于从结构关键词对应...
【专利技术属性】
技术研发人员:孙飞,刘明浩,邓射卫,韩超,朱翰闻,张发恩,郭江亮,唐进,尹世明,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。