用于生成信息的方法和装置制造方法及图纸

技术编号:18398888 阅读:38 留言:0更新日期:2018-07-08 19:31
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:提取预设时间段内的搜索数据;从该搜索数据中确定出多个目标搜索句;确定各个目标搜索句中的实体的属性;对于该多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性。该实施方式实现了灵活的信息生成。

【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及用于生成信息的方法和装置。
技术介绍
在互联网搜索中,有一部分问答搜索可以用实体与属性相结合的形式进行描述。其中,实体可以是实体可以是表征概念、事物或者事件的信息。例如,“华盛顿”、“西雅图”、“海湾战争”、“宇宙大爆炸理论”、“刘某”等。属性是可以反映实体的特征或与实体有关的信息,例如,若实体为“关节炎”,则属性的实例可以包括“治疗”、“询价”等。为了满足这类问答需求,通常需要挖掘各个实体以及实体的属性。现有的方式通常是根据百科或者垂直网站挖掘实体及实体的属性,这种方案需要有权威的垂直网站,并且要求网站实体属性比较全面。现有的另一种方式通常根据实体所属垂类,人工定义实体的常见属性。然而,现有方式均无法从所挖掘的实体的属性中确定出目标属性(例如用户搜索次数较多或较为关心的热门属性、用户搜索次数较少或较不关心的冷门属性等)。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:提取预设时间段内的搜索数据;从搜索数据中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句;确定各个目标搜索句中的实体的属性;对于多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性。在一些实施例中,在基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性之后,该方法还包括:对于多个目标搜索句所涉及的每一个实体,确定该实体的目标属性的属性值,并将该实体的目标属性、该实体的目标属性的属性值存储至数据库中。在一些实施例中,从搜索数据中确定出多个目标搜索句,包括:对搜索数据中的搜索句进行去重处理,统计去重处理后的每一个搜索句在搜索数据中的搜索次数;从去重后的搜索句中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句。在一些实施例中,在提取预设时间段内的搜索数据之前,该方法还包括:从预置的历史搜索数据中确定出标准搜索句,其中,标准搜索句为由实体列表中的任一实体和与该实体对应的预置标准属性列表中的任一标准属性构成的搜索句;对于所确定的每一个标准搜索句,从历史搜索数据中确定出该标准搜索句的共现搜索句,将共现搜索句中的实体之外的内容确定为该标准搜索句中的标准属性的泛化属性,其中,共现搜索句为用户搜索后最后点击的搜索结果项对应的页面与用户使用该标准搜索句搜索后最后点击的搜索结果项对应的页面相同时所使用的搜索句。在一些实施例中,对于多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,包括:将各个目标搜索句中的实体的属性分别与相应的预置标准属性列表中的每一个标准属性和该标准属性的各个泛化属性进行匹配;对于多个目标搜索句所涉及的每一个实体,以每一个标准属性和该标准属性的泛化属性作为一类,按属性的匹配结果对包含该实体的目标搜索句进行聚类。在一些实施例中,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性,包括:确定聚类后的每一类中的目标搜索句的搜索次数之和;将所确定的搜索次数之和的最大值所对应的标准属性确定为该实体词的目标属性。第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:提取单元,配置用于提取预设时间段内的搜索数据;第一确定单元,配置用于从搜索数据中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句;第二确定单元,配置用于确定各个目标搜索句中的实体的属性;第三确定单元,配置用于对于多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性。在一些实施例中,该装置还包括:第四确定单元,配置用于对于多个目标搜索句所涉及的每一个实体,确定该实体的目标属性的属性值,并将该实体的目标属性、该实体的目标属性的属性值存储至数据库中。在一些实施例中,第一确定单元包括:去重模块,配置用于对搜索数据中的搜索句进行去重处理,统计去重处理后的每一个搜索句在搜索数据中的搜索次数;确定模块,配置用于从去重后的搜索句中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句。在一些实施例中,装置还包括:第五确定单元,配置用于从预置的历史搜索数据中确定出标准搜索句,其中,标准搜索句为由实体列表中的任一实体和与该实体对应的预置标准属性列表中的任一标准属性构成的搜索句;第六确定单元,配置用于对于所确定的每一个标准搜索句,从历史搜索数据中确定出该标准搜索句的共现搜索句,将共现搜索句中的实体之外的内容确定为该标准搜索句中的标准属性的泛化属性,其中,共现搜索句为用户搜索后最后点击的搜索结果项对应的页面与用户使用该标准搜索句搜索后最后点击的搜索结果项对应的页面相同时所使用的搜索句。在一些实施例中,第三确定单元包括:匹配模块,配置用于将各个目标搜索句中的实体的属性分别与相应的预置标准属性列表中的每一个标准属性和该标准属性的各个泛化属性进行匹配;聚类模块,配置用于对于多个目标搜索句所涉及的每一个实体,以每一个标准属性和该标准属性的泛化属性作为一类,按属性的匹配结果对包含该实体的目标搜索句进行聚类。在一些实施例中,第三确定单元包括:第一确定模块,配置用于确定聚类后的每一类中的目标搜索句的搜索次数之和;第二确定模块,配置用于将所确定的搜索次数之和的最大值所对应的标准属性确定为该实体词的目标属性。第三方面,本申请实施例提供了一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如用于生成信息的方法中任一实施例的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如用于生成信息的方法中任一实施例的方法。本申请实施例提供的用于生成信息的方法和装置,通过从所提取的预设时间段内的搜索数据中确定出多个目标搜索句,而后确定各个目标搜索句中的实体的属性,之后对于多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性,从而可以从所挖掘的实体的属性中确定出目标属性(例如用户搜索次数较多或较为关心的热门属性、用户搜索次数较少或较不关心的冷门属性等),实现了灵活的信息生成。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于生成信息的方法的一个实施例的流程图;图3是根据本申请的用于生成信息的方法的一个应用场景的示意图;图4是根据本申请的用于生成信息的方法的又一个实施例的流程图;图5是根据本申请的用于生成信息的装置的一个实施例的结构示意图;图6是适于用来实现本申请实施例的服务器的计算机系统的本文档来自技高网...

【技术保护点】
1.一种用于生成信息的方法,包括:提取预设时间段内的搜索数据;从所述搜索数据中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句;确定各个目标搜索句中的实体的属性;对于所述多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性。

【技术特征摘要】
1.一种用于生成信息的方法,包括:提取预设时间段内的搜索数据;从所述搜索数据中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句;确定各个目标搜索句中的实体的属性;对于所述多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性。2.根据权利要求1所述的用于生成信息的方法,其中,在所述基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性之后,所述方法还包括:对于所述多个目标搜索句所涉及的每一个实体,确定该实体的目标属性的属性值,并将该实体的目标属性、该实体的目标属性的属性值存储至数据库中。3.根据权利要求1所述的用于生成信息的方法,其中,所述从所述搜索数据中确定出多个目标搜索句,包括:对所述搜索数据中的搜索句进行去重处理,统计去重处理后的每一个搜索句在所述搜索数据中的搜索次数;从去重后的搜索句中确定出多个目标搜索句,其中,目标搜索句为包括预设的实体列表中的实体的搜索句。4.根据权利要求1所述的用于生成信息的方法,其中,在所述提取预设时间段内的搜索数据之前,所述方法还包括:从预置的历史搜索数据中确定出标准搜索句,其中,所述标准搜索句为由所述实体列表中的任一实体和与该实体对应的预置标准属性列表中的任一标准属性构成的搜索句;对于所确定的每一个标准搜索句,从所述历史搜索数据中确定出该标准搜索句的共现搜索句,将所述共现搜索句中的实体之外的内容确定为该标准搜索句中的标准属性的泛化属性,其中,所述共现搜索句为用户搜索后最后点击的搜索结果项对应的页面与用户使用该标准搜索句搜索后最后点击的搜索结果项对应的页面相同时所使用的搜索句。5.根据权利要求4所述的用于生成信息的方法,其中,所述对于所述多个目标搜索句所涉及的每一个实体,按包含该实体的目标搜索句中的属性对包含该实体的目标搜索句进行聚类,包括:将各个目标搜索句中的实体的属性分别与相应的预置标准属性列表中的每一个标准属性和该标准属性的各个泛化属性进行匹配;对于所述多个目标搜索句所涉及的每一个实体,以每一个标准属性和该标准属性的泛化属性作为一类,按属性的匹配结果对包含该实体的目标搜索句进行聚类。6.根据权利要求5所述的用于生成信息的方法,其中,所述基于聚类后的每一类中的目标搜索句的搜索次数之和,确定该实体的目标属性,包括:确定聚类后的每一类中的目标搜索句的搜索次数之和;将所确定的搜索次数之和的最大值所对应的标准属性确定为该实体词的目标属性。7.一种用于生成信息的装置,包括:提取单元,配置用于提取预设时间段内的搜索数据;第一确定单元,配置用于从所述搜索数据中确定出多个目标搜索句,...

【专利技术属性】
技术研发人员:郑杰鹏余淼杨仁凯张一麟吴家林
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1