一种标题生成方法、设备及计算机可读存储介质技术

技术编号:24996874 阅读:39 留言:0更新日期:2020-07-24 17:59
本发明专利技术提供了一种标题生成方法、设备及计算机可读存储介质;该方法包括:获取待生成标题的词条数据;从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合;根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到与每个子词条数据对应的标题集合;针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成;其中,搜索热门度表征了候选标题与用户搜索习惯的贴合程度。通过本发明专利技术,能够提高针对专业医疗词典的搜索效果。

【技术实现步骤摘要】
一种标题生成方法、设备及计算机可读存储介质
本专利技术涉及互联网技术,尤其涉及一种标题生成方法、设备及计算机可读存储介质。
技术介绍
医疗百科词典为用户提供了较为专业、权威的医疗知识,使得用户可以方便、快捷地了解健康知识和疾病的介绍。相关技术中,用户在查询健康知识或是疾病介绍时,一般是在医疗百科词典的搜索页面中直接输入自己所要查询的标题,以得到健康知识或疾病介绍,即得到相对应的搜索结果。然而,医疗百科词典中的各个词条的标题都是专业人士编辑的,标题专业化程度较强,用户在搜索时所输入的标题则较为口语化,而口语化的标题和专业的标题在语义上可能存在差异,换句话说,医疗百科词典中的各个词条的标题与用户的搜索习惯的贴合程度太低,这样导致专业的词条内容被用户搜索到的几率较小,从而使得针对专业医疗词条的搜索效果较差。
技术实现思路
本专利技术实施例提供一种标题生成方法、设备及计算机可读存储介质,能够提高针对专业医疗词条的搜索效果。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种标题生成方法,包括:获取待生成标题的词条数据;其中,所述待生成标题的词条数据中包括至少一个子词条数据;从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和所述候选标题所对应的信息内容;根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的候选标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合;针对所述标题集合中的每个候选标题计算出搜索热门度,根据所述搜索热门度从所述标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成;其中,所述搜索热门度表征了候选标题与用户搜索习惯的贴合程度。本专利技术实施例提供一种标题生成设备,包括:存储器,用于存储可执行标题生成指令;处理器,用于执行所述存储器中存储的可执行标题生成指令时,实现本专利技术实施例提供的标题生成方法。本专利技术实施例提供一种计算机可读存储介质,存储有可执行标题生成指令,用于引起处理器执行时,实现本专利技术实施例提供的标题生成方法。本专利技术实施例具有以下有益效果:本专利技术实施例中,标题生成设备能够获取待生成标题的词条数据,并从标题信息数据库中,针对待生成标题的词条数据提取到多个标题内容组合,然后根据多个标题内容组合中的信息内容,将多个标题内容组合中的候选标题与至少一个子词条数据中的每个子词条数据进行匹配,得到每个子词条数据对应的标题集合,接着,标题生成设备针对标题集合中的每个候选标题计算出搜索热门度,根据搜索热门度从标题集合中为每个子词条数据选择出标题,完成针对待生成标题的词条数据的标题生成过程。如此,能够针对待生成标题的词条数据中的每个子词条数据提取到候选标题,然后根据候选标题的搜索热门度,选择出最贴合用户的搜索习惯的候选标题,作为每个子词条数据最终的标题,使得专业的词条数据拥有符合用户搜索习惯的标题,从而使得专业的词条数据更容易被用户搜索到,提高了针对专业词条的搜索效果。附图说明图1示出了相关技术中关于小儿厌食症的日常类型的子卡片的示意图;图2是本专利技术实施例提供的标题生成系统100的一个可选的架构示意图;图3是本专利技术实施例提供的标题生成设备200的结构示意图;图4是本专利技术实施例提供的标题生成方法的一个可选的流程示意图一;图5是本专利技术实施例提供的待生成标题的词条数据的示意图;图6是本专利技术实施例提供的标题内容组合的示意图;图7是本专利技术实施例提供的标题生成方法的一个可选的流程示意图二;图8是本专利技术实施例提供的对未分类的子词条数据进行分类的示意图;图9是本专利技术实施例提供的显示目标标题和目标标题对应的子词条数据的示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本专利技术实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本专利技术实施例的目的,不是旨在限制本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)词条数据,是词典的组成单元,是指针对某个字、词,或是由字和词组成的短语的释义或是说明。例如,在医疗词典中,“感冒”就可以是一个词条,在该词条中,有针对感冒的病因的解释说明,有针对感冒的日常保健的介绍等。2)子词条数据,可以理解为词条数据中的子卡片。在词条数据中,常常针对同一个主题具有不同的类型、不同角度的说明,子词条数据指的就是词条数据中针对各个类型、各个角度的说明。例如,在医疗词典中,每个词条数据通常分有概述、病因、症状以及日常保健等解释类型,以便于从各个角度来对词条数据的主题进行说明。例如,在感冒词条中,通常会从感冒的病因、感冒的症状以及感冒的日常保健等角度来进行说明,以使得用户能够从感冒词条的各个子词条数据中获取关于感冒的各种知识。3)搜索热门度,用于表征某个标题是否热门,是否为用户所常用的标题。一般来说,标题的搜索热门度高,说明该标题经常被用户所使用,也即有较多的用户使用该标题来搜索词条内容。4)标题类型,用来说明标题用来搜索词条数据中的哪种子词条数据的,也即,说明标题是与哪个类型的子词条数据相对应。例如,若是用户使用属于“日常”这一标题类型的某个标题进行搜索,则说明用户想要搜索某个词条数据下的“日常保健”子词条数据。5)标题内容组合,表征搜索引擎根据搜索主题找到的标题,以及标题所对应的详细信息内容。例如,当搜索主题是“感冒的症状”时,搜索引擎会搜索出多个标题,例如“感冒的症状有哪些”,“感冒的表现”等,此时,每个标题以及其所对应的详细信息内容,就构成了一个标题内容组合。医疗词典为用户提供了较为专业、权威的医疗知识,使得用户在日常生活中可以方便、快捷地获取并了解健康知识,以及一些疾病的介绍。在相关技术中,用户在具有查询健康知识或是疾病介绍的需求时,可以是在医疗词典的搜索界面中直接输入自己所要查询的标题,然后搜索引擎会根据用户键入的标题来搜索相应的内容,将所得到的搜索结果反馈给用户。...

【技术保护点】
1.一种标题生成方法,其特征在于,包括:/n获取待生成标题的词条数据;其中,所述待生成标题的词条数据中包括至少一个子词条数据;/n从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和所述候选标题所对应的信息内容;/n根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的候选标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合;/n针对所述标题集合中的每个候选标题计算出搜索热门度,根据所述搜索热门度从所述标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成;其中,所述搜索热门度表征了候选标题与用户搜索习惯的贴合程度。/n

【技术特征摘要】
1.一种标题生成方法,其特征在于,包括:
获取待生成标题的词条数据;其中,所述待生成标题的词条数据中包括至少一个子词条数据;
从标题信息数据库中,针对所述待生成标题的词条数据提取到多个标题内容组合;其中,标题内容组合中包含有候选标题和所述候选标题所对应的信息内容;
根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的候选标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合;
针对所述标题集合中的每个候选标题计算出搜索热门度,根据所述搜索热门度从所述标题集合中为所述每个子词条数据选择出标题,完成针对所述待生成标题的词条数据的标题生成;其中,所述搜索热门度表征了候选标题与用户搜索习惯的贴合程度。


2.根据权利要求1所述的方法,其特征在于,所述每个子词条数据都有其所属的类型;所述根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的候选标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合,包括:
对所述多个标题内容组合的信息内容进行解析,得到所述多个标题内容组合的信息内容所属的类型,从而得到与所述信息内容相对应的各个候选标题所属的标题类型;
利用所述标题类型和所述每个子词条数据的类型,对所述各个候选标题和所述每个子词条数据进行匹配,得到与所述每个子词条数据对应的一个或多个匹配候选标题;
利用所述一个或多个匹配候选标题组成所述标题集合。


3.根据权利要求2所述的方法,其特征在于,所述利用所述标题类型和所述每个子词条数据的类型,对所述各个候选标题和所述每个子词条数据进行匹配,得到与所述每个子词条数据对应的一个或多个匹配候选标题,包括:
对所述每个子词条数据的类型和所述标题类型进行匹配,将与所述每个子词条数据的类型匹配上的标题类型作为匹配标题类型;
挑选出所述各个候选标题中属于所述匹配标题类型的候选标题,得到所述一个或多个匹配候选标题。


4.根据权利要求2或3所述的方法,其特征在于,在所述获取待生成标题的词条数据之后,所述根据所述多个标题内容组合中的信息内容,将所述多个标题内容组合中的标题与所述至少一个子词条数据中的每个子词条数据进行匹配,得到与所述每个子词条数据对应的标题集合之前,所述方法还包括:
将所述至少一个子词条数据中未分类的子词条数据的每个字符进行编码,得到字符编码结果;
针对所述字符编码结果进行语序特征挖掘,得到所述未分类的子词条数据的特征向量;
对所述特征向量进行分类,得到所述未分类的子词条数据的类型,从而得到所述每个子词条数据的类型。

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1