主题短语生成方法、装置以及电子设备制造方法及图纸

技术编号:25042000 阅读:29 留言:0更新日期:2020-07-29 05:32
本申请公开了主题短语生成方法、装置以及电子设备,涉及知识图谱技术领域。具体实现方案为:获取待处理的文本集;针对文本集中的每个文本,根据主题生成策略集中的每个策略分别对文本进行处理,生成候选主题短语;主题生成策略集中包括以下策略中的任意一种或者多种:主题抽取策略、搜索短语召回策略、主题库召回策略、模型生成主题策略;根据每个文本对应的候选主题短语,生成候选主题短语集合,用户可以根据候选主题短语集合来确定适合写作的主题,候选主题短语集合中每个候选主题短语的词语较少且能够对主题进行确定性描述,从而提高主题获取效率,提高内容创作效率。

【技术实现步骤摘要】
主题短语生成方法、装置以及电子设备
本申请涉及数据处理
,具体涉及知识图谱
,尤其涉及主题短语生成方法、装置以及电子设备。
技术介绍
目前,在内容创作过程中,需要从大量文本素材中发掘出有价值的部分,以挖掘适合写作的主题。目前从大量文本素材中发掘有价值部分的方法有两种,一种是摘要抽取方法,但抽取的摘要一般词语较多,不够简单明确,需要人工二次归纳才能确定主题;另一种是关键词抽取方法,但抽取的关键词为独立的多个词,缺少对主题的确定性描述,从而使得用户需要对素材重新进行手动发掘,获取主题,从而降低了主题获取效率,降低了内容创作效率。
技术实现思路
提供了一种主题短语生成方法、装置以及电子设备。根据第一方面,提供了一种主题短语生成方法,包括:获取待处理的文本集;针对所述文本集中的每个文本,根据主题生成策略集中的每个策略分别对所述文本进行处理,生成候选主题短语;所述主题生成策略集中包括以下策略中的任意一种或者多种:主题抽取策略、搜索短语召回策略、主题库召回策略、模型生成主题策略;<br>根据每个文本对本文档来自技高网...

【技术保护点】
1.一种主题短语生成方法,其特征在于,包括:/n获取待处理的文本集;/n针对所述文本集中的每个文本,根据主题生成策略集中的每个策略分别对所述文本进行处理,生成候选主题短语;所述主题生成策略集中包括以下策略中的任意一种或者多种:主题抽取策略、搜索短语召回策略、主题库召回策略、模型生成主题策略;/n根据每个文本对应的候选主题短语,生成候选主题短语集合。/n

【技术特征摘要】
1.一种主题短语生成方法,其特征在于,包括:
获取待处理的文本集;
针对所述文本集中的每个文本,根据主题生成策略集中的每个策略分别对所述文本进行处理,生成候选主题短语;所述主题生成策略集中包括以下策略中的任意一种或者多种:主题抽取策略、搜索短语召回策略、主题库召回策略、模型生成主题策略;
根据每个文本对应的候选主题短语,生成候选主题短语集合。


2.根据权利要求1所述的方法,其特征在于,所述根据每个文本对应的候选主题短语,生成候选主题短语集合之后,还包括:
根据主题选择策略集中的每个策略分别对所述候选主题短语集合进行处理,获取参考主题短语;所述主题选择策略集中包括:基于长度的选择策略和基于语言模型的选择策略;
将所述参考主题短语确定为适合写作的主题短语。


3.根据权利要求1所述的方法,其特征在于,根据搜索短语召回策略对文本进行处理,包括:
获取文本对应的多个搜索短语,以及每个搜索短语的相关性分数;
将对应的相关性分数满足预设相关性分数阈值的搜索短语确定为所述文本的候选主题短语。


4.根据权利要求1所述的方法,其特征在于,根据模型生成主题策略对文本进行处理,包括:
获取所述文本的摘要;
将所述文本的摘要输入预设的主题识别模型,获取所述文本的候选主题短语。


5.根据权利要求4所述的方法,其特征在于,所述将所述文本的摘要输入预设的主题识别模型,获取所述文本的候选主题短语之前,还包括:
获取经过预训练的主题识别模型;
采用第一训练数据在第一学习率下对所述主题识别模型进行训练;所述第一训练数据包括:大于第一数量的第一训练样本;所述第一训练样本包括:摘要以及对应的候选主题短语;
采用第二训练数据在第二学习率下对所述主题识别模型进行训练,得到所述预设的主题识别模型;所述第二训练数据包括:大于第二数量的第二训练样本;所述第二训练样本包括:摘要以及对应的主题短语;所述第二学习率小于所述第一学习率,且所述第一学习率小于预设学习率阈值。


6.根据权利要求2所述的方法,其特征在于,所述候选主题短语集合包括:多个候选主题短语,以及每个候选主题短语的优先级;所述候选主题短语的优先级根据生成所述候选主题短语的主题生成策略的优先级确定;
根据基于长度的选择策略对所述候选主题短语集合进行处理,获取参考主题短语,包括:
获取所述候选主题短语集合中的第一候选主题短语子集;所述第一候选主题短语子集中的候选主题短语的长度位于预设长度范围内;
将所述第一候选主题短语子集中优先级最高的候选主题短语,确定为参考主题短语。


7.根据权利要求2所述的方法,其特征在于,根据基于语言模型的选择策略对所述候选主题短语集合进行处理,获取参考主题短语,包括:
针对所述候选主题短语集合中的每个候选主题短语,将所述候选主题短语输入所述语言模型,获取所述候选主题短语的困惑度;
将对应的困惑度最小的候选主题短语,确定为参考主题短语。


8.一种主题短语生成装置,其特征在于,包括:
获取模块,用于获取待处理的文本集;
生成模块,用于针对所述文本集中的每个文本...

【专利技术属性】
技术研发人员:盛广智郑烨翰蔡远俊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1