自动生成文章的方法、装置、设备及存储介质制造方法及图纸

技术编号:20916480 阅读:15 留言:0更新日期:2019-04-20 09:40
本发明专利技术实施例提出一种自动生成文章的方法和装置,其中方法包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。本发明专利技术实施例能够自动生成关系类文章,避免受到人工编辑者主观性的影响。

Method, Device, Equipment and Storage Medium for Automatically Generating Articles

The embodiment of the present invention proposes a method and device for automatically generating articles, which includes: determining the relationship between a group of entities, which includes more than two entities; obtaining more than two material articles corresponding to the relationship between the groups of entities; integrating more than two material articles acquired to generate relational articles for the relationships between the groups of entities. \u3002 The embodiment of the present invention can automatically generate relational articles and avoid being influenced by the subjectivity of the manual editor.

【技术实现步骤摘要】
自动生成文章的方法、装置、设备及存储介质
本专利技术涉及互联网
,尤其涉及一种自动生成文章的方法、装置、设备及存储介质。
技术介绍
关系类文章(CP文章)是指同时关于两个以上实体的文章,并且这两个以上实体存在一定的关系。实体可以理解为文章所涉及的人或事物,例如,人物A的名字即为一个实体。如果A和B分别为两个人物的名字,这两个人物获同一奖项,则实体A和实体B即为存在关系的实体。关系类文章本身具备可持续更新的特点,再加上其独有的热点性和话题性,使得关系类文章具有很高的吸引力。现有的关系类文章一般是由人工编辑的,由于编辑者的主观性,文章生成的效率较低且质量较差,难以满足需求。
技术实现思路
本专利技术实施例提供一种自动生成文章的方法及装置,以至少解决现有技术中的以上技术问题。第一方面,本专利技术实施例提供了一种自动生成文章方法,包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。在一种实施方式中,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;所述生成唯一实体集,包括:获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。在一种实施方式中,所述确定所述一组实体的关系,包括:根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。在一种实施方式中,所述获取两篇以上对应所述一组实体的所述关系的素材文章之前,还包括:获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。在一种实施方式中,所述获取两篇以上对应所述一组实体的所述关系的素材文章,包括:针对对应所述一组实体的所述关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。在一种实施方式中,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:生成各个所述素材文章的摘要和/或筛选各个所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为所述关系类文章的内容部分。在一种实施方式中,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。第二方面,本专利技术实施例还提出一种自动生成文章的装置,包括:实体关系确定模块,用于确定一组实体的关系,所述一组实体包括两个以上实体;素材获取模块,用于获取两篇以上对应所述一组实体的所述关系的素材文章;文章生成模块,用于将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。在一种实施方式中,还包括:唯一实体集生成模块,用于获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集;所述实体关系确定模块,还用于从所述唯一实体集中获取一组实体。在一种实施方式中,所述实体关系确定模块包括:判断子模块,用于根据一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则指示确定子模块确定所述一组实体的关系;确定子模块,用于根据所述判断子模块的指示,采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。在一种实施方式中,还包括:素材文章标签设置模块,用于获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。在一种实施方式中,所述素材获取模块,用于:针对对应一组实体的关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。在一种实施方式中,所述文章生成模块包括内容生成子模块;所述内容生成子模块,用于生成所述素材文章的摘要和/或筛选所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为关系类文章的内容部分。在一种实施方式中,所述文章生成模块包括标题生成子模块;所述标题生成子模块,用于提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。第三方面,本专利技术实施例提供了一种自动生成文章的设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述自动生成文章的设备的结构中包括处理器和存储器,所述存储器用于存储支持所述自动生成文章的设备执行上述自动生成文章的方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储人设备所用的计算机软件指令,其包括用于执行上述自动生成文章的方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:本专利技术实施例提出的自动生成文章的方法和装置,通过自动确定实体及实体之间的关系,获取对应该组实体该关系的素材文章,并将素材文章进行整合,能够生成针对该组实体该关系的关系类文章。通过这种方式,本专利技术实施例能够高效、高质量地生成关系类文章,避免受到人工编辑者主观性的影响。上述概述仅仅是为了说明书的目的,并不意图以任何方本文档来自技高网...

【技术保护点】
1.一种自动生成文章的方法,其特征在于,包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。

【技术特征摘要】
1.一种自动生成文章的方法,其特征在于,包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。2.根据权利要求的1所述的方法,其特征在于,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;所述生成唯一实体集,包括:获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。3.根据权利要求的1或2所述的方法,其特征在于,所述确定所述一组实体的关系,包括:根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。4.根据权利要求的1或2所述的方法,其特征在于,所述获取两篇以上对应所述一组实体的所述关系的素材文章之前,还包括:获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。5.根据权利要求的1或2所述的方法,其特征在于,所述获取两篇以上对应所述一组实体的所述关系的素材文章,包括:针对对应所述一组实体的所述关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。6.根据权利要求的1或2所述的方法,其特征在于,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:生成各个所述素材文章的摘要和/或筛选各个所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为所述关系类文章的内容部分。7.根据权利要求的1或2所述的方法,其特征在于,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。8.一种自动生成文章的装置,其特征在于,包括:实体关系确定模块,用于确定一组实体的关系,所述一组实体包括两个以上实体;素材获取模块,用于获取两篇以上对应所述一组实体...

【专利技术属性】
技术研发人员:卞东海蒋帅陈思姣罗雨李明
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1