The embodiment of the present invention proposes a method and device for automatically generating articles, which includes: determining the relationship between a group of entities, which includes more than two entities; obtaining more than two material articles corresponding to the relationship between the groups of entities; integrating more than two material articles acquired to generate relational articles for the relationships between the groups of entities. \u3002 The embodiment of the present invention can automatically generate relational articles and avoid being influenced by the subjectivity of the manual editor.
【技术实现步骤摘要】
自动生成文章的方法、装置、设备及存储介质
本专利技术涉及互联网
,尤其涉及一种自动生成文章的方法、装置、设备及存储介质。
技术介绍
关系类文章(CP文章)是指同时关于两个以上实体的文章,并且这两个以上实体存在一定的关系。实体可以理解为文章所涉及的人或事物,例如,人物A的名字即为一个实体。如果A和B分别为两个人物的名字,这两个人物获同一奖项,则实体A和实体B即为存在关系的实体。关系类文章本身具备可持续更新的特点,再加上其独有的热点性和话题性,使得关系类文章具有很高的吸引力。现有的关系类文章一般是由人工编辑的,由于编辑者的主观性,文章生成的效率较低且质量较差,难以满足需求。
技术实现思路
本专利技术实施例提供一种自动生成文章的方法及装置,以至少解决现有技术中的以上技术问题。第一方面,本专利技术实施例提供了一种自动生成文章方法,包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。在一种实施方式中,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;所述生成唯一实体集,包括:获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。在一种实施方式中,所述确定所述一组实体的关系,包括:根据所述一组实 ...
【技术保护点】
1.一种自动生成文章的方法,其特征在于,包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
【技术特征摘要】
1.一种自动生成文章的方法,其特征在于,包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。2.根据权利要求的1所述的方法,其特征在于,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;所述生成唯一实体集,包括:获取包含实体的搜索查询语句;从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。3.根据权利要求的1或2所述的方法,其特征在于,所述确定所述一组实体的关系,包括:根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;如果存在,则采用以下方式中的至少一种,确定所述一组实体的关系:获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。4.根据权利要求的1或2所述的方法,其特征在于,所述获取两篇以上对应所述一组实体的所述关系的素材文章之前,还包括:获取包含一组实体中各个实体的素材文章及所述一组实体的关系;确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。5.根据权利要求的1或2所述的方法,其特征在于,所述获取两篇以上对应所述一组实体的所述关系的素材文章,包括:针对对应所述一组实体的所述关系的各个素材文章,根据包含图片数、发表时间、点击次数、点赞次数中的至少一项,确定各个素材文章的质量;获取质量最高的两篇以上所述素材文章。6.根据权利要求的1或2所述的方法,其特征在于,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:生成各个所述素材文章的摘要和/或筛选各个所述素材文章中的图片;采用文章模板及文章话术,将所述摘要和/或所述图片进行整合,作为所述关系类文章的内容部分。7.根据权利要求的1或2所述的方法,其特征在于,所述将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章,包括:提取各个所述素材文章的标题;将各个标题采用文章标题话术进行整合,得到待选标题;将所述待选标题按照所述关系进行处理,得到所述关系类文章的标题。8.一种自动生成文章的装置,其特征在于,包括:实体关系确定模块,用于确定一组实体的关系,所述一组实体包括两个以上实体;素材获取模块,用于获取两篇以上对应所述一组实体...
【专利技术属性】
技术研发人员:卞东海,蒋帅,陈思姣,罗雨,李明,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。