基于自然语言的体育新闻写作方法、装置及电子设备制造方法及图纸

技术编号:24251982 阅读:27 留言:0更新日期:2020-05-22 23:48
本发明专利技术提供基于自然语言的体育新闻写作方法、装置及电子设备,所述方法包括步骤:获取待处理语料、事件集合、槽位及每一所述槽位对应的槽位取值;根据所述事件集合内每一事件、所述槽位及所述槽位取值,在所述语料中标注事件模板;对每一所述事件进行权重赋值;对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码;根据每一所述事件的所述权重,对所述事件和所述事件模板进行筛选;对筛选后的所述事件和所述事件模板进行匹配和填充,生成新闻内容;对所述新闻内容进行再处理,以得到最终的所述新闻内容。该装置采用上述方法,提升了文章句式的多样性,使得文章信息量最大化;实现高效自动撰写体育新闻文章,减少了人力成本投入。

Writing methods, devices and electronic devices of sports news based on natural language

【技术实现步骤摘要】
基于自然语言的体育新闻写作方法、装置及电子设备
本专利技术属于自然语言处理
,具体涉及基于自然语言的体育新闻写作方法、装置及电子设备。
技术介绍
现有的模板遍历匹配策略在对事件数据和模板进行匹配时,需要逐一比较模板中槽位和槽位个数,直到找到合适的模板。比如进球事件的一条数据为:{ORG_NEU:纽卡斯尔联,PER_ACT:舍尔,EVEINF_LOC_FROM:禁区外中央,EVEINF_BODY:右脚,EVEINF_LOC_TO:球门右上角},这条数据中包含五个槽位,当匹配模板时,假设进球事件有如下部分模板:{ORG_NEU}收获进球!{PER_ACT}射门,球从{EVEINF_LOC_TO}飞进球门{ORG_NEU}收获进球!{PER_ACT}{EVEINF_LOC_FROM}{EVEINF_BODY}射门,皮球划出一道漂亮的弧线从{EVEINF_LOC_TO}飞进球门。遍历每个模板,根据正则匹配计算当前模板中包含的槽位集合,以及每个槽位出现的次数信息,如果当前模板的槽位集合是数据中槽位集合的子集,则成功匹配到一个模板。可以发现,遍历策略每次需要计算模板的槽位信息,再和数据的槽位信息进行集合运算比较耗时,因为线上系统有性能要求,所以往往匹配成功即返回,不会去匹配所有的模板。这样会带来另一个问题,通常成功匹配到的第一个符合条件的模板并不是最优的模板,即槽位种类和槽位个数并没有满足最大化要求。比如上面,匹配第一个模板时就能成功匹配,但是采用第一个模板会导致EVEINF_LOC_FROM和EVEINF_BODY信息不会被填充,进而生成的文章信息量较少。所以,遍历匹配策略不仅效率低,匹配结果的多样性也较差。
技术实现思路
本申请的目的之一在于针对现有技术的不足之处,提供一种基于自然语言的体育新闻写作方法,以提升文章句式的多样性,使得文章信息量最大化,所述方法包括步骤:获取待处理语料、事件集合、槽位及每一所述槽位对应的槽位取值;根据所述事件集合内每一事件、所述槽位及所述槽位取值,在所述语料中标注事件模板;对每一所述事件进行权重赋值;对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码;根据每一所述事件的所述权重,对所述事件和所述事件模板进行筛选;对筛选后的所述事件和所述事件模板进行匹配和填充,生成新闻内容;对所述新闻内容进行再处理,以得到最终的所述新闻内容。优选地,所述获取事件集合、槽位及每一所述槽位对应的槽位取值包括步骤:获取预设数量的体育新闻语料;对所述体育新闻语料进行处理,以获取所有的所述事件、所述槽位和每一所述槽位对应的所述槽位取值;将所有的所述事件放入同一集合内,以得到所述事件集合。优选地,在所述对所述体育新闻语料进行处理,以获取所有的所述事件、所述槽位和每一所述槽位对应的所述槽位取值之后还包括步骤:判断每一所述事件、每一所述槽位和每一所述槽位取值是否符合预设范围;若符合,保留所述事件、所述槽位和所述槽位取值;若不符合,删除所述事件、所述槽位或所述槽位取值。优选地,所述事件包括标题、摘要和正文。优选地,所述对每一所述事件进行权重赋值包括步骤:根据所有的所述事件,对所述语料进行划分,以得到若干部分;针对每一所述事件,构建所述事件与每一所述部分之间的映射;针对每一所述映射,设置所述映射相对应的所述事件的权重。优选地,所述对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码包括步骤:获取待编码的所述事件模板和所述事件;根据正则匹配统计所述事件模板和所述事件中所述槽位的种类和个数;确定所有的所述槽位总个数m和每个所述事件模板中所述槽位出现的最大次数n;根据所述槽位出现的最大次数,确定每个所述槽位需分配n个二进制位以进行表示;其中,n为64的约数;根据所述槽位总数和每个所述槽位分配的二进制位个数,确定采用的编码类型long类型和编码个数x;其中,x=[(m*n)/64]+1;遍历所述事件模板中每个所述槽位,对当前所述槽位的槽位个数进行二进制编码;根据当前所述槽位的索引地址i,确定当前所述槽位在第y个所述long类型上进行编码;其中,y=i/(64/n)+1;将所述槽位个数的二进制表示向左移动p次;其中,p=(i-(y-1)*(64/n))*n;将所有的所述long类型的编码拼接,以得到最终的所述编码。优选地,所述对所述事件进行筛选包括步骤:获取每一所述事件的对应权重;将每一所述权重逐一与预设阈值比较;保留所述权重大于所述预设阈值所对应的所述事件,剔除其他所有的所述事件。优选地,所述对所述事件模板进行筛选包括步骤:获取筛选后的所述事件及其对应的所述编码以及所述事件中所有所述事件模板对应的所述编码;挑选所述槽位的个数最多的一个或多个所述事件模板作为候选事件模板模板;从所述候选事件模板中随机选择一个所述事件模板作为待填充的所述事件模板。本申请的目的之二在于针对现有技术的不足之处,提供一种基于自然语言的体育新闻写作装置,以提升文章句式的多样性,使得文章信息量最大化,所述装置包括:获取单元,用于获取待处理语料、事件集合、槽位及每一所述槽位对应的槽位取值;事件模板标注单元,用于根据所述事件集合内每一事件、所述槽位及所述槽位取值,在所述语料中标注事件模板;权重赋值单元,用于对每一所述事件进行权重赋值;编码单元,用于对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码;筛选单元,用于根据每一所述事件的所述权重,对所述事件和所述事件模板进行筛选;新闻内容生成单元,用于对筛选后的所述事件和所述事件模板进行匹配和填充,生成新闻内容;新闻内容处理单元,用于对所述新闻内容进行再处理,以得到最终的所述新闻内容。本申请的目的之三在于针对现有技术的不足之处,提供一种电子设备,以提升文章句式的多样性,使得文章信息量最大化,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一所述体育新闻写作方法。本申请提供的基于自然语言的体育新闻写作方法、装置及电子设备,可以根据预先对大量体育新闻分析后提取出的事件模板,以及用户自身对事件的权重赋值而自动生成新闻内容,一方面提升了文章句式的多样性,使得文章信息量最大化;另一方面实现高效自动撰写体育新闻文章,减少了人力成本投入。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲本文档来自技高网
...

【技术保护点】
1.一种基于自然语言的体育新闻写作方法,其特征在于,所述方法包括步骤:/n获取待处理语料、事件集合、槽位及每一所述槽位对应的槽位取值;/n根据所述事件集合内每一事件、所述槽位及所述槽位取值,在所述语料中标注事件模板;/n对每一所述事件进行权重赋值;/n对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码;/n根据每一所述事件的所述权重,对所述事件和所述事件模板进行筛选;/n对筛选后的所述事件和所述事件模板进行匹配和填充,生成新闻内容;/n对所述新闻内容进行再处理,以得到最终的所述新闻内容。/n

【技术特征摘要】
1.一种基于自然语言的体育新闻写作方法,其特征在于,所述方法包括步骤:
获取待处理语料、事件集合、槽位及每一所述槽位对应的槽位取值;
根据所述事件集合内每一事件、所述槽位及所述槽位取值,在所述语料中标注事件模板;
对每一所述事件进行权重赋值;
对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码;
根据每一所述事件的所述权重,对所述事件和所述事件模板进行筛选;
对筛选后的所述事件和所述事件模板进行匹配和填充,生成新闻内容;
对所述新闻内容进行再处理,以得到最终的所述新闻内容。


2.根据权利要求1所述的体育新闻写作方法,其特征在于,所述获取事件集合、槽位及每一所述槽位对应的槽位取值包括步骤:
获取预设数量的体育新闻语料;
对所述体育新闻语料进行处理,以获取所有的所述事件、所述槽位和每一所述槽位对应的所述槽位取值;
将所有的所述事件放入同一集合内,以得到所述事件集合。


3.根据权利要求2所述的体育新闻写作方法,其特征在于,在所述对所述体育新闻语料进行处理,以获取所有的所述事件、所述槽位和每一所述槽位对应的所述槽位取值之后还包括步骤:
判断每一所述事件、每一所述槽位和每一所述槽位取值是否符合预设范围;
若符合,保留所述事件、所述槽位和所述槽位取值;
若不符合,删除所述事件、所述槽位或所述槽位取值。


4.根据权利要求1所述的体育新闻写作方法,其特征在于,所述事件包括标题、摘要和正文。


5.根据权利要求1所述的体育新闻写作方法,其特征在于,所述对每一所述事件进行权重赋值包括步骤:
根据所有的所述事件,对所述语料进行划分,以得到若干部分;
针对每一所述事件,构建所述事件与每一所述部分之间的映射;
针对每一所述映射,设置所述映射相对应的所述事件的权重。


6.根据权利要求1所述的体育新闻写作方法,其特征在于,所述对每一所述事件及所述事件模板中所述槽位的种类和个数进行编码包括步骤:
获取待编码的所述事件模板和所述事件;
根据正则匹配统计所述事件模板和所述事件中所述槽位的种类和个数;
确定所有的所述槽位总个数m和每个所述事件模板中所述槽位出现的最大次数n;
根据所述槽位出现的最大次数,确定每个所述槽位需分配n个二进制位以进行表示;其中,n为64的约数;
根据...

【专利技术属性】
技术研发人员:周金娟沈艺倪合强齐康梁诗雯
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1