使用实时数据生成体育赛事战报的方法技术

技术编号:21090061 阅读:33 留言:0更新日期:2019-05-11 10:08
本发明专利技术涉及一种使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。本发明专利技术提供的使用实时数据生成体育赛事战报的方法,使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报,从结构化的实时数据里抽取关键事件,实时数据结构规范,内容精确,因此抽取效果很好,克服了现有技术存在的缺陷,可以很好地满足实际应用的需要。

【技术实现步骤摘要】
使用实时数据生成体育赛事战报的方法
本专利技术属于自动写作
,具体涉及一种使用实时数据生成体育赛事战报的方法。
技术介绍
足球是全球第一大运动,球迷众多。足球赛事战报作为球迷了解足球的重要信息来源,在体育新闻中占据了很大的比重。针对足球赛事战报的计算机自动写作研究日益成为热点。而体育直播很常见,涵盖了所有重要的比赛。体育直播包括文字直播,视频直播,电视直播等常见形式。足球赛事战报是广受球迷欢迎的一种应用文,通常由小编在体育赛事结束后的最短时间编纂并发布。我们可以使用算法自动地从数据源中获取体育比赛的相关信息,自动地构造赛事战报,将小编从重复性劳动中解放出来。足球赛事战报自动写作的相关技术研究从很久前就已经开始了,有着成熟的技术基础,近年不断增长的需求掀起了包括足球的体育赛事新闻自动写作的热潮。前人的研究集中于优化文本摘要技术,将足球赛事战报的自动写作问题看作从直播文本做句子选择的过程。但是直播文本存在着三大问题:冗余句问题、长短句问题、噪音句问题,前人的研究都没有同时解决这三大问题。而足球战报写作的数据来源其实不是只有文字直播,还有实时数据,但是现有技术的技术方案显然缺少对实时数据的分析,足球赛事战报的质量亟待提高。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种可避免出现上述技术缺陷的使用实时数据生成体育赛事战报的方法。为了实现上述专利技术目的,本专利技术提供的技术方案如下:一种使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句。进一步地,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。进一步地,所述实时数据是一组描述赛场发生的所有事件的结构化数据,在标准的实时数据中,以客场球队所处球场边的上方角球区为原点,以球门线为X轴,边线为Y轴,地平面的垂线为Z轴,建立直角坐标系;player_id表示当前球员的唯一id,player_name_cn表示当前球员的中文名称,position_xposition_y表示当前球员在球场上的位置,pass_player_id表示传球球员的唯一id,pass_xpass_y对应传球球员所处的位置;Event代表当前事件的类型,event_id代表当前事件在本场比赛中的唯一id,event_type是一个id类型的数字,表示该事件所对应的类型id,实时数据的射门事件中,变量goal_zgoal_y记录足球在飞跃球门框的一瞬间所处的空间位置,以分米为单位;实时数据以秒为最小时间单位,按照明确的标准,详细定义某一时间点比赛现场发生的事件;定义Data表示某场比赛所有的实时数据,Datai表示一场比赛实时数据中第i个事件,二者之间的关系用公式表示为:Datai∈Data(0≤i≤Len(Data)。进一步地,将实时数据中的精细信息离散化,把实时数据按照固定的模式转化为一个特殊的短语,然后使用翻译模型将这句特殊的短语翻译为战报句。进一步地,实时数据中总共包含20个维度,其中包括了一些表征相同信息的变量;event表示实时数据的类型,event_type表示实时数据的类型对应的id,team_name_cn表示球队的中文名字,team_id又表示该球队的唯一id、player_name_cn表示球员的中文名字与player_id表示该球员的唯一id。进一步地,TransFormer模型包括编码器-解码器的大框架,在编码器模块中,模型使用Multi-HeadAttention连接一个全连接前馈神经网络,在解码器模块中包括Multi-HeadAttention以及前馈网络,还包括一个专门对编码器的Attention层;在Attention以及前馈神经网络的输出端都连接了一个归一化层,最后连接一个线性层以及softmax层。进一步地,TransFormer模型工作的流程为:将实时数据处理后,得到一句由变量值以及空格组成的句子,对应着符号序列(x1,x2,…,xn),对其进行编码之后,对应隐层状态z=(z1,z2,…,zn),最后解码层生成输出序列(y1,y2,…,ym)。进一步地,编码层由2个相同结构的子编码层相堆叠得到,每个自编码层里有两部分子结构,第一部分是multi-headattention+归一,第二部分是一个简单的全连接前馈神经网络,每个单元均使用残差连接;解码层部分也是由2个相同的子解码层堆叠而成;每一个子解码层由3个子结构组成;归一部分与连接部分与编码层保持一致。进一步地,将query和key-value对看做一个集合,模型结构里的attention的作用是将这个结合映射到输出上;映射过程是将query与对应的key输入到一个函数中;在编码器中,key、value、query都来自于编码器中上一层的输出,解码器的key、value、query来自于decoder中当前时间以及之前的输出;在Attention中增加了一个屏蔽层。进一步地,将输入的实时数据句子即(x1,x2,…,xn)通过wordembedding,变换为一个n×dmodel的矩阵,对这个矩阵与一个positionencoding矩阵相加,构造好编码层的输入;该输入被同时当作Q、K、V作为multi-headattention中的输入,得到headi(1≤i≤h)的然后,将其分别通过attention结构,得到输出结果,是一个n×dmodel维矩阵;然后再经过2层相同的编码层之后,得到了最终输出,也是一个n×dmodel的矩阵;解码层将编码层的输出作为key和value,同时考虑历史已生成的词,通过Attention结构的结果作为query,最后通过一个线性层以及softmax层,得到当前生成的词。本专利技术提供的使用实时数据生成体育赛事战报的方法,使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报,从结构化的实时数据里抽取关键事件,由于实时数据结构规范,内容精确,因此抽取效果很好,克服了现有技术存在的缺陷,可以很好地满足实际应用的需要。附图说明图1为实时数据的直角坐标系图;图2为某场比赛中所有射门事件中足球相对于球门的空间位置示意图;图3为TransFormer模型的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本专利技术做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。使用实时数据生成体育赛事战报的方法,使用基于Attention的序列模型TransFormer将关键事件转化为战报句。使用实时数据生成体育赛事战报的方法,包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。实时数据是一组描述赛场发生的所有事件的结构化数本文档来自技高网...

【技术保护点】
1.一种使用实时数据生成体育赛事战报的方法,其特征在于,使用基于Attention的序列模型TransFormer将关键事件转化为战报句。

【技术特征摘要】
1.一种使用实时数据生成体育赛事战报的方法,其特征在于,使用基于Attention的序列模型TransFormer将关键事件转化为战报句。2.根据权利要求1所述的使用实时数据生成赛事战报的方法,其特征在于,所述方法包括:使用抽取模型从实时数据中抽取关键事件,然后用生成式模型将抽取出来的每一个结构化的关键事件翻译成战报风格的语言,最后将这些句子按照时间线拼接成一篇战报。3.根据权利要求1-2所述的使用实时数据生成体育赛事战报的方法,其特征在于,所述实时数据是一组描述赛场发生的所有事件的结构化数据,在标准的实时数据中,以客场球队所处球场边的上方角球区为原点,以球门线为X轴,边线为Y轴,地平面的垂线为Z轴,建立直角坐标系;player_id表示当前球员的唯一id,player_name_cn表示当前球员的中文名称,position_xposition_y表示当前球员在球场上的位置,pass_player_id表示传球球员的唯一id,pass_xpass_y对应传球球员所处的位置;Event代表当前事件的类型,event_id代表当前事件在本场比赛中的唯一id,event_type是一个id类型的数字,表示该事件所对应的类型id,实时数据的射门事件中,变量goal_zgoal_y记录足球在飞跃球门框的一瞬间所处的空间位置,以分米为单位;实时数据以秒为最小时间单位,按照明确的标准,详细定义某一时间点比赛现场发生的事件;定义Data表示某场比赛所有的实时数据,Datai表示一场比赛实时数据中第i个事件,二者之间的关系用公式表示为:Datai∈Data(0≤i≤Len(Data)。4.根据权利要求1-3所述的使用实时数据生成体育赛事战报的方法,其特征在于,将实时数据中的精细信息离散化,把实时数据按照固定的模式转化为一个特殊的短语,然后使用翻译模型将这句特殊的短语翻译为战报句。5.根据权利要求1-4所述的使用实时数据生成体育赛事战报的方法,其特征在于,实时数据中总共包含20个维度,其中包括了一些表征相同信息的变量;event表示实时数据的类型,event_type表示实时数据的类型对应的id,team_name_cn表示球队的中文名字,team_id又表示该球队的唯一id、player_name_cn表示球员的中文名字与player_id表示该球员的唯一id。6.根据权利要求1-5所述的使用实时数据生成体育赛事战报的方法,其特征在于,TransFormer模型包括编码器-解码器的大框架,在编码器模块中,模型使...

【专利技术属性】
技术研发人员:吕学强董志安游新冬
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1