System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于体育比赛直播文字的体育新闻构建方法及系统技术方案_技高网

一种用于体育比赛直播文字的体育新闻构建方法及系统技术方案

技术编号:40541763 阅读:5 留言:0更新日期:2024-03-05 18:57
本发明专利技术涉及新闻构建技术领域,公开了一种用于体育比赛直播文字的体育新闻构建方法及系统。本发明专利技术首先基于直播文字的种类进行术语定义,并根据定义的术语对实时收集的直播文字进行预处理,提取直播文字中的关键词,并计算该关键词在直播文字中的权重。同时,根据实时收集到的直播文字中的关键词判断其与数据库中保存的新闻的相似程度,基于相似程度判断该直播文字是否是独立新闻;进而,通过不断实时收集直播文字和不断更新直播文字的关键词集合,判断该值直播文字所属新闻树情况,并基于所属新闻树情况构建直播新闻,提高了直播新闻的相关性和实时性。

【技术实现步骤摘要】

本专利技术涉及新闻构建,具体为一种用于体育比赛直播文字的体育新闻构建方法及系统


技术介绍

1、体育比赛直播新闻数据的爆炸级增长使得人们难以获得总结性的信息,使人们丧失对信息的全局把控。因此对体育比赛直播新闻事件进行动态追踪并构建其发展脉络是如今迫切需要解决的问题。事件追踪是在后续新闻报道中辨认出给定事件所相关的报道。新闻脉络构建是根据接收到的新闻来对事件发展进行梳理,以一定的形式,比如时间线、事件线索等方式来呈现事件的发展过程。

2、然而现有的直播新闻构建方法存在以下问题:随着时间发展,事件重心会发生偏移,在事件追踪时容易遗漏相关新闻;事件脉络构建仅在时间以及内容相似度等层面做研究,没有从全局的角度来进行脉络构建,造成事件脉络不连贯,整体性较差。

3、现有技术cn105912526a通过在体育直播比赛结束后爬取大量体育比赛直播文字和对应比赛新闻预测该体育直播比赛新闻中直播文字句子的重要性,仅仅是对该体育直播比赛新闻进行构建和预测,没有从全局的角度来进行脉络构建。与cn105912526a相比本专利技术通过实时更新体育直播比赛文字中的关键词并通过对比寻找相似新闻构建完整故事树的方式,解决了构建体育直播比赛新闻造成事件脉络不连贯,整体性较差的问题。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本专利技术提供了一种用于体育比赛直播文字的体育新闻构建方法及系统,具备实时性、整体性等优点,解决了事件追踪时容易遗漏相关新闻、事件脉络不连贯,整体性较差的问题。

3、(二)技术方案

4、为解决上述事件追踪时容易遗漏相关新闻、事件脉络不连贯,整体性较差的技术问题,本专利技术提供如下技术方案:

5、本实施例公开一种用于体育比赛直播文字的体育直播文字构建方法,具体包括以下步骤:

6、s1、基于体育直播文字的种类进行术语定义,所述术语定义包括体育术语定义和直播文字术语定义;

7、s2、当接收到新的体育直播文字时,基于体育直播文字的种类对接收到的直播文字进行数据预处理;

8、s3、继续接收新的体育直播文字并提取直播文字中的直播文字关键词,并反馈更新直播文字关键词;

9、s4、提取出直播文字关键词后通过聚类算法聚类出该直播文字中的子事件,并基于聚类出该直播文字中的子事件提取每个子事件中的事件关键词;

10、s5、根据实时更新事件关键词判断是否需要合并某些子事件,当实时更新的事件关键词集合与数据库中保存的各项事件关键词集合的差异超过设定的阈值时,不合并,反之,则合并,所述事件关键词是对直播文字关键词聚类后的关键词,所述数据库中保存的各项事件关键词集合来源于爬取大量体育比赛直播文字和对应比赛的新闻;

11、s6、基于事件发生时间先后顺序将事件连接起来,构建完整的体育直播文字;

12、优选地,所述体育术语定义包括体育运动中专业术语的描述包括位置描述、常用语描述、战术描述、规则描述以及解说词语描述;

13、优选地,所述直播文字术语定义用于表示一篇直播文字的组成部分包括:直播文字标题、正文、发布时间;

14、进一步地,所述正文部分包括子事件、事件、故事;

15、子事件指涉及特定的时间和地点、相关人物的某件具体事情,由四元组表示<tse,dse,kse,newsse>,tse表示子事件发生的时间,dse表示子事件的简要描述,kse表示子事件的关键词集合,newsse={d1,d2,...,dn}表示子事件的直播文字集合;

16、事件由一个种子子事件以及与其直接相关的子事件组成;

17、新闻树:每棵新闻树s={tree1,tree2,...,treen}对应一个事件,由多个分支按时间先后顺序连接而成,每个分支tree=<e,l,ktree,ttree>代表着事件的一个发展阶段,其中e={se1,se2,...,sen}表示分支的子事件集合;li,j=<sei,sej>表示有一条有向边从子事件sei指向子事件sej,代表着两个事件有着时间先后的关系;ktree表示分支的关键词集合;ttree表示分支时间,是分支中子事件的最早发生时间;

18、优选地,所述基于体育直播文字的种类对接收到的直播文字进行数据预处理步骤包括:

19、s21、基于实时接收到的直播文字,实时提取其候选关键词,所述实时提取其候选关键词权重计算公式为:

20、weighti=a×tfi+b×loci+c×numi

21、其中,weighti表示直播文字中第i个词语的权重,tfi表示第i个词语的词频,loci表示第i个词语的位置,numi表示第i个词语的词汇链词数;

22、s22、基于提取的候选关键词进一步确定关键词;

23、基于候选关键词出现的次数以及出现位置将特征向量映射成有向图;

24、设vi为给定文本中的任何一个词语,基于加权text-rank算法的权值迭代公式为:

25、

26、其中,d为调节系数,in(vi)表示指向节点vi的所有节点的集合;out(vj)表示节点vj指向所有节点的集合,ws(vi)表示任何一个词语vi在给定文本中的权重,ws(vj)表示与词语vi相关的词语vj的权重,vk表示集合vj中任意词语,wji为节点vj的词语重要性影响力传递到节点vi的权重,其计算公式如下:

27、

28、其中,i(vi)表示节点vi的重要性取值,设λ为对词语进行加权的参数,本专利技术中λ取2,则i(vi)赋值如下:

29、

30、

31、其中,icontent表示在正文出现;ititle表示在标题出现;

32、当加权text-rank算法的权值迭代公式的两次迭代结果之间的差异在0.0001之间是停止迭代,然后按照大小对ws(v)进行降序排列,选取前n个候选关键词作为直播文字的关键词;

33、s23、基于提取的关键词计算其与其他直播文字的相似度,并基于相似度判断接收到的直播文字与其他新闻的相关程度,根据直播文字与其他新闻的相关程度判断该直播文字是否是独立新闻;

34、将接收到的直播文字基于其关键词建立特征向量;

35、linkwa=<w1,w2,...,wl>

36、linkwa=<w1,w2,...,wn>

37、其中,linkwa表示特征向量wa,w1表示该直播文字中出现次数最多的关键词,基于关键词出现的次数以及出现位置将特征向量映射成有向图;

38、进一步地,通过计算两个特征向量的最大余弦相似度来判断两个直播文字的相似度;

39、

40、其中,len(wa)、len(wb)表示关键词在有向图中的广度优先的遍历信息;dep(wpab)表本文档来自技高网...

【技术保护点】

1.一种用于体育比赛直播文字的体育新闻构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于:所述术语定义包括体育术语定义和直播文字术语定义:

3.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于:所述基于体育直播文字的种类对接收到的直播文字进行数据预处理包括以下步骤:

4.根据权利要求3所述的一种用于体育比赛直播文字的体育新闻构建方法及系统,其特征在于:所述基于提取的候选关键词进一步确定关键词包括:

5.根据权利要求3所述的一种用于体育比赛直播文字的体育新闻构建方法及系统,其特征在于:所述基于提取的直播文字关键词计算其与其他新闻的相似度包括:

6.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于,所述继续提取直播文字中的直播文字关键词,并反馈更新事件关键词包括以下步骤:

7.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于,所述提取出直播文字中关键词后通过聚类算法聚类出该直播文字中的子事件包括以下步骤:

8.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于,所述构建完整的体育直播文字包括以下步骤:

9.一种实现权利要求1-8任一项所述的用于体育比赛直播文字的体育新闻构建方法的用于体育比赛直播文字的体育新闻构建系统,其特征在于,包括:直播文字数据收集模块、数据库、直播文字分析模块;

10.根据权利要求9所述的用于体育比赛直播文字的体育新闻构建系统,其特征在于,还包括直播新闻构建模块,所述直播新闻构建模块基于当前收集到的体育直播文字的集合构建体育直播新闻。

...

【技术特征摘要】

1.一种用于体育比赛直播文字的体育新闻构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于:所述术语定义包括体育术语定义和直播文字术语定义:

3.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征在于:所述基于体育直播文字的种类对接收到的直播文字进行数据预处理包括以下步骤:

4.根据权利要求3所述的一种用于体育比赛直播文字的体育新闻构建方法及系统,其特征在于:所述基于提取的候选关键词进一步确定关键词包括:

5.根据权利要求3所述的一种用于体育比赛直播文字的体育新闻构建方法及系统,其特征在于:所述基于提取的直播文字关键词计算其与其他新闻的相似度包括:

6.根据权利要求1所述的一种用于体育比赛直播文字的体育新闻构建方法,其特征...

【专利技术属性】
技术研发人员:孙立平孙洪涛
申请(专利权)人:北京奥邦菲特科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1