【技术实现步骤摘要】
一种面向科技迷雾识别的科技事件图谱构建方法
[0001]本专利技术涉及科技迷雾
,具体为一种面向科技热点事件的事件图谱构建方法
。
技术介绍
[0002]科技迷雾主要指国家
/
企业等主体通过多种媒介,选择或错误披露科技迷雾事件,诱发竞争对手做出错误策略和政策
。
其中,科技迷雾事件所涉及的核心迷雾问题包括:技术原理科学性存疑
、
科技水平真实性存疑
、
技术方向布局存疑
。
科技迷雾事件可分为技术概念迷雾事件
、
技术原理迷雾事件
、
产品性能迷雾事件
、
产品应用迷雾事件等多类事件
。
目前,人类科研活动在互联网留下了大量数据,如论文
、
专利
、
会议报告
、
预算文件
、
项目公告
、
社交数据
、
论坛数据
、
新闻文本等
。
如何从 ...
【技术保护点】
【技术特征摘要】
1.
一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,包括以下步骤:步骤
S1
:构建科技事件本体模型,定义科技实体及事件类型本体模型,形成科技事件识别和分析的基础;步骤
S2
:完成科技事件数据采集,利用预设信源体系和公开搜索引擎,迭代采集与科技事件相关文本数据,形成事件数据集;步骤
S3
:面向大规模文本数据的技术术语抽取,从步骤
S2
构建的大规模文本事件数据集中抽取体现科技创新成果的技术术语,技术命名实体是科技事件的核心组成要素;步骤
S4
:基于步骤
S1
定义的科技事件本体模型,利用
BiGRU
‑
CRF
等深度模型开展科技事件实体抽取,利用预设触发词
、
注意力机制等多种策略抽取事件触发词,利用预设在事件具体抽取中,可先进行事件相关的实体抽取,然后利用实体来提高事件触发词的抽取效果;步骤
S5
:事件关联关系构建,科技事件关联关系构建的本质是在事件图谱中推断不同实体与事件
、
事件与事件之间的关联关系以及关系类型,为后续的科技创新能力分析
、
科研团队关联关系挖掘等决策辅助提供支撑
。2.
一种科技事件信息的可信度识别方法,其特征在于,包括以下步骤:步骤
S21
:事件的可信信源识别;步骤
S22
:事件信息候选集的可信特征分析
。3.
根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤
S1
中所提到的科技事件本体模型所涉及实体包括人员
、
机构
、
项目
、
投资机构
、
科研团队
、
科研设施
、
科研会议
、
论文
、
专利
、
技术
、
时间等,每个实体包含多样属性,实体之间具有确定关系类型
。4.
根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤
S1
中所提到的事件模型包括科技事件类型和事件形式化表达,科技事件类型包括科技研发事件
、
科技成果事件
、
科技应用事件
、
科技协作事件
、
人才变动事件,其中,科技研发事件主要包括理论攻关事件
、
技术改进事件
、
技术发明事件,成果公布事件指将科技创新成果公开的各类活动,主要包括论文发表事件
、
专利生成事件
、
科技宣传事件,科研协作事件主要包括科研合同签订事件
、
科研经费下拨事件
、
科研协议签订
。5.
根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤
S1
中所提到的关系模型包括了实体与实体关系
、
事件与事件关系
。6.
根据权利要求1所述的一种面向科技迷雾识别的科技事件图谱构建方法,其特征在于,所述步骤
S2
中所涉及的科技事件数据采集中,不同类型科技事件所使用的信息来源有所不同,例如,在科技产出事件识别和抽取中,主要使用专利库
、
论文库
、
公司门户网站
、
防务网站
、
科技综合门户网站
、
电子期刊网站
、
社交媒体
、
学术会议,不同信源提供的不同信源提供的数据选项和价值点也具有较大差异
。7.
根据权利要求2所述的一种科技事件信息的可信度识别方法,其特征在于,所述步骤
S21
对事件的可信信源识别中,主要是针对某条信息
(
事件
)
开展可信信源数
f
ccis
与可疑信息源数
f
cdis
的区分,该方法采用网站及网页最具区分度的四个属性特征作为某事件信息源的可信度特征识别:其中:
f
pr
:网站
PR
值
(
即
PageRank
值
)
;
f
inlink
:反向链接数
(Inlink)
;
f
ad
:网页的广告量
(ad)
;
f
date
:创建时间
(date)
,
PageRank
值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,通过
Google
提供的
API
获取;反向链接数是指该网站被其他网页或网站链接的数目;网页广告量能够反映网页创建的商用意图;网页创建时间则反映了网页提供信息的时效性,时间越近的信息时效性越好
。8.
根据权利要求2所述的一种科技事件信息的可信度识别方法,其特征在于,所述步骤
S22
对具体事件的信息候选集的可信特征分析,主要采用信息的五个指标:
(1)
网页覆盖率
f
rc
;
(2)
可信信息源数
f
ccis
;
(3)
可疑信息源数
f
cdis
;
(4)
网页平均创建时间
f
actw
;
(5)
在搜索返回结果中的平均网页排名
f
apr
,覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例;可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后,类别属于可信信息源的数目;可疑信息源数为第一阶段分类后属于可疑信息源的数目;网页平均创建时间是指通过判断信息的网络出现时间,有助于甄别新旧信息;搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度或谷歌等搜索引擎中的平均排名,此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度,信息可信度的计算使用以下公式,其中<...
【专利技术属性】
技术研发人员:杜彦昌,高原,宋爽,李书兴,程绍驰,
申请(专利权)人:中国人民解放军军事科学院战争研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。