一种领域事件标签提取方法技术

技术编号:36330770 阅读:53 留言:0更新日期:2023-01-14 17:40
本发明专利技术涉及一种领域事件标签提取方法,针对推荐算法问题中的视频内容标签标记问题,先将视频内容转文本,基于textrank关键词提取和idf值计算融合的统计方法,提出了一种基于领域事件标签说明文本关键词、被提取标签文本关键词交集计算,对交集采取textrank关键词提取权重与词语idf值融合打分策略,根据打分结果判断需标记内容是否具有该标签。解决了对于文本的领域事件标签提取问题。能够快速准确判定文本是否具有某领域事件标签。文本是否具有某领域事件标签。文本是否具有某领域事件标签。

【技术实现步骤摘要】
一种领域事件标签提取方法


[0001]本专利技术属于关键词提取与信息检索
,具体涉及一种领域事件标签提取方法。

技术介绍

[0002]随着网络信息膨胀,为了精准向用户推荐视频内容,对视频进行标签标记成了必不可少的工序。在事件标签视频推荐领域,将视频内容转文本后对文本进行处理,以理解视频语义成为一种主流做法。为了给不同视频转写文本之后的内容打上事件标签,需要关键词提取与idf值融合打分来实现这一技术问题。
[0003]方法总体上分为有监督和无监督两类。TFIDF和LDA都是无监督的方法,有监督的方法为多标签分类,由于监督学习对应领域事件标签数据集较少,打标成本较高,因此选用无监督学习。选择哪个方法取决于具体的场景,要考虑标签的粒度、获取标注数据的难度、标签是否一定在文本中出现、有没有受控词典或知识库等等。
[0004]传统的无监督学习方法在提取领域事件标签时存在诸多局限,只能在领域事件标签较为简单情况下发挥作用。例如LDA不适合解决细粒度标签问题,比如提取某个实例名称。TFIDF只能抽取文本中出现的关键词,对于没有出现的词就无法快速准确判定文本是否具有某领域事件标签。

技术实现思路

[0005]为了解决现有技术中存在的上述问题,本专利技术提供了一种领域事件标签提取方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0006]本专利技术提供了一种领域事件标签提取方法,包括:
[0007]步骤1:获取领域事件标签说明文本和被提取领域事件标签文本集合,并对其分别进行预处理,得到预处理后的领域事件标签说明文本和预处理后的被提取领域事件标签文本集合,所述被提取领域事件标签文本集合包括若干被提取领域事件标签文本;
[0008]步骤2:利用textrank关键词提取算法,对所述预处理后的领域事件标签说明文本和所述预处理后的被提取领域事件标签文本集合进行关键词提取处理,得到领域事件标签说明文本的关键词集合和关键词对应的textrank权重,以及每个预处理后的被提取领域事件标签文本的关键词集合和关键词对应的 textrank权重;
[0009]步骤3:计算得到每个预处理后的被提取领域事件标签文本的关键词对应的idf值;
[0010]步骤4:计算所述领域事件标签说明文本的关键词集合和所述被提取领域事件标签文本的关键词集合的交集,并根据所述交集,利用关键词对应的 textrank权重和所述被提取领域事件标签文本的关键词对应的idf值,对被提取领域事件标签文本与领域事件标签说明文本的关联度进行打分;
[0011]步骤5:将关联度打分结果以及预设的标签阈值进行比较,根据比较结果,确定被
提取领域事件标签文本是否具有领域事件标签说明文本对应的领域事件标签。
[0012]在本专利技术的一个实施例中,所述步骤1包括:
[0013]步骤1.1:通过搜寻领域事件标签对应领域的书籍、论文以及专业资料得到该领域事件标签对应的领域事件标签说明文本,记为Q
O

[0014]步骤1.2:获取需要判断领域事件标签的视频集合,并通过视频语音转文本工具,对所述视频集合进行文本转换,得到被提取领域事件标签文本集合,记为其中,m表示被提取领域事件标签文本的总数目,T
iO
表示第i个被提取领域事件标签文本;
[0015]步骤1.3:对领域事件标签说明文本Q
O
分别进行中文分词处理和去停用词处理,得到预处理后的领域事件标签说明文本,记为Q;
[0016]步骤1.4:对被提取领域事件标签文本集合中T
O
的每个被提取领域事件标签文本,分别进行中文分词处理和去停用词处理,得到预处理后的被提取领域事件标签文本集合,记为T={T1,T2...,T
i
...,T
m
},其中,T
i
表示第i个预处理后的被提取领域事件标签文本。
[0017]在本专利技术的一个实施例中,所述textrank关键词提取算法,包括以下步骤:
[0018]步骤a:对待提取关键词文本,进行语句分割,得到若干个句子;
[0019]步骤b:对每个句子进行分词和词性标注,并根据分词和词性标注结果,过滤掉停用词保留指定词性的词语,得到候选关键词;
[0020]步骤c:根据候选关键词构建图G=(V,E),其中,V表示节点集合,由候选关键词构成,E表示边的集合,采用共现关系构建任意两点之间的边,两个节点之间存在的边仅当它们对应的词语长度在k的窗口中共现,k表示窗口大小;
[0021]步骤d:按照权重计算公式计算每个词语的权重W(V
i
),其中,W(V
i
)表示词语V
i
的权重,d表示阻尼系数,对于进行分词处理和去停用词后的文本,设置大小为m
W
的窗口,在文本中从头到尾滑动,Set(V
i
)表示与词语V
i
在同一窗口中的其他词语集合, |Set(V
i
)|表示Set(V
i
)中词语数量,同一个窗口中的任意两个词语之间都连接着一条无向边,对W(V
i
)的计算公式进行迭代,直至收敛,得到每个候选关键词的权重值;
[0022]步骤e:对图G中的节点权重进行倒序排列,选取权重排名前n个的词语作为待提取关键词文本的关键词。
[0023]在本专利技术的一个实施例中,所述步骤2包括:
[0024]步骤2.1:利用textrank关键词提取算法,对预处理后的领域事件标签说明文本Q进行关键词提取处理,得到领域事件标签说明文本的关键词集合,记为以及每个关键词对应的textrank权重,记为其中,n
Q
表示预处理后的领域事件标签说明文本Q 的关键词个数;
[0025]步骤2.2:利用textrank关键词提取算法,对预处理后的被提取领域事件标签文本集合T中每个处理后的被提取领域事件标签文本进行关键词提取处理,得到每个预处理后
的被提取领域事件标签文本的关键词集合,其中,第i 个预处理后的被提取领域事件标签文本的关键词集合,记为以及每个关键词对应的textrank权重记为其中,表示第i个预处理后的被提取领域事件标签文本Ti的关键词个数。
[0026]在本专利技术的一个实施例中,在所述步骤3中,关键词对应的idf值的计算公式为:
[0027]IDF(t)=ln((1+|T|)/|T
t
|);
[0028]其中,t表示关键词,|T|表示预处理后的被提取领域事件标签文本集合T 的文本的个数,|T
t
|表示预处理后的被提取领域事件标签文本集合T中出现关键词t的文本的个数。
[0029]在本专利技术的一个实施例中,所述步骤4包括:
[0030]步骤4.1:对每个预处理后的被提取领域事件标签文本的关键词集合和领域事件标签说明文本的关键词集合K本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域事件标签提取方法,其特征在于,包括:步骤1:获取领域事件标签说明文本和被提取领域事件标签文本集合,并对其分别进行预处理,得到预处理后的领域事件标签说明文本和预处理后的被提取领域事件标签文本集合,所述被提取领域事件标签文本集合包括若干被提取领域事件标签文本;步骤2:利用textrank关键词提取算法,对所述预处理后的领域事件标签说明文本和所述预处理后的被提取领域事件标签文本集合进行关键词提取处理,得到领域事件标签说明文本的关键词集合和关键词对应的textrank权重,以及每个预处理后的被提取领域事件标签文本的关键词集合和关键词对应的textrank权重;步骤3:计算得到每个预处理后的被提取领域事件标签文本的关键词对应的idf值;步骤4:计算所述领域事件标签说明文本的关键词集合和所述被提取领域事件标签文本的关键词集合的交集,并根据所述交集,利用关键词对应的textrank权重和所述被提取领域事件标签文本的关键词对应的idf值,对被提取领域事件标签文本与领域事件标签说明文本的关联度进行打分;步骤5:将关联度打分结果以及预设的标签阈值进行比较,根据比较结果,确定被提取领域事件标签文本是否具有领域事件标签说明文本对应的领域事件标签。2.根据权利要求1所述的领域事件标签提取方法,其特征在于,所述步骤1包括:步骤1.1:通过搜寻领域事件标签对应领域的书籍、论文以及专业资料得到该领域事件标签对应的领域事件标签说明文本,记为Q
O
;步骤1.2:获取需要判断领域事件标签的视频集合,并通过视频语音转文本工具,对所述视频集合进行文本转换,得到被提取领域事件标签文本集合,记为其中,m表示被提取领域事件标签文本的总数目,T
iO
表示第i个被提取领域事件标签文本;步骤1.3:对领域事件标签说明文本Q
O
分别进行中文分词处理和去停用词处理,得到预处理后的领域事件标签说明文本,记为Q;步骤1.4:对被提取领域事件标签文本集合中T
O
的每个被提取领域事件标签文本,分别进行中文分词处理和去停用词处理,得到预处理后的被提取领域事件标签文本集合,记为T={T1,T2...,T
i
...,T
m
},其中,T
i
表示第i个预处理后的被提取领域事件标签文本。3.根据权利要求2所述的领域事件标签提取方法,其特征在于,所述textrank关键词提取算法,包括以下步骤:步骤a:对待提取关键词文本,进行语句分割,得到若干个句子;步骤b:对每个句子进行分词和词性标注,并根据分词和词性标注结果,过滤掉停用词保留指定词性的词语,得到候选关键词;步骤c:根据候选关键词构建图G=(V,E),其中,V表示节点集合,由候选关键词构成,E表示边的集合,采用共现关系构建任意两点之间的边,两个节点之间存在的边仅当它们对应的词语长度在k的窗口中共现,k表示窗口大小;步骤d:按照权重计算公式计算每个词语的权重W(V
i
),其中,W(V
i
)表示词语V
i
的权重,d表示阻尼系数,对于进行分词处理和去停用词后的文本,设置...

【专利技术属性】
技术研发人员:赵舰波陈恩泽刘怀亮杨斌
申请(专利权)人:乐知未来科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1