【技术实现步骤摘要】
基于数字指纹和语义特征的新闻文本侵权检测方法与装置
本专利技术涉及一种基于数字指纹和语义特征的新闻文本侵权检测方法与装置,通过提取新闻文本的数字指纹特征和语义特征,利用深度学习方法提高新闻文本侵权检测准确率,属于互联网和自然语言处理
技术介绍
互联网技术的高速发展,使得互联网已经成为人们获取信息和资源的最主要途径。然而,互联网的便捷性和信息共享技术的不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等行为提供了可乘之机。互联网的核心优势,是可以近乎为零的成本快速、广泛地传播信息。这无疑为文化传媒产业的繁荣创造了得天独厚的条件,但同时也为大量盗版、侵犯版权、损害版权内容生产者利益提供了便利。文档侵权检测主要有两类基本的检测方法:一类是基于词频统计的方法;另一类是基于字符串比较的方法。基于词频统计的方法已经成为许多文本相似度算法的基础,也广泛应用到其他的领域。但是它很大的不足之处在于,只考虑了词在上下文中的统计特性,假定关键词之间线性无关,而没有考虑词本身的语义信息,因此对于检测文本相似度具有一定的局限性。而基于字符串比较哈希去重的思 ...
【技术保护点】
1.一种基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述方法包括:(1)通过互联网采集多个类别的新闻文本,积累样本数据集;所述数据集中的样本包括新闻文本原文以及根据抄袭规则在新闻文本原文基础上构造出的新闻文本侵权样本;(2)基于改进LSH方法计算文本数字指纹特征,包括:利用word2vec模型计算新闻文本的词向量,并计算词语的TF值和IDF值,以TF值和IDF值的乘积TF‑IDF值作为文本中相应词向量的权重进行加权求和后作为新闻文本的数字指纹特征;(3)根据样本数据集构建三元组数据,将三元组数据作为LSTM网络模型的输入,利用三元组损失学习文本语义特征;其中一 ...
【技术特征摘要】
1.一种基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述方法包括:(1)通过互联网采集多个类别的新闻文本,积累样本数据集;所述数据集中的样本包括新闻文本原文以及根据抄袭规则在新闻文本原文基础上构造出的新闻文本侵权样本;(2)基于改进LSH方法计算文本数字指纹特征,包括:利用word2vec模型计算新闻文本的词向量,并计算词语的TF值和IDF值,以TF值和IDF值的乘积TF-IDF值作为文本中相应词向量的权重进行加权求和后作为新闻文本的数字指纹特征;(3)根据样本数据集构建三元组数据,将三元组数据作为LSTM网络模型的输入,利用三元组损失学习文本语义特征;其中一个三元组数据包括Anchor实例、Positive实例和Negative实例,Anchor实例为新闻文本原文、Positive实例为基于新闻文本原文构造的侵权样本、Negative实例为与Anchor实例报道相同事件但未侵权的新闻文本原文;(4)将根据步骤(2)中方法计算得到的待检测新闻文本的数字指纹特征和基于步骤(3)中训练好的LSTM网络模型提取得到的待检测新闻文本的语义特征进行融合,计算待检测新闻文本融合特征与经过版权认证的版权库中新闻文本的融合特征的相似度,进而判断待检测新闻文本是否存在侵权行为。2.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(1)中将从互联网采集的新闻文本以及构造的侵权样本均根据UCL标准打包成对应的UCL。3.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(1)中构造侵权样本依据的抄袭规则包括完全复制、增删操作、同/近义词替换、调整文本结构中的一种或多种。4.根据权利要求1所述的基于数字指纹和语义特征的新闻文本侵权检测方法,其特征在于,所述步骤(2)中根据如下公式计算词语的TF值:其中,f(...
【专利技术属性】
技术研发人员:杨鹏,孙麟,李幼平,张长江,郑斌,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。