一种文本原创识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30495993 阅读:23 留言:0更新日期:2021-10-27 22:26
本申请涉及一种文本原创识别方法、装置、电子设备及存储介质,该方法包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。该技术方案一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。用的方法能够更好的服务于新闻工作的需求。用的方法能够更好的服务于新闻工作的需求。

【技术实现步骤摘要】
一种文本原创识别方法、装置、电子设备及存储介质


[0001]本申请涉及互联网
,尤其涉及一种文本原创识别方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,互联网的发展速度突飞猛进,在日常宣传过程中,为确保宣传文本,如新闻、软文和广告等,不是抄袭他人的抄袭作品,在传播之前,需要对文本的原创性进行人工审核,只有确保宣传文本是原创文本,才能避免不必要的版权纠纷,并且使原创作品得到应有的价值反馈,因此,对文本进行原创性甄别是对外宣传时必做的一项工作。
[0003]以新闻为例,在我们看每一篇新闻的时候,是否注意到“来源”这个字眼。一篇好的新闻,众多站点会对其转载,但在转载的过程中可能会出现混淆转载出处作者身份的现象点。这种现象虽然在一定程度上有利于新闻的快速传播,但由于原创内容的作者花费了一定的时间和精力创作内容,上述的转载或抄袭行为会削减甚至消除原创作者的创作价值;另外,对于信息平台而言,如果搜录了大量重复的内容,会消耗掉更多的成本如储存和时间等。

技术实现思路

[0004]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种文本原创识别方法、装置、电子设备及存储介质。
[0005]第一方面,本申请提供了一种文本原创识别方法,包括:
[0006]获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;
[0007]确定所述第一文本数据的来源信息;
[0008]当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;
[0009]将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。
[0010]可选的,所述第一文本数据的来源信息,包括:所述第一文本数据的数据来源,所述第一文本数据中携带的社交媒体以及网站信息。
[0011]可选的,所述来源信息满足于预设条件,至少包括以下一项:
[0012]所述第一文本数据的数据来源为空,所述第一文本数据中未携带社交媒体;
[0013]所述第一文本数据的数据来源为空,所述第一文本数据中携带与所述第一文本数据的发布方相匹配的网站信息;
[0014]所述第一文本数据中的标题内容携带与所述第一文本数据的发布方相匹配的网站信息。
[0015]可选的,获取所述第二文本数据,包括:
[0016]获取与所述第一文本数据相关联的至少两个候选文本数据;
[0017]对所述第一文本数据进行预处理得到第一词组集合;
[0018]对所述候选文本数据进行预处理得到第二词组集合;
[0019]计算所述第一词组集合与每个所述第二词组集合的词组相似度;
[0020]将所述词组相似度最大的候选文本数据作为第二文本数据。
[0021]可选的,所述对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标,包括:
[0022]获取所述第一文本数据中每两个词组间的第一编辑距离,以及所述目标文本数据中每两个词组间的第二编辑距离,根据所述第一编辑距离和所述第二编辑距离计算编辑距离相似度;
[0023]获取所述第一文本数据中的第一字频向量,以及所述目标文本数据的第二字频向量,根据所述第一字频向量和所述第二字频向量计算余弦相似度;
[0024]获取所述第一文本数据中第一字符集合与所述目标文本数据中第二字符集合的交集,以及所述第一文本数据中第一字符集合与所述目标文本数据中第二字符集合的并集,根据所述交集和所述并集得到交并比;
[0025]基于所述编辑距离相似度、余弦相似度以及交并比进行加权求和,得到所述特征指标。
[0026]可选的,所述方法还包括:
[0027]获取第一样本特征指标;
[0028]获取所述第一样本特征指标对应的标签值,所述标签值表示所述第一样本特征指标是否为原创;
[0029]根据所述第一样本特征指标和所述标签值对预设模型进行训练,由所述预设模型学习所述第一样本特征指标与所述标签值的关系,得到训练后的识别模型。
[0030]可选的,所述方法还包括:
[0031]获取第二样本特征指标;
[0032]采用所述第二样本特征指标对所述训练后的识别模型进行进行测试,并获取测试结果;
[0033]当所述测试结果大于或等于预设阈值时,得到所述识别模型。
[0034]第二方面,本申请提供了一种文本原创识别装置,其特征在于,包括:
[0035]获取模块,用于获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;
[0036]确定模块,用于确定所述第一文本数据的来源信息;
[0037]比较模块,用于当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;
[0038]处理模块,用于将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述文本数据的原创识别结果。
[0039]第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0040]所述存储器,用于存放计算机程序;
[0041]所述处理器,用于执行计算机程序时,实现上述方法步骤。
[0042]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。
[0043]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请一方面通过基于来源信息对文本进行初步原创判断,另一方面采用相似度指标对文本进行原创识别,以此种方式提高了原创识别的准确性和有效性,本申请采用的方法能够更好的服务于新闻工作的需求。
附图说明
[0044]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0045]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0046]图1为本申请实施例提供的一种文本原创识别方法的流程图;
[0047]图2为本申请实施例提供的词组相似度计算过程示意图;
[0048]图3为本申请实施例提供的一种文本原创识别装置的框图;
[0049]图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0050]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本原创识别方法,其特征在于,包括:获取待识别的第一文本数据,以及与所述第一文本数据相关联的第二文本数据;确定所述第一文本数据的来源信息;当所述来源信息不满足于预设条件时,对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标;将所述相似度特征指标输入训练好的识别模型,由所述识别模型根据所述相似度特征指标进行计算得到所述第一文本数据的原创识别结果。2.根据权利要求1所述的方法,其特征在于,所述第一文本数据的来源信息,包括:所述第一文本数据的数据来源,所述第一文本数据中携带的社交媒体以及网站信息。3.根据权利要求2所述的方法,其特征在于,所述来源信息满足于预设条件,至少包括以下一项:所述第一文本数据的数据来源为空,所述第一文本数据中未携带社交媒体;所述第一文本数据的数据来源为空,所述第一文本数据中携带与所述第一文本数据的发布方相匹配的网站信息;所述第一文本数据中的标题内容携带与所述第一文本数据的发布方相匹配的网站信息。4.根据权利要求1所述的方法,其特征在于,获取所述第二文本数据,包括:获取与所述第一文本数据相关联的至少两个候选文本数据;对所述第一文本数据进行预处理得到第一词组集合;对所述候选文本数据进行预处理得到第二词组集合;计算所述第一词组集合与每个所述第二词组集合的词组相似度;将所述词组相似度最大的候选文本数据作为第二文本数据。5.根据权利要求4所述的方法,其特征在于,所述对所述第一文本数据和所述第二文本数据进行比较,得到相似度特征指标,包括:获取所述第一文本数据中每两个词组间的第一编辑距离,以及所述目标文本数据中每两个词组间的第二编辑距离,根据所述第一编辑距离和所述第二编辑距离计算编辑距离相似度;获取所述第一文本数据中的第一字频向量,以及所述目标文本数据的第二字频向量,根据所述第一字频向量和所述第二字频向量计算余弦相似度;获取所述...

【专利技术属性】
技术研发人员:孔庆超张佳旭王婧宜王宇琪柳力多方省罗引王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1