一种文字传播路径分析方法及系统技术方案

技术编号:19056915 阅读:42 留言:0更新日期:2018-09-29 12:11
本发明专利技术涉及一种文字传播路径分析方法及系统,该分析方法包括:将互联网稿件和参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;通过计算相应的汉明距离判断互联网稿件与参考稿件是否有共有语句;当互联网稿件与参考稿件有共有语句时,且互联网稿件不包含预设关键词时,确定互联网稿件与参考稿件采用关系的种类。在本发明专利技术实施例中,根据互联网稿件和参考稿件分别得到对应语句维度向量,通过语句维度向量计算互联网稿件和参考稿件的汉明距离,利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系,为用户提供了不同稿件之间关系的处理方法,提高工作的效率。

【技术实现步骤摘要】
一种文字传播路径分析方法及系统
本专利技术涉及计算机应用
,尤其涉及一种文字传播路径分析方法及系统。
技术介绍
随着物联网的快速发展和大数据的兴起,人们对数据的需求越来越多,不仅要求数据量多,对数据质量的要求也提高。数据质量的好坏直接决定了通过大数据分析后得到的结论的优劣,好的数据将大大提升分析结果的准确性。在这样的环境下,数据采集的技术尤为重要。而在数据采集过程中,不同互联网数据之间的关系是确认互联网数据流向和传播范围的重要依据,但是在浩如烟海的互联网文件中,寻找到不同文件之间的关系,单纯的依靠人力实现是不可能实现这一目标。
技术实现思路
为了解决现有技术存在的问题,本专利技术的至少一个实施例提供了一种文字传播路径分析方法,包括:获取互联网稿件,将所述互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离;通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句;若是,则判断所述互联网稿件是否包含预设关键词,当所述互联网稿件不包含所述预设关键词时,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。基于上述技术方案,本专利技术实施例还可以做出如下改进。可选的,该文字传播路径分析方法还包括:当所述互联网稿件包括所述预设关键词时,通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量;当所述稿件质量大于或等于第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;或,当所述稿件质量小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。可选的,所述通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量,具体包括:去除所述互联网稿件和所述参考稿件中的停留词,将所述互联网稿件和所述参考稿件进行分句分别得到互联网稿件语句和参考稿件语句;通过ROUGE算法计算任一所述互联网稿件语句与每个所述参考稿件语句的ROUGE值,取所有ROUGE值中的最大值作为所述互联网稿件语句的语句质量,同理,得到每个互联网稿件语句的语句质量;当任一所述语句质量大于或等于所述第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;根据所述语句质量大于或等于所述第一预设阈值的互联网稿件语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类;所述采用关系的种类包括:全部采用、绝大部分采用、大部分采用、部分采用、少部分采用和极少部分采用;或者,当所有所述语句质量均小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。可选的,所述将所述互联网稿件和所述参考稿件分别按语句向量化之前,该方法还包括:计算所述互联网稿件与参考稿件的稿件相似度值,判断所述稿件相似度值是否大于或等于第二预设阈值;当所述稿件相似度值小于所述第二预设阈值时,所述互联网稿件与所述参考稿件为非采用关系;或,当所述稿件相似度值大于或等于所述第二预设阈值时,将所述互联网稿件和所述参考稿件分别按语句向量化。可选的,所述计算所述互联网稿件与参考稿件的稿件相似度值,具体包括:分别提取所述互联网稿件和参考稿件的特征关键词,并将相应的特征关键词转化为互联网稿件向量和参考稿件向量;计算所述互联网稿件向量与所述参考稿件向量的余弦值作为所述稿件相似度值。可选的,所述将所述互联网稿件和所述参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量,具体包括:将所述互联网稿件按语句进行拆分,得到互联网数据语句;通过tf-idf算法对每个所述互联网数据语句进行处理,得到每个所述互联网数据语句对应的互联网数据语句向量;通过所有互联网数据语句向量生成所述互联网稿件的互联网稿件语句维度向量A={ai},其中,ai为所述互联网数据语句向量;i=1,2,3,……,m,m为所述互联网数据语句的数量;将所述参考稿件按语句进行拆分,得到预设数据语句;通过tf-idf算法对每个所述预设数据语句进行处理,得到每个所述预设数据语句对应的预设数据语句向量;通过所有预设数据语句向量生成所述参考稿件的参考稿件语句维度向量B={bj},其中,bj为所述互联网数据语句向量;j=1,2,3,……,n,n为所述预设数据语句的数量。可选的,所述计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离,具体包括:通过SimHash算法得到所述互联网数据语句向量ai的第一签名向量ai'和所述预设数据语句向量bj的第二签名向量bj';分别计算每个第一签名向量ai'与每个第二签名向量bj'的汉明距离d(ai',bj'),当d(ai',bj')<=3时,距离矩阵Sij中的元素sij=1,当d(ai',bj')>3时,所述距离矩阵Sij中的元素sij=0,将所述距离矩阵Sij作为所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离。可选的,所述通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句,具体包括:判断所述距离矩阵Sij中是否存在如下序列Lijk,是则,所述互联网稿件与所述参考稿件有共有语句,否则,互联网稿件与所述参考稿件无共有语句;其中,所述序列Lijk满足如下条件:所述序列Lijk中的每一个元素lijk对应的所述距离矩阵Sij的元素sij=1;针对所述序列Lijk中的元素li1j1k1和li2j2k2,若k1<k2,则i1<i2且j1<j2;所述序列Lijk的长度Length(L)满足或其中,length(A)表示所述互联网数据语句向量ai或所述第一签名向量ai'的长度,length(B)表示所述预设数据语句向量bj或所述第二签名向量bj'的长度,可选的,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类,具体包括:当所述序列Lijk的长度Length(L)满足Length(L)=length(A)=length(B)时,所述互联网稿件与所述参考稿件完全一致;当所述序列Lijk的长度Length(L)满足且Length(L)=length(B)时,所述互联网稿件与所述参考稿件为完全采用关系;当所述序列Lijk的长度Length(L)满足且Length(L)=length(A)时,所述互联网稿件与所述参考稿件为完全采用关系;当所述序列Lijk的长度Length(L)满足或所述互联网稿件与所述参考稿件为部分采用关系。本专利技术实施例还提供了一种文字传播路径分析系统,该分析系统基于内存计算的开源分布式计算框架,包括:服务器,用于实现上述任一所述的文字传播路径分析方法。本专利技术的上述技术方案与现有技术相比具有如下优点:在本专利技术实施例中,将互联网稿件和参考稿件进行处理分别得到对应语句维度向量,通过语句维度向量计算互联网稿件和参考稿件的汉明距离,利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系,为用户提供了不同稿件之间关系的处理方法,提高工作的效率。附图说明图1是本专利技术实施例提供的一种文字传播路径分析方法流程示意图;图2是本专利技术另一实施例提供的一种文字传播路径分析方法流程示意图;图3是本专利技术又一实施例提供的一种本文档来自技高网...

【技术保护点】
1.一种文字传播路径分析方法,其特征在于,包括:获取互联网稿件,将所述互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离;通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句;若是,则判断所述互联网稿件是否包含预设关键词,当所述互联网稿件不包含所述预设关键词时,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。

【技术特征摘要】
1.一种文字传播路径分析方法,其特征在于,包括:获取互联网稿件,将所述互联网稿件和预存储的参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量;计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离;通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句;若是,则判断所述互联网稿件是否包含预设关键词,当所述互联网稿件不包含所述预设关键词时,通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。2.根据权利要求1所述的文字传播路径分析方法,其特征在于,该文字传播路径分析方法还包括:当所述互联网稿件包括所述预设关键词时,通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量;当所述稿件质量大于或等于第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;或,当所述稿件质量小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。3.根据权利要求2所述的文字传播路径分析方法,其特征在于,所述通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量,具体包括:去除所述互联网稿件和所述参考稿件中的停留词,将所述互联网稿件和所述参考稿件进行分句分别得到互联网稿件语句和参考稿件语句;通过ROUGE算法计算任一所述互联网稿件语句与每个所述参考稿件语句的ROUGE值,取所有ROUGE值中的最大值作为所述互联网稿件语句的语句质量,同理,得到每个互联网稿件语句的语句质量;当任一所述语句质量大于或等于所述第一预设阈值时,所述互联网稿件与所述参考稿件为采用关系;根据所述语句质量大于或等于所述第一预设阈值的互联网稿件语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类;所述采用关系的种类包括:全部采用、绝大部分采用、大部分采用、部分采用、少部分采用和极少部分采用;或者,当所有所述语句质量均小于所述第一预设阈值时,所述互联网稿件与所述参考稿件为非采用关系。4.根据权利要求1所述的文字传播路径分析方法,其特征在于,所述将所述互联网稿件和所述参考稿件分别按语句向量化之前,该方法还包括:计算所述互联网稿件与参考稿件的稿件相似度值,判断所述稿件相似度值是否大于或等于第二预设阈值;当所述稿件相似度值小于所述第二预设阈值时,所述互联网稿件与所述参考稿件为非采用关系;或,当所述稿件相似度值大于或等于所述第二预设阈值时,将所述互联网稿件和所述参考稿件分别按语句向量化。5.根据权利要求4所述的文字传播路径分析方法,其特征在于,所述计算所述互联网稿件与参考稿件的稿件相似度值,具体包括:分别提取所述互联网稿件和参考稿件的特征关键词,并将相应的特征关键词转化为互联网稿件向量和参考稿件向量;计算所述互联网稿件向量与所述参考稿件向量的余弦值作为所述稿件相似度值。6.根据权利要求1-5中任一所述的文字传播路径分析方法,其特征在于,所述将所述互联网稿件和所述参考稿件分别按语句向量化,得到互联网稿件语句维度向量和参考稿件语句维度向量,具体包括:将所述互联网稿件按语句进行拆分,得到互联网数据语句;通过tf-idf算法对每个所述互联网数据语句进行处理,得到每个所述互联网数据语句对应的互联网数据语句向量;通过所有互联...

【专利技术属性】
技术研发人员:孙彩霞罗引黄泰文皇秋曼王磊
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1