一种文字传播路径分析方法及系统技术方案

技术编号：19056915 阅读：42 留言：0更新日期：2018-09-29 12:11

本发明专利技术涉及一种文字传播路径分析方法及系统，该分析方法包括：将互联网稿件和参考稿件分别按语句向量化，得到互联网稿件语句维度向量和参考稿件语句维度向量；通过计算相应的汉明距离判断互联网稿件与参考稿件是否有共有语句；当互联网稿件与参考稿件有共有语句时，且互联网稿件不包含预设关键词时，确定互联网稿件与参考稿件采用关系的种类。在本发明专利技术实施例中，根据互联网稿件和参考稿件分别得到对应语句维度向量，通过语句维度向量计算互联网稿件和参考稿件的汉明距离，利用互联网稿件和参考稿件的汉明距离和互联网稿件是否包含预设关键词确认互联网稿件与参考稿件的采用关系，为用户提供了不同稿件之间关系的处理方法，提高工作的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种文字传播路径分析方法及系统
本专利技术涉及计算机应用
，尤其涉及一种文字传播路径分析方法及系统。
技术介绍
随着物联网的快速发展和大数据的兴起，人们对数据的需求越来越多，不仅要求数据量多，对数据质量的要求也提高。数据质量的好坏直接决定了通过大数据分析后得到的结论的优劣，好的数据将大大提升分析结果的准确性。在这样的环境下，数据采集的技术尤为重要。而在数据采集过程中，不同互联网数据之间的关系是确认互联网数据流向和传播范围的重要依据，但是在浩如烟海的互联网文件中，寻找到不同文件之间的关系，单纯的依靠人力实现是不可能实现这一目标。
技术实现思路
为了解决现有技术存在的问题，本专利技术的至少一个实施例提供了一种文字传播路径分析方法，包括：获取互联网稿件，将所述互联网稿件和预存储的参考稿件分别按语句向量化，得到互联网稿件语句维度向量和参考稿件语句维度向量；计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离；通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句；若是，则判断所述互联网稿件是否包含预设关键词，当所述互联网稿件不包含所述预设关键词时，通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。基于上述技术方案，本专利技术实施例还可以做出如下改进。可选的，该文字传播路径分析方法还包括：当所述互联网稿件包括所述预设关键词时，通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量；当所述稿件质量大于或等于第一预设阈值时，所述互联网稿件与所述参考稿件为采用关系；或，当所述稿件质量小于所述第一预设阈值时，所述互联网稿件与...

【技术保护点】
1.一种文字传播路径分析方法，其特征在于，包括：获取互联网稿件，将所述互联网稿件和预存储的参考稿件分别按语句向量化，得到互联网稿件语句维度向量和参考稿件语句维度向量；计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离；通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句；若是，则判断所述互联网稿件是否包含预设关键词，当所述互联网稿件不包含所述预设关键词时，通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。

【技术特征摘要】
1.一种文字传播路径分析方法，其特征在于，包括：获取互联网稿件，将所述互联网稿件和预存储的参考稿件分别按语句向量化，得到互联网稿件语句维度向量和参考稿件语句维度向量；计算所述互联网稿件语句维度向量与所述参考稿件语句维度向量的汉明距离；通过所述汉明距离判断所述互联网稿件与所述参考稿件是否有共有语句；若是，则判断所述互联网稿件是否包含预设关键词，当所述互联网稿件不包含所述预设关键词时，通过所述共有语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类。2.根据权利要求1所述的文字传播路径分析方法，其特征在于，该文字传播路径分析方法还包括：当所述互联网稿件包括所述预设关键词时，通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量；当所述稿件质量大于或等于第一预设阈值时，所述互联网稿件与所述参考稿件为采用关系；或，当所述稿件质量小于所述第一预设阈值时，所述互联网稿件与所述参考稿件为非采用关系。3.根据权利要求2所述的文字传播路径分析方法，其特征在于，所述通过所述互联网稿件和所述参考稿件计算所述互联网稿件的稿件质量，具体包括：去除所述互联网稿件和所述参考稿件中的停留词，将所述互联网稿件和所述参考稿件进行分句分别得到互联网稿件语句和参考稿件语句；通过ROUGE算法计算任一所述互联网稿件语句与每个所述参考稿件语句的ROUGE值，取所有ROUGE值中的最大值作为所述互联网稿件语句的语句质量，同理，得到每个互联网稿件语句的语句质量；当任一所述语句质量大于或等于所述第一预设阈值时，所述互联网稿件与所述参考稿件为采用关系；根据所述语句质量大于或等于所述第一预设阈值的互联网稿件语句的比例确定所述互联网稿件与所述参考稿件采用关系的种类；所述采用关系的种类包括：全部采用、绝大部分采用、大部分采用、部分采用、少部分采用和极少部分采用；或者，当所有所述语句质量均小于所述第一预设阈值时，所述互联网稿件与所述参考稿件为非采用关系。4.根据权利要求1所述的文字传播路径分析方法，其特征在于，所述将所述互联网稿件和所述参考稿件分别按语句向量化之前，该方法还包括：计算所述互联网稿件与参考稿件的稿件相似度值，判断所述稿件相似度值是否大于或等于第二预设阈值；当所述稿件相似度值小于所述第二预设阈值时，所述互联网稿件与所述参考稿件为非采用关系；或，当所述稿件相似度值大于或等于所述第二预设阈值时，将所述互联网稿件和所述参考稿件分别按语句向量化。5.根据权利要求4所述的文字传播路径分析方法，其特征在于，所述计算所述互联网稿件与参考稿件的稿件相似度值，具体包括：分别提取所述互联网稿件和参考稿件的特征关键词，并将相应的特征关键词转化为互联网稿件向量和参考稿件向量；计算所述互联网稿件向量与所述参考稿件向量的余弦值作为所述稿件相似度值。6.根据权利要求1-5中任一所述的文字传播路径分析方法，其特征在于，所述将所述互联网稿件和所述参考稿件分别按语句向量化，得到互联网稿件语句维度向量和参考稿件语句维度向量，具体包括：将所述互联网稿件按语句进行拆分，得到互联网数据语句；通过tf-idf算法对每个所述互联网数据语句进行处理，得到每个所述互联网数据语句对应的互联网数据语句向量；通过所有互联...

【专利技术属性】
技术研发人员：孙彩霞，罗引，黄泰文，皇秋曼，王磊，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人