The invention discloses a content conflict detection method and system for open text information. The method includes: the establishment of an open text information data set; extracting keywords, keywords co-occurrence matrix construction; the words co-occurrence matrix binarization processing, establish the keyword co-occurrence network; extracting co-occurrence network elements in the keywords, obtaining data sets; to judge each component, to determine whether there is conflict, and determine the conflicts between the content and the method of the invention, direct detection and judgment of public information in the text content using correlation analysis, without the need for a structured description and storage of open text data, reduce the amount of calculation, overcomes the open text information data for the knowledge base and the real-time update cannot be structured very strong synchronization caused by the technical defects of conflict detection accuracy of content difference, achieve an open text information has the characteristics of big data in Conflict tolerance detection.
【技术实现步骤摘要】
一种公开文本情报的内容冲突检测方法及系统
本专利技术涉及公开文本情报应用领域,特别涉及一种公开文本情报的内容冲突检测方法及系统。
技术介绍
公开情报,又称为开源情报,是指从公众媒体(如报纸/刊物、互联网、自媒体平台等)上收集和挖掘的情报,情报内容以非结构化数据为主,包括数字、文本、图片、视频等。公开文本情报,是指从公众媒体(如报纸/刊物、互联网、自媒体平台等)上收集和挖掘的文本格式的情报数据。内容冲突,是指在相同的问题情境中针对同一主题特征的描述存在不一致或者互相矛盾的情形。公开文本情报具有获取成本低、数据来源渠道广泛、数据实时性好等相对优势,在军事情报保障、企业竞争战略研判等领域具有广泛的应用价值和效益。同时,随着自媒体技术的进步、互联网的普及等,公开文本情报呈现出大数据特点,即数据量以惊人地速度增长、数据产生具有多源特征、数据传播过程多渠道并行且交杂繁复等,海量的公开文本情报中不可避免地存在着冲突内容,使得公开文本情报的分析和利用变得困难;而潜在竞争对手有意识的信息误导更是加重了该问题的严重性。因此,公开文本情报高效、准确地应用的第一步就是冲突内容的检测和发现。冲突内容是制约公开文本情报数据质量的关键性因素,潜在的冲突内容如果得不到及时、有效的检测发现和消除,将导致公开文本情报大数据分析结果的不可靠,降低其应用价值。当前,针对文本数据的内容冲突检测主要面向小规模及中等规模数据,且主要应用于检测和发现元数据或者结构化数据冲突。例如,中国电子科技集团公司第二十研究所张可人提出网络管控系统中指令内容冲突检测方法,该方法包括以下步骤:1.统计网络管控系统在内容 ...
【技术保护点】
一种公开文本情报的内容冲突检测方法,其特征在于,包括如下步骤:获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。
【技术特征摘要】
1.一种公开文本情报的内容冲突检测方法,其特征在于,包括如下步骤:获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。2.根据权利要求1所述的方法,其特征在于,所述提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵,具体包括:对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;计算该条文本的词条集合中的每个词条的交叉信息熵的期望;根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;提取排序后的词条集合中的前k个词条作为该文本的关键词;根据文本情报数据集中的每条文本的关键词,建立关键词集合;统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;根据每两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵。3.根据权利要求1所述的方法,其特征在于,对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵,具体包括:将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;将所述关键词共现矩阵中的小于所述设定阈值的元素替换为0。4.根据权利要求1所述的方法,其特征在于,提取所述关键词共现网络中的成分,获得成分数据集,具体包括:按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;将提取的关键词共现网络中的所有成分组合成成分数据集。5.根据权利要求1所述的方法,其特征在于,对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本,具体包括:对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。6.一种公开文本情报的内容冲突检测系统,其特征在...
【专利技术属性】
技术研发人员:李晓军,姚俊萍,沈涛,张锴琦,王利涛,马俊春,
申请(专利权)人:中国人民解放军火箭军工程大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。