一种公开文本情报的内容冲突检测方法及系统技术方案

技术编号:16755557 阅读:26 留言:0更新日期:2017-12-09 02:05
本发明专利技术公开了一种公开文本情报的内容冲突检测方法及系统。方法包括:建立公开文本情报数据集;提取关键词,构建关键词共现矩阵;对关键词共现矩阵进行二值化处理,建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;对每一成分进行判断,判断是否存在内容冲突,并确定存在冲突的内容,本发明专利技术的方法,运用关联分析直接对公开文本情报中的内容进行检测和判断,无需对公开文本数据进行结构化描述和存储,减小了计算量,克服了因结构化的知识库更新无法与实时性非常强的大数据的公开文本情报同步,造成内容冲突检测准确性差的技术缺陷,实现了具有大数据特点的公开文本情报的内容冲突的检测。

A method and system for content conflict detection in open text information

The invention discloses a content conflict detection method and system for open text information. The method includes: the establishment of an open text information data set; extracting keywords, keywords co-occurrence matrix construction; the words co-occurrence matrix binarization processing, establish the keyword co-occurrence network; extracting co-occurrence network elements in the keywords, obtaining data sets; to judge each component, to determine whether there is conflict, and determine the conflicts between the content and the method of the invention, direct detection and judgment of public information in the text content using correlation analysis, without the need for a structured description and storage of open text data, reduce the amount of calculation, overcomes the open text information data for the knowledge base and the real-time update cannot be structured very strong synchronization caused by the technical defects of conflict detection accuracy of content difference, achieve an open text information has the characteristics of big data in Conflict tolerance detection.

【技术实现步骤摘要】
一种公开文本情报的内容冲突检测方法及系统
本专利技术涉及公开文本情报应用领域,特别涉及一种公开文本情报的内容冲突检测方法及系统。
技术介绍
公开情报,又称为开源情报,是指从公众媒体(如报纸/刊物、互联网、自媒体平台等)上收集和挖掘的情报,情报内容以非结构化数据为主,包括数字、文本、图片、视频等。公开文本情报,是指从公众媒体(如报纸/刊物、互联网、自媒体平台等)上收集和挖掘的文本格式的情报数据。内容冲突,是指在相同的问题情境中针对同一主题特征的描述存在不一致或者互相矛盾的情形。公开文本情报具有获取成本低、数据来源渠道广泛、数据实时性好等相对优势,在军事情报保障、企业竞争战略研判等领域具有广泛的应用价值和效益。同时,随着自媒体技术的进步、互联网的普及等,公开文本情报呈现出大数据特点,即数据量以惊人地速度增长、数据产生具有多源特征、数据传播过程多渠道并行且交杂繁复等,海量的公开文本情报中不可避免地存在着冲突内容,使得公开文本情报的分析和利用变得困难;而潜在竞争对手有意识的信息误导更是加重了该问题的严重性。因此,公开文本情报高效、准确地应用的第一步就是冲突内容的检测和发现。冲突内容是制约公开文本情报数据质量的关键性因素,潜在的冲突内容如果得不到及时、有效的检测发现和消除,将导致公开文本情报大数据分析结果的不可靠,降低其应用价值。当前,针对文本数据的内容冲突检测主要面向小规模及中等规模数据,且主要应用于检测和发现元数据或者结构化数据冲突。例如,中国电子科技集团公司第二十研究所张可人提出网络管控系统中指令内容冲突检测方法,该方法包括以下步骤:1.统计网络管控系统在内容上互斥的指令;2.建立多个互斥指令集,每一互斥指令集中的各指令均为互斥;3.设定指令间隔时间阈值t;4.对同一设备在间隔时间为t的时间段内收到的指令进行记录,如果存在2条及以上指令在同一互斥指令集中,则指令内容冲突发生;否则,无指令内容冲突。再如,赵晓非、黄志球提出基于描述逻辑的CWM(公共仓库元模型,简称CWM)元数据冲突检测方法,该方法包括以下步骤:1.建立一种支持概念之上的同一性约束的描述逻辑DLid;2.应用描述逻辑DLid将CWM元数据形式化,建立DLid知识库;3.定义描述逻辑查询语言需求集合;4.依据描述逻辑查询语言需求,建立如下格式的查询语言:5.应用nRQL查询DLid知识库,发现内容冲突。现有方法在文本数据的内容冲突检测方面主要面向小规模及中等规模数据,其特征主要体现在:(1)其关键步骤中首先进行文本数据的结构化描述和存储;(2)以结构化的知识库为基础,建立冲突检测的推理机制,如互斥指令集、冲突查询语言等,进而进行内容的冲突检测。对于呈现出大数据特点的公开文本情报,现有方法存在着如下的缺陷:(1)公开文本情报呈现出大数据特点的背景下,公开文本情报数据的结构化描述和存储的工作量异常巨大,将变得非常困难;(2)以结构化的知识库为基础建立的冲突检测推理机制,是固化的,缺少灵活性,在公开文本情报大数据实时性非常强的情况下,建立的内容冲突检测推理机制将非常容易出现不适应新的问题情境;(3)检测得到的冲突内容是微观层面的,即若干条(通常为2,且数目较小)文本中存在内容冲突,很难呈现大数据集整体层面中存在的内容冲突,可见现有的内容冲突检测方法无法实现具有大数据特点的公开文本情报的内容冲突的检测。
技术实现思路
本专利技术的目的是,为了实现具有大数据特点的公开文本情报的内容冲突的检测,提供一种公开文本情报的内容冲突检测方法及系统。为实现上述目的,本专利技术提供了如下方案:一种公开文本情报的内容冲突检测方法,包括如下步骤:获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。可选的,所述提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵,具体包括:对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;计算该条文本的词条集合中的每个词条的交叉信息熵的期望;根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;提取排序后的词条集合中的前k个词条作为该文本的关键词;根据文本情报数据集中的每条文本的关键词,建立关键词集合;统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;根据每两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵。可选的,对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵,具体包括:将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;将所述关键词共现矩阵中的小于所述设定阈值的元素替换为0。可选的,提取所述关键词共现网络中的成分,获得成分数据集,具体包括:按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;将提取的关键词共现网络中的所有成分组合成成分数据集。可选的,对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本,具体包括:对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。一种公开文本情报的内容冲突检测系统,包括:公开文本情报数据集建立模块,用于获取公开文本情报,建立公开文本情报数据集;关键词共现矩阵构建模块,用于提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;二值化处理模块,用于对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;关键词共现网络建立模块,用于根据所述二值化关键词共现矩阵建立关键词共现网络;成分提取模块,用于提取所述关键词共现网络中的成分,获得成分数据集;冲突判断模块,用于对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。可选的,所述关键词共现矩阵构建模块具体包括:词条划分子模块,用于对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;期望计算子模块,用于计算该条文本的词条集合中的每个词条的交叉信息熵的期望;排序子模块,用于根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;关键词提取子模块,用于提取排序后的词条集合中的前k个词条作为该文本的关键词;关键词集合建立子模块,用于根据文本情报数据集中的每条文本的关键词,建立关键词集合;共现次数统计子模块,本文档来自技高网
...
一种公开文本情报的内容冲突检测方法及系统

【技术保护点】
一种公开文本情报的内容冲突检测方法,其特征在于,包括如下步骤:获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。

【技术特征摘要】
1.一种公开文本情报的内容冲突检测方法,其特征在于,包括如下步骤:获取公开文本情报,建立公开文本情报数据集,所述公开文本情报数据集中包括多条文本;提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵;对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵;根据所述二值化关键词共现矩阵建立关键词共现网络;提取所述关键词共现网络中的成分,获得成分数据集;对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本。2.根据权利要求1所述的方法,其特征在于,所述提取所述公开文本情报数据集中的每一条文本的关键词,构建关键词共现矩阵,具体包括:对所述公开文本情报数据集中的每一条文本的进行分词,获得该条文本的词条集合;计算该条文本的词条集合中的每个词条的交叉信息熵的期望;根据每个词条的交叉信息熵的期望的大小,对该条文本的词条集合中的词条进行降序的排序;提取排序后的词条集合中的前k个词条作为该文本的关键词;根据文本情报数据集中的每条文本的关键词,建立关键词集合;统计关键词集合中任意两个关键词在同一条文本中共同出现的次数;根据每两个关键词在同一条文本中共同出现的次数,建立关键词共现矩阵。3.根据权利要求1所述的方法,其特征在于,对所述关键词共现矩阵进行二值化处理,得到二值化关键词共现矩阵,具体包括:将所述关键词共现矩阵中的大于或等于设定阈值的元素替换为1;将所述关键词共现矩阵中的小于所述设定阈值的元素替换为0。4.根据权利要求1所述的方法,其特征在于,提取所述关键词共现网络中的成分,获得成分数据集,具体包括:按照同一成分中关键词之间存在共现性,不同成分中的关键词间不存在共现性的原则,提取所述关键词共现网络中的成分;将提取的关键词共现网络中的所有成分组合成成分数据集。5.根据权利要求1所述的方法,其特征在于,对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容冲突;并在判断结果为对应成分中存在内容冲突时,根据存在内容冲突的成分确定所述公开文本情报数据集存在冲突的文本,具体包括:对所述成分数据集中的每一成分进行判断,判断对应成分中是否存在内容语义上的冲突;在判断结果为对应成分中存在内容冲突时,则根据该成分中存在内容语义冲突的关键词检索所述公开文本情报数据集中对应的文本,确定所述公开文本情报数据集存在冲突的文本。6.一种公开文本情报的内容冲突检测系统,其特征在...

【专利技术属性】
技术研发人员:李晓军姚俊萍沈涛张锴琦王利涛马俊春
申请(专利权)人:中国人民解放军火箭军工程大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1