The invention provides a visual text information discovery method based on multi-level co-occurrence relational word graph. The steps of the method include: extracting the text content of a document, segmenting the text content to obtain a text fragment, segmenting the text fragment, extracting the key words and labeling the word category label; and according to the key words in the text fragment. The co-occurrence relation constructs a multi-level co-occurrence relational word graph, in which nodes correspond to keywords and edges correspond to keywords; each key word in the graph is indexed inverted to retrieve documents containing keywords; and visual text information is obtained by co-occurrence relational word graph. The invention also provides a visual text information discovery system based on multi-level co-occurrence relational word graph, including a document preprocessing module, a keyword extraction module, a multi-level word graph construction module, a word document index construction module and a visual information discovery module.
【技术实现步骤摘要】
一种基于多级共现关系词图的可视化文本信息发现方法及系统
本专利技术属于文本挖掘、自然语言处理领域,涉及一种基于多级共现关系词图的可视化文本信息发现方法及系统。
技术介绍
随着互联网、办公电子化的发展,文本信息呈爆炸式增长趋势,生成的文本数量超越了以往任何时代。一方面文本包含大量有价值的信息,另一方面海量文本显著增加了有效信息的发现代价。对于绝大多数应用(如出版、行研、监管),用户已经不可能对收集的文档集中的每一篇文档进行阅读来发现有效信息,如何利用计算机从海量文本中辅助挖掘有价值的信息(文本挖掘)成为亟待解决的重要问题。文本挖掘根据目标信息的特点可以分为2类:第一类是有效信息可以清晰定义的文本挖掘,比如分类或者有明确目标的搜索,现有计算机通过匹配计算基本可以满足日常需要;第二种是有效信息难以清晰定义的文本挖掘,比如搜索需求模糊的场景,现有办法一般通过“探索式”的方式进行信息发现。“探索式”信息发现底层利用搜索功能:用户输入查询词,人工查看搜索结果,形成下一次的查询词继续搜索,该过程不断重复直到找到结果为止。对于“探索式”信息发现,随着用户对结果的理解,最后使用的查询很可能与最初的查询完全不同。目前“探索式”信息发现方法存在3个问题:一是对搜索结果进行人工排查效率低,人工浏览文档(搜索结果)是一个非常消耗时间的过程,不能快速定位目标信息;二是整个过程缺乏对目标文档集合的全局把控,导致用户在发现过程中往往陷入不知道“从哪里来、到哪里去”的问题,信息检查的状态无法在下一次检查中进行恢复以及有效利用;三是无法对已检查的文档进行过滤,难以避免重复检查。
技术实现思路
为 ...
【技术保护点】
1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词‑文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。
【技术特征摘要】
1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。2.根据权利要求1所述的方法,其特征在于,在抽取文档的文本内容之前,先将文档进行格式解析。3.根据权利要求1所述的方法,其特征在于,对文本内容和文本片段使用符号或固定窗口进行切分,该符号包括标点符号,该固定窗口为从文本开头向结尾移动。4.根据权利要求1所述的方法,其特征在于,词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。5.根据权利要求4所述的方法,其特征在于,实体词标签包括复合实体词。6.根据权利要求4所述的方法,其特征在于,对于文档核心词标签,找到文档核心词的方法包括使用TF-IDF或者TextRank计算词权重,基于词权重对关键词进行排序,取排名最高的Topk个关键词作为文档核心词。7.根据权利要求...
【专利技术属性】
技术研发人员:李鹏,王斌,郭莉,梅钰,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。