一种基于多级共现关系词图的可视化文本信息发现方法及系统技术方案

技术编号:18711080 阅读:34 留言:0更新日期:2018-08-21 22:42
本发明专利技术提供一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词‑文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。本发明专利技术还提供一种基于多级共现关系词图的可视化文本信息发现系统,包括文档预处理模块、关键词提取模块、多级词图构建模块、词‑文档索引构建模块及可视化信息发现模块。

A visual text information discovery method and system based on multilevel co-occurrence relation word graph

The invention provides a visual text information discovery method based on multi-level co-occurrence relational word graph. The steps of the method include: extracting the text content of a document, segmenting the text content to obtain a text fragment, segmenting the text fragment, extracting the key words and labeling the word category label; and according to the key words in the text fragment. The co-occurrence relation constructs a multi-level co-occurrence relational word graph, in which nodes correspond to keywords and edges correspond to keywords; each key word in the graph is indexed inverted to retrieve documents containing keywords; and visual text information is obtained by co-occurrence relational word graph. The invention also provides a visual text information discovery system based on multi-level co-occurrence relational word graph, including a document preprocessing module, a keyword extraction module, a multi-level word graph construction module, a word document index construction module and a visual information discovery module.

【技术实现步骤摘要】
一种基于多级共现关系词图的可视化文本信息发现方法及系统
本专利技术属于文本挖掘、自然语言处理领域,涉及一种基于多级共现关系词图的可视化文本信息发现方法及系统。
技术介绍
随着互联网、办公电子化的发展,文本信息呈爆炸式增长趋势,生成的文本数量超越了以往任何时代。一方面文本包含大量有价值的信息,另一方面海量文本显著增加了有效信息的发现代价。对于绝大多数应用(如出版、行研、监管),用户已经不可能对收集的文档集中的每一篇文档进行阅读来发现有效信息,如何利用计算机从海量文本中辅助挖掘有价值的信息(文本挖掘)成为亟待解决的重要问题。文本挖掘根据目标信息的特点可以分为2类:第一类是有效信息可以清晰定义的文本挖掘,比如分类或者有明确目标的搜索,现有计算机通过匹配计算基本可以满足日常需要;第二种是有效信息难以清晰定义的文本挖掘,比如搜索需求模糊的场景,现有办法一般通过“探索式”的方式进行信息发现。“探索式”信息发现底层利用搜索功能:用户输入查询词,人工查看搜索结果,形成下一次的查询词继续搜索,该过程不断重复直到找到结果为止。对于“探索式”信息发现,随着用户对结果的理解,最后使用的查询很可能与最初的查询完全不同。目前“探索式”信息发现方法存在3个问题:一是对搜索结果进行人工排查效率低,人工浏览文档(搜索结果)是一个非常消耗时间的过程,不能快速定位目标信息;二是整个过程缺乏对目标文档集合的全局把控,导致用户在发现过程中往往陷入不知道“从哪里来、到哪里去”的问题,信息检查的状态无法在下一次检查中进行恢复以及有效利用;三是无法对已检查的文档进行过滤,难以避免重复检查。
技术实现思路
了克服上述信息发现的不足,本专利技术提出一种基于多级共现关系词图的可视化文本信息发现方法及系统。为解决上述技术问题,本专利技术采用如下技术方案:一种基于多级共现关系词图的可视化文本信息发现方法,如图1所示,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;对文本片段进行分析,根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。进一步地,在抽取文档的文本内容之前,先将文档进行格式解析。进一步地,使用符号进行切分,该符号包括标点符号;或者使用固定窗口进行切分,设定窗口的大小和移动步长,从文本开头向结尾移动,窗口圈定的每个文本片段作为输出。进一步地,词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。进一步地,实体词标签包括复合实体词。进一步地,对于文档核心词标签,找到文档核心词的方法包括使用TF-IDF或者TextRank计算词权重,基于词权重对关键词进行排序,取排名最高的Topk个关键词作为文档核心词。进一步地,关键词的共现关系包括同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。进一步地,对于一对关键词,其只能存在于共现关系最近的单个共现关系词图中,共现关系按照由近及远的顺序为同一文本片段中共现、在相邻N个文本片段中共现、在整个文档中共现。进一步地,通过共现关系词图获取可视化文本信息的方法如图2所示,包括:全局图与局部图的在线浏览、局部图的选择浏览及扩展浏览、共现关系的切换展示及并列展示、词图浏览历史记录、词节点标记以及文档标记。所述全局图与局部图的在线浏览是指:全局图提供对所有词的展示功能,用户利用该功能可以形成对文档集的概貌性浏览;局部图提供对选定词节点的相邻词节点的展示功能,用户利用该功能可以实现对文档集重点区域的浏览。对于不同的共现窗口,图的展示内容不同。全局图和局部图的功能是通过展示前端按需加载离线绘制的词图信息来实现。所述局部图的选择浏览及扩展浏览是指:选择浏览包括对全局图中的词进行全文搜索,选择感兴趣的词,展示以该词为中心的局部图,包括根据词类型标签对图中节点进行选择浏览;扩展浏览指用户可以点击局部图中的邻居节点,局部图自动更新为以该邻居节点为中心的局部图。所述共现关系的切换展示及并列展示是指:切换展示支持用户以一个词为中心,通过选择不同共现级别(窗口大小)来加载不同的局部图;并列展示支持用户以一个词为中心,将不同共现级别下的局部图进行并列展示。切换展示和并列展示便于用户灵活查看词的上下文,发现相关线索。所述词图浏览历史记录是指:用户在进行扩展浏览的过程中,系统会记录用户点击过的点以及相关路径,路径使用图结构保存,后续用户可以对历史路径进行加载和搜索,便于回忆并恢复检查状态。所述词节点标记以及文档标记是指:在浏览过程中,用户可以对词节点以及相关的文档进行标记。包括两类标记:一是收藏标记,标记后的节点以及相关文档用户可以在后续进行重点检查;二是删除标记,标记后的节点以及相关文档会被从文档集中删掉,对应的多级共现关系词图也会进行更新。一种基于多级共现关系词图的可视化文本信息发现系统,如图3所示,包括文档预处理模块、关键词提取模块、多级词图构建模块、词-文档索引构建模块及可视化信息发现模块。文档预处理模块:该模块输入为文档文件集合,输出为<文档编号,文本片段列表>集合。对每个文档文件的处理包括对文件进行格式解析,抽取其中的文本内容,按照预定义规则对全部文本进行切分,得到文本片段的有序列表。关键词提取模块:该模块使用文档预处理模块的输出作为输入,为每个文本片段进行编号,并对文本片段进行进一步的切割,得到<词,词类别>集合。词类别的标注可以使用自然语言处理的相关工具,也可以由用户的自定义处理来完成。多级词图构建模块:该模块以关键词提取模块的输出作为输入,构建多级共现关系词图。多级是指使用不同的窗口大小来考察词的共现情况,从而生成多个共现关系词图。比如在同一文本片段中共现、在相邻N个文本片段中共现、在同一文档中共现等。词-文档索引构建模块:该模块对词图中的每个词,构建词-文档倒排索引,用于检索包含词的文档。可视化信息发现模块:该模块提供基于词类别以及词共现关系词图的文档浏览发现功能,提供对文档的标记功能,提供遍历词图的状态保存功能,从多角度实现对感兴趣信息的浏览发现。本专利技术方法针对给定文档集进行可视化信息发现,首先利用自然语言处理技术对文档进行切分过滤,形成关键词集合,接着使用不同大小窗口考察词的共现情况,构建多级共现关系词图,该共现关系词图又称词图;用户通过浏览该词图进行可视化信息发现;可视化信息发现支持用户对词图中的词进行搜索;支持选定一个词作中心,通过共现关系查看相关词;支持对包含选定词的文档做重点检查,支持对词节点做删除,来删除相关文档并更新共现关系词图,支持对用户遍历词图的路径进行保存。利用词图进行信息排查可以提高文档排查效率,词图相当于提供了对文档内容的摘要;利用词图共现关系可以很容易进行扩展检查,记录用户词图遍历路径可以帮助用户掌控检查进度;对词节点做删除标记可以减少后续文档检查数量,并且避免重复检查。本专利技术方法灵活便捷,体现在通过自定义窗口大小来调整得到的文本片段大小,文本片段大小不同则得到的词关联情况也不同;可以自定义本文档来自技高网...

【技术保护点】
1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词‑文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。

【技术特征摘要】
1.一种基于多级共现关系词图的可视化文本信息发现方法,其步骤包括:抽取文档的文本内容,对文本内容进行切分,得到文本片段;对文本片段进行切分,提取关键词,并标记词类别标签;根据关键词在文本片段中的共现关系构建多级共现关系词图,图中的节点对应关键词,图中的边对应关键词共现;对图中的每个关键词构建词-文档倒排索引,用以检索包含关键词的文档;通过共现关系词图获取可视化文本信息。2.根据权利要求1所述的方法,其特征在于,在抽取文档的文本内容之前,先将文档进行格式解析。3.根据权利要求1所述的方法,其特征在于,对文本内容和文本片段使用符号或固定窗口进行切分,该符号包括标点符号,该固定窗口为从文本开头向结尾移动。4.根据权利要求1所述的方法,其特征在于,词类别标签包括词性标签、实体词标签、文档核心词标签、语义角色标签、自定义类型标签。5.根据权利要求4所述的方法,其特征在于,实体词标签包括复合实体词。6.根据权利要求4所述的方法,其特征在于,对于文档核心词标签,找到文档核心词的方法包括使用TF-IDF或者TextRank计算词权重,基于词权重对关键词进行排序,取排名最高的Topk个关键词作为文档核心词。7.根据权利要求...

【专利技术属性】
技术研发人员:李鹏王斌郭莉梅钰
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1