内容提取方法、内容提取装置和用于内容提取的系统制造方法及图纸

技术编号:12879884 阅读:37 留言:0更新日期:2016-02-17 14:00
本发明专利技术涉及内容提取方法、内容提取装置和用于内容提取的系统。内容提取方法包括:提取输入文档中的多个主题内容区域;对于至少一部分主题内容区域中的每个主题内容区域,确定该主题内容区域的结构类型,其中所述结构类型通过该主题内容区域中包含的元素确定;对于所述每个主题内容区域,根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容,其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素;以及根据用户输入动作和所述每个主题内容区域中的兴趣内容,提取响应于用户输入动作的主题内容区域。通过使用主题内容区域和兴趣内容,可以在能够向用户提供有意义的内容的同时提高内容提取的准确度。

【技术实现步骤摘要】

本公开涉及文本处理领域,更具体地,涉及文本处理领域中的内容提取方法、内容提取装置和用于内容提取的系统
技术介绍
用户通常在他们通过文档显示设备介绍文档时使用输入动作(例如用户手势)来让他们被其它用户理解。文档显示设备可以是屏幕中的文档窗口、触摸面板或投影仪的投影。例如,可以通过在屏幕中移动鼠标、对触摸面板执行触摸或滑动操作、或者在投影上使用用户手势,来直接对正被显示的文档进行一些动作。在用户手势用于提取文档中的内容以介绍该文档的情况下,帮助系统通常被提出,其使得能够接收用户手势并将用户的选择定位在文档显示设备上。例如,在旅游机构中,职员通常使用文档显示设备来向顾客解释不同的旅游计划。文档显示设备被设计为接收具有关于旅游计划的内容的输入文档和用户手势,并输出由用户手势点击或选择的内各。提出了多种方法来根据用户手势选择文档中的文本区域,这些方法将文档中的文本的坐标与用户手势的坐标进行比较以确定用户手势选择了哪个文本并然后输出所确定的文本。例如,在相关技术中,记录用户手势的位置,并选择与用户手势距离最小的文本作为输出。然而,这样的方法根据坐标距离的信息可能仅仅获得文本的一些分段,并通常可能不输出用户想要指向的有意义的内容。此外,由于这样的方法仅仅使用坐标距离的信息,因此靠近用户手势的所有单词(文本)可能被获得,因为这些单词可能具有小于预定阈值的到用户手势的距离。因此,所选择的单词通常不是用户实际想要选择的,从而导致根据用户手势获得的内容不准确。例如,如果用户想要选择文档的第一行中的第一个单词,那么,当用户使用手势在该第一个单词下方划过时,通常可能同时选择第一行中的该第一个单词以及第二行中的第一个和/或第二个单词,因为所有这些所选择的单词可能具有到手势的最小距离。再例如,如果用户想要选择第一行和第二行以对它们进行比较,那么用户将指向这些行中的每一个单词,这对于用户而言是非常单调乏味且浪费时间的。如果用户仅仅在边上指向第一行和第二行,那么第一行和第二行中靠近手势的单词可能被选择而不是整个行。因此,存在当用户想要从文档提取内容时改进准确性的需要。
技术实现思路
本公开内容公开了内容提取方法、内容提取装置和用于内容提取的系统,其能够在改进内容提取的准确性同时还向用户提供有意义的内容。根据本专利技术的一个方面,提供了一种内容提取方法,包括:提取输入文档中的多个主题内容区域,其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成;对于至少一部分主题内容区域中的每个主题内容区域,确定该主题内容区域的结构类型,其中所述结构类型通过该主题内容区域中包含的元素确定;对于所述至少一部分主题内容区域中的每个主题内容区域,根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容,其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素;以及根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容,提取响应于用户输入动作的主题内容区域。根据本专利技术的另一方面,提供了一种内容提取装置,包括:区域提取单元,被配置为提取输入文档中的多个主题内容区域,其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成;确定单元,被配置为对于至少一部分主题内容区域中的每个主题内容区域,确定该主题内容区域的结构类型,其中所述结构类型通过该主题内容区域中包含的元素确定;识别单元,被配置为对于所述至少一部分主题内容区域中的每个主题内容区域,根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容,其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素;以及内容提取单元,被配置为根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容,提取响应于用户输入动作的主题内容区域。根据本专利技术的再一方面,提供了一种用于内容提取的系统,包括:文档获取装置,被配置为获取输入文档;以及如上所述的内容提取装置。根据上述技术方案,由于每个主题内容区域包括关于同一主题的元素,因此由用户输入动作选择的主题内容区域可以向用户提供有意义的内容。此外,由于响应于用户输入动作提取的内容是一个主题内容区域中的所有内容,并且是基于用户输入动作与兴趣内容之间的关系、而不是基于用户输入动作和分别分离的单词之间的坐标距离,因此,所提取的内容可以更准确并向用户提供他想要选择的内容。借助于主题内容区域和兴趣内容,内容提取的准确性可以提高,同时可以向用户提供有意义的内容。从参照附图的以下描述中,本专利技术的其它特性特征和优点将变得清晰。【附图说明】并入说明书并且构成说明书的一部分的附图图示了本专利技术的实施例,并且与描述一起用于说明本专利技术的原理。图1是示出能够实施本专利技术的实施例的计算机系统的示例性硬件配置的框图。图2示出了根据本专利技术的实施例的内容提取方法的流程图。图3示出了根据本专利技术的实施例的提取主题内容区域的处理的流程图。图4A — 4D示出了分别具有单信息强调型、比较强调型、群信息强调型和对应强调型的主题内容区域的一些例子。图5示出了根据本专利技术的实施例的确定主题内容区域的结构类型的处理的流程图。图6示出了给出分别用于单信息强调型、比较强调型、群信息强调型和对应强调型的提示词和焦点词的一些例子的表格。图7示出了根据本专利技术的实施例的识别输入文档中的提示词的处理的流程图。图8A示出了历史文档中的与不同结构类型有关的单词和/或短语的一些例子。图SB示出了与不同结构类型有关的历史提示词信息的一些例子。图9示出了根据本专利技术的实施例的识别输入文档中的提示词的处理的另一流程图。图1OA和1B示出了用于更好解释图9中的处理的一些例子。图11示出了计算用户输入动作和兴趣内容之间的距离的例子的示图。图12示出了根据本专利技术的实施例的基于用户输入动作的速度提取内容的处理的流程图。图13示出了根据本专利技术的实施例的内容提取装置的结构框图。图14示出了根据本专利技术的实施例的内容提取装置的另一结构框图。图15示出了根据本专利技术的实施例的用于内容提取的系统的结构框图。【具体实施方式】 以下将参照附图详细描述本专利技术的实施例。请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。在本公开中,术语“第一”和“第二”等仅用于区分要素或步骤,但是不意图表示时间次序、优选性或重要性。图1是示出能够实施本专利技术的实施例的计算机系统1000的硬件配置的框图。如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口 1140、可移动非易失性存储器接口 1150、用户输入接口 1160、网络接口 1170、视频接口 1190和输出外围接口1195ο系统存储器1130包括R0M(只读存储器)1131和RAM(随机存取存储器)1132。B1S(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器11本文档来自技高网
...

【技术保护点】
一种内容提取方法,包括:提取输入文档中的多个主题内容区域,其中每个主题内容区域由输入文档中的关于同一主题的一个或多个元素组成;对于至少一部分主题内容区域中的每个主题内容区域,确定该主题内容区域的结构类型,其中所述结构类型通过该主题内容区域中包含的元素确定;对于所述至少一部分主题内容区域中的每个主题内容区域,根据该主题内容区域的结构类型识别该主题内容区域中的兴趣内容,其中该主题内容区域中的兴趣内容指示该主题内容区域中最可能被用户注意的至少一个元素;以及根据用户输入动作和所述至少一部分主题内容区域中的每个主题内容区域中的兴趣内容,提取响应于用户输入动作的主题内容区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡钦谙黄耀海张碧川那森
申请(专利权)人:佳能株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1