文档处理装置制造方法及图纸

技术编号:3774374 阅读:213 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文档处理装置。根据该文档处理装置,若通过输入部(11)输入文档,则预处理部(12)将所输入的文档分离成多个单词。重要度算出部(14)算出基于单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词,由用户确定了关键词后,可以算出基于单词的频度以及关键词的特征值,并基于算出的特征值来算出句子的重要度。摘要生成部(15)基于所算出的重要度,并依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,显示部(16)显示所生成的摘要。

【技术实现步骤摘要】

本专利技术涉及基于由多个句子构成的文档,来制作该文档的摘要并显示 的文档处理装置
技术介绍
由于网络通信技术、办公室自动化(OA)技术的发达,能够移动、 保存、阅览的信息量正在急速增加。用户在这样的环境下,必须在短时间内从大量的信息中适当地取舍 选择必要的信息,并将其保存或加工。为了选择必要的信息,利用信息的摘要是有效的。通过阅读摘要, 能够在短时间内看出信息整体的必要性。其中,为了适当地选择信息, 摘要的内容是否准确地反映了信息整体是重要的。由人来制作更为准确的、反映信息整体的摘要时,在暂且阅读了信 息的基础上,除了信息本身外,还可加上信息的要点是什么、是面向谁 的信息、是什么时候制作的信息等该信息以外的信息来制作准确的信 息。与此相对,由文档处理装置制作的摘要,即所谓自动摘要,必须仅 考虑信息本身中所包含的个别的信息来制作摘要。从而,以往以来对用于进行自动摘要的各种技术进行了各种研究。自动摘要技术基本上对文章中所含的各个句子算出重要度,并相应 于其重要度,取出规定数量的重要度高的句子、重要度高的段落等,将 取出的句子、段落的集合作为摘要。重要度的算出也有各种方法,或者 根据句子中包含的各个单词的重要度来算出句子的重要度,或者根据句 子处于文档整体的哪个位置来算出重要度等。各个单词的重要度,进一步细分为单词的出现频度、是否标题中所 含的单词、连接词的种类、是否线索词等,对这些进行判断后最终算出 1个句子的重要度(参照中国专利技术专利公开CN1614587A等)。以往的自动摘要技术中,如上所述地从包含于文章的各个句子中, 通过预先决定的算出方法来算出重要度,并基于算出的重要度来制作摘要,因此不增加包含于文章本身以外的信息。从而,利用现有技术制作的摘要的稳定性,在始终能制作一定水准的摘要的这一意义上是稳定的,但不能制作着眼于特定单词的摘要等反映了用户的喜好的摘要。
技术实现思路
本专利技术的目的在于,提供一种能够制作反映了用户的喜好的摘要的文档处理装置。本专利技术是一种文档处理装置,其特征在于,具有输入部,其输入文档;预处理部,其将由上述输入部输入的文档分离成多个单词;重要度算出部,其算出由上述预处理部分离的单词的至少基于频度的特征值,并基于上述算出的特征值来算出每一个由多个单词构成的句子的重要度;摘要生成部,其基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要;显示部,其显示由上述摘要生成部生成的摘要;关^^词输入部,其用于输入关鍵词,用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词;而且,在由上述显示部显示由上述摘要生成部生成的输入文档的摘要后,若由上述关键词输入部输入关键词,则上述重要度算出部重新算出基于单词的频度以及所输入的单词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,上述显示部重新显示由上述摘要生成部生成的摘要。根据本专利技术,若通过输入部输入文档,则预处理部将所输入的文档分离成多个单词。重要度算出部算出至少基于被分离的单词的频度的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。摘要生成部基于所算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,显示部显示所生成的摘要。在由上述显示部显示由摘要生成部生成的输入文档的摘要后,如果通过关键词输入部,基于所显示的摘要来输入了关键词,则重新算出基于关键词的频度以及所输入的关键词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度。摘要生成部基于由重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要,显示部重新显示由摘要生成部生成的摘要。若用户基于所显示的摘要输入关键词,则算出除了关键词的频度以外,基于所输入的关键词的特征值,并算出句子的重要度,故能够通过所输入的关键词来制作反映了用户喜好的摘要,显示所制作的摘要。此外,本专利技术的特征在于,上述文档由文档主体和标题构成,该文档主体由多个句子构成,上述重要度算出部还算出基于上述标题中包含的单词的特征值,并基于算出的特征值来算出句子的重要度。根据本专利技术,由于追加基于上述标题中包含的单词的特征值来制作摘要,故能够更准确地制作摘要。此外本专利技术的特征在于,上述重要度算出部还算出基于预先决定的线索词的特征值,并基于算出的特征值来算出句子的重要度。此外根据本专利技术,由于追加基于预先决定的线索词的特征值来制作摘要,故能够更准确地制作摘要。此外本专利技术的特征在于,上述关键词输入部,通it^由上述预处理部分离的单词中进行选择来输入特定的关键词。根据本专利技术,由于从由上述预处理部分离的单词中进行选择来输入特定的关键词,故能够可靠地输入文档中包含的单词。此外本专利技术的特征在于,若由上述关键词输入部再次输入关键词,则上述重要度算出部再次算出基于单词的频度以及所输入的关键词的特征值,并基于算出的特征值来再次算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序再次选择规定数量的句子,而再次生成所^r入的文档的摘要,上述显示部再次显示由上述摘要生成部生成的摘要。根据本专利技术,若通过关键词输入部再次输入关键词,则再次算出句子的重要度,基于所算出的重要度,进行摘要的生成、和生成的摘要的重新显示。由此,由于每次用户输入关键词时,进行基于所输入的关键词的重新计算,重新生成摘要并显示,因此能够制作进一步反映了用户喜好的摘要。本专利技术的目的、特色和优点由下述详细说明和附图将变得更加明确。附图说明图i是示出文档处理装置io的机械性构成的方框图。图2是示出文档处理装置10的功能性构成的方框图。图3是示出显示部16的显示画面例的图。图4是示出显示部16的显示画面例的图。图5是示出显示部16的显示画面例的图。图6是示出显示部16的显示画面例的图。图7是示出显示部16的显示画面例的图。图8是示出显示部16的显示画面例的图。图9是示出显示部16的显示画面例的图。图IO是示出成为摘要生成处理的对象的文档的一例的图。图ll是示出由预处理部12、分类部13进行的处理结果的图。图12是示出不输入关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。图13是示出输入了关键词时的由重要度算出部14、摘要生成部14进行的处理结果的图。具体实施例方式以下,参照附图对本专利技术的优选实施方式进行详细说明。图1是示出文档处理装置10的机械构成的方框图。文档处理装置10包含处理器4、和存放处理器4执行实际的处理用的软件等的外部存储装置5。处理器4实际进行根据所输入的文档数据生成摘要的摘要生成处理等。处理器4上的实际的处理,由存放在外部存储装置5中的软件执行。处理器4例如由通常的计算机主体等构成。外部存储装置5例如可由能高速存取的硬盘等构成。外部存储装置5,为了大量地保持文档数据,也可以是利用光盘等大容量器件那样的构成本文档来自技高网
...

【技术保护点】
一种文档处理装置,其特征在于, 具有: 输入部,其输入文档; 预处理部,其将由上述输入部输入的文档分离成多个单词; 重要度算出部,其算出由上述预处理部分离的单词的至少基于频度的特征值,并基于上述算出的特征值来算出每一 个由多个单词构成的句子的重要度; 摘要生成部,其基于由上述重要度算出部算出的每一个句子的重要度,并依照句子重要度从高到低的顺序来选择规定数量的句子,而生成所输入的文档的摘要; 显示部,其显示由上述摘要生成部生成的摘要; 关 键词输入部,其用于输入关键词,用户可以直接输入关键词,也可以通过预处理部分离的单词中选择关键词; 而且,在由上述显示部显示由上述摘要生成部生成的输入文档的摘要后, 若由上述关键词输入部输入关键词或通过预处理部分离的单词中选择关键 词,则上述重要度算出部重新算出基于单词的频度以及所输入的单词的特征值,并基于算出的特征值来算出每一个由多个单词构成的句子的重要度,上述摘要生成部基于由上述重要度算出部算出的每一个句子的重要度,依照句子重要度从高到低的顺序选择规定数量的句子,生成所输入的文档的摘要,上述显示部重新显示由上述摘要生成部生成的摘要。...

【技术特征摘要】

【专利技术属性】
技术研发人员:王婍犇乐宁朱奇许晨吴波
申请(专利权)人:夏普株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1