电子文档的计算机辅助写作和浏览的方法及装置制造方法及图纸

技术编号:2862376 阅读:211 留言:0更新日期:2012-04-11 18:40
一种计算机辅助写作的方法,其特征在于,包括:    在作者写作所述电子文档时,根据所述电子文档生成结构摘要;以及    与所述电子文档对应地保存所述结构摘要信息。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及数据处理技术,特别涉及计算机辅助写作的技术和相应的浏览电子文档的技术。
技术介绍
在以往,作者使用的文档写作工具与用户使用的文档管理和浏览工具是相互独立的,即,作者在写作时并不关心读者如何来预览和利用他/她所写的内容。但是同时,从信息访问的观点看,用户又会感到很难在购买、阅读文档之前了解其中的主要内容。而且,由于目前计算机对于自然语言的理解能力还处于字/词理解的水平,而对于文档的预览、检索和管理工具来说,需要句子甚至整篇文章的理解和语义能力,才能够真正满足用户的需要。因此,按照目前的技术发展速度,如果按照现有的文档的写作以及预览、检索和管理的方式,可以预计在一个较短的将来内不可能达到用户信息访问的要求。
技术实现思路
为了解决以上所述现有技术中的问题,本专利技术提出了作者在写作文档的过程中就为后面文档的预览、检索和管理准备相关的信息,即,为作者提供一套工具来方便地为以后用户的查询作贡献,更具体地说,准备结构摘要。根据本专利技术的一个方面,提供了一种计算机辅助写作的方法,包括在作者写作所述电子文档时,根据所述电子文档生成结构摘要;以及与所述电子文档对应地保存所述结构摘要信息。根据本专利技术的另一个方面,提供了一种浏览电子文档的方法,包括读取与电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要;以及响应用户的操作,将所述结构摘要呈现给用户。根据本专利技术的再另一个方面,提供了一种辅助写作装置,包括电子文档编辑单元,用于编辑电子文档;摘要生成单元,用于根据所述电子文档生成结构摘要;以及摘要保存单元,用于与所述电子文档相对应地保存由所述摘要生成单元生成的结构摘要信息。根据本专利技术的再另一个方面,提供了一种电子文档的浏览器,包括结构摘要读取单元,用于读取与所述被浏览的电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要;以及结构摘要呈现单元,用于将所述结构摘要信息中包含的结构摘要呈现给用户。附图说明相信通过以下结合附图对本专利技术具体实施方式的说明,能够使人们更好地了解本专利技术上述的特点、优点和目的。图1是根据本专利技术的一个实施例的计算机辅助写作的方法的流程图;图2A和2B是根据本专利技术的一个实施例的计算机辅助写作的方法的详细流程图;图3是展示根据本专利技术的一个实施例的辅助写作装置的结构的方块图;以及图4是展示根据本专利技术的一个实施例的电子文档的浏览器的结构的方块图。具体实施例方式下面就结合附图对本专利技术的各个优选实施例进行详细的说明。计算机辅助写作的方法根据本专利技术的一个方面,提供了一种计算机辅助写作的方法。图1是根据本专利技术的一个实施例的计算机辅助写作的方法的流程图。如图1所示,首先,在步骤101,作者写作电子文档。通常,结构摘要的生成是在作者写完一篇文档时进行,当然,根据实际情况也可以在完成文档的一部分(例如一个章节)时进行。接着,在步骤105,将文档划分为一个或多个结构段(structuresegment),每个结构段与一个主题相关。通常,一个文档(如一篇文章)会谈论一个主要主题(main topic),但是往往会将其展开为多个不同的主题/子主题(topic/subtopic)在不同的结构段中论述。本步骤就是按照所涉及的主题将文档划分为多个结构段,具体地,可以由作者手工指明结构段的位置,也可以自动划分(后面将详细描述)。接着,在步骤110,分别从每个结构段提取一个或多个句子形成结构摘要。这样,可以保证结构摘要反映出整篇文档各个主题内容的情况。然后,在步骤115,与电子文档对应地保存结构摘要。本专利技术没有对结构摘要信息的具体保存方式进行限定,例如,可以与电子文档一起保存,即,作为电子文档的一部分,也可以分开保存,只要能够与所述电子文档相对应即可。下面结合图2对本专利技术的计算机辅助写作方法做进一步的说明。图2A和2B是根据本专利技术的一个实施例的计算机辅助写作的方法的详细流程图。如图2A所示,首先在步骤201,作者写作电子文档。接着在步骤205,选择一个文档段作为种子段(seed paragraph)。在此,根据文档的实际情况,文档段可以是该文档中的一个自然段落、句子或组成部分,在本例子中假设文档段就是该文档中的自然段落。通常,首先会选择文档开始处的文档段作为种子段。接着,在步骤210,计算该种子段与后续文档段中关键词的权重。在此,关键词是指文本中去掉停用词(stop word)后剩下的词语。例如但不限于此,可以使用if-idf方法来计算每个关键词的权重,即,每个关键词的权重为if×idf,其中tf是该词在该文档段中的出现的频率(次数),idf=all_segments/term_segments,all_segments是该文档中全部文档段的数量,term_segments是其中包含该词的文档段的数量。这样计算出来的关键词权重,会导致在该文档段中出现频率高的词权重大,并且在全文中出现范围越广的词权重小。接着,在步骤215,将种子段与后续文档段分别表示为以关键词的权重为分量的向量。例如但不限于,种子段和后序第i段的向量分别为S=(s1,s2,…,sn)Pi=(wi1,wi2,…,win)在此,为了后续计算方便,将这些向量的维数设为相同,并且代表各个关键词的分量一一对应。接着,在步骤220,利用上述向量计算种子段与各个后续段之间的相似性。具体地,种子段和某个后续段的向量之间的夹角可以表现出两个段之间的相似性,因此,通常可以用它们的夹角的余弦作为相似性量度,即similarity(S,Pi)=cos(S,Pi)接着,在步骤225,选择后续段中相似性高的一个或多个,与种子段一起作为一个结构段。具体地,可以预先设定一个阈值,如果后续段的相似性大于该阈值则认为与种子段属于同一个结构段,否则则该段不属于同一个结构段。进而,优选地,也将相似性高的文档段与种子段之间的文档段选择作为该结构段的一部分,例如,假设P1、P2、P3是连续的三个后续文档段,其中P3与种子段的相似性高于该阈值,则P1、P2、P3都被归于这一结构段。这是基于作者在写作文档时会连续完成一个主题而不是在多个主题之间跳跃的假设。接着,在步骤230,提取该结构段的主题。在此,可以根据前面步骤210中计算的权值,从该结构段中提取出权值最大的一定数量的关键词作为该结构段的主题,也可以由作者输入相应的主题。接着,在步骤235,判断是否全部文档处理完毕。如果还未处理完毕则进行步骤240,将该结构段后的一个文档段作为种子段,然后返回步骤210重复进行步骤210至235直到全部文档处理完。如果步骤235判断已经全部处理完毕,则进行到图2B的步骤245。如图2B所示,在步骤245,分析文档结构,为每个结构段的主题设权重以表明其重要性。具体地,可以利用前面说明的if-idf方法,在整个文档范围内计算每个主题中包含的主题词的权重,然后将每个结构段的主题中的主题词的权重之和作为表示该主题重要性的权重dsi。接着,在步骤250,计算在结构段中为每个句子计算每个关键词的权重。具体地,可以利用if-idf方法,为每个关键词计算权重wjwj=tf·idf其中,tf是该词在该句子中的出现的频率(次数),idf=all_sentences/term_sentences本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘世霞杨力平
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利