【技术实现步骤摘要】
本专利技术总体地涉及文档处理和信息抽取,更具体地涉及从文档抽取句子的方法和直O
技术介绍
已经提出了很多从文档中自动提取句子或形成文档摘要的技术。在专禾Ij文献 US7051024 B2,题为 Document summarizer for word processors, MICROSOFT CORP中,提出一种自动形成文档摘要的方法,其中,统计文档中的内容单词出现的频次,通过对一个句子中所包含的各个内容单词的对应频次进行求和来得到句子的评分;根据句子的评分对各个句子进行排序。此外,预先定义了一些潜在的问题短语或词汇, 在该文档中称之为提示词短语(cue-phrase),其含义是包含有这样的问题短语或词汇的句子不应该被加入到文档摘要中,或者只有个某个先提条件成立的情况下才可以被加入到文档摘要中;在进行内容单词出现的频率统计的同时,将每个句子中的短语与预先定义的提示词短语相比较,如果其包含提示词短语,则决定是否要把该句子排除与文档摘要之外,还是有条件地将其作为加入文档摘要的候选。另夕卜,在专利文献 US Patent 5924108—Document summa ...
【技术保护点】
【技术特征摘要】
【专利技术属性】
技术研发人员:游赣梅,孙军,谢宣松,赵利军,郑继川,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。