【技术实现步骤摘要】
句子提取方法及系统
本专利技术涉及一种文档概述方法及系统,更详细地说,本专利技术涉及一种算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其系统。
技术介绍
文档概述(Documentsummarization)用来创建出能代表文档的简缩文本。为了从信息洪水正确快速地获取所需信息而需要进行文档概述。文档概述方法可以分为提取(extraction)概述方法与抽象(abstraction)概述方法。抽象概述方法虽然可以比提取并概述方法更有效地简缩原文,但无法保障其与原文之间的一贯性及概述的正确性。提取并概述的方法从文档提取重要句子并且利用所提取的重要句子组成摘要。但,一般的提取并概述算法没有考虑到读者(Reader)的观点、关注事项或意图地从文档提取被判定为绝对重要的句子。因此,根据一般的提取并概述算法所提取的重要句子虽然对于第一读者来说可能是提供关注事项的信息的重要句子,但是对于第二读者却可能是提供非必要信息的句子而已。因此人们要求下列解决方案,亦即,考虑文档读者各自的偏好度并且提取对任何读者都能判定为重要的句子。
技术实现思路
【解决的技术课题】本专利技术需要解决的技术课题为,提供一种以文档读者(reader)各自的偏好度为基础算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其系统。本专利技术需要解决的另一个技术课题为,提供一种以提取自文档的重要句子为基础把文档概述的方法及其系统。本专利技术需要解决的再一个技术课题为,提供一种以提取自文档的重要句子为基础供应搜索服务及去噪(n ...
【技术保护点】
一种文档概述方法,其特征在于,包括下列步骤:接收关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子;上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。
【技术特征摘要】
2015.09.09 KR 10-2015-01275561.一种文档概述方法,其特征在于,包括下列步骤:接收关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRankalgorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子;上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。2.根据权利要求1所述的文档概述方法,其特征在于,组成图形的上述步骤包括下列步骤:组成以上述各句子作为顶点的图形,上述图形是所有的顶点全部通过边连接起来的完全图;算出上述各句子之间的相似度,把算出来的相似度作为把上述顶点之间连接起来的边的加权值地赋予;及在上述图形中删除被赋予了低于既定阈值的加权值的边。3.根据权利要求1所述的文档概述方法,其特征在于,上述提取重要句子的步骤包括下列步骤:从上述文档提取既定的k个重要句子,上述k个重要句子则从上述重要度最大的句子起按照上述重要度降低的顺序提取;及以上述重要句子在上述文档内的位置为基础把上述k个重要句子重新排列后生成摘要。4.根据权利要求1所述的文档概述方法,其特征在于,上述提取重要句子的步骤包括下列步骤:从上述文档提取一个重要句子;在通过边连接到上述所提取的重要句子顶点的其它顶点句子中选择用于生成摘要的句子;及利用上述所提取的重要句子及上述所选择的用于生成摘要的句子生成摘要。5.一种文档概述方法,其特征在于,包括下列步骤:从用户终端接收不包含用来提取文档的重要句子的关键词的文档概述请求;以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词;反映上述选定的关键词而从上述文档提取重要句子;及以上述所提取的重要句子为基础生成上述文档的摘要。6.根据权利要求5所述的文档概述方法,其特征在于,上述选定关键词的步骤包括下列步骤:选择反映了上述用户的偏好度的第一关键词及第二关键词;上述提取重要句子的步骤包括下列步骤:反映上述第一关键词而从上述文档提取既定的k个重要句子;及反映上述第二关键词而从上述文档提取既定的m个重要句子;上述生成摘要的步骤包括下列步骤:以上述根据第一关键词提取的k个重要句子及上述根据第二关键词提取的m个重要句子中的同一句子为基础生成上述摘要。7.一种文档概述方法,其特征在于,包括下列步骤:接收第一关键词及第二关键词;反映上述第一关键词而从包含多个句子的文档提取k个重要句子;以上述k个重要句子为基础生成第一摘要;反映上述第二关键词而从第一摘要提取m个重要句子;及以上述m个重要句子为基础生成第二摘要。8.一种文档概述方法,其特征在于,包括下列步骤:接收第一关键词及不同于上述第一关键词的第二关键词;反映上述第一关键词而从包含多个句子的文档提取第一重要句子;反映上述第二关键词而从上述文档提取第二重要句子;及生成包含上...
【专利技术属性】
技术研发人员:郑在弼,金在润,
申请(专利权)人:UBERPLE有限公司,
类型:发明
国别省市:韩国,KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。