句子提取方法及系统技术方案

技术编号:15956175 阅读:56 留言:0更新日期:2017-08-08 09:55
本发明专利技术一实施例的一种文档概述方法,包括下列步骤:接收关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子。

【技术实现步骤摘要】
句子提取方法及系统
本专利技术涉及一种文档概述方法及系统,更详细地说,本专利技术涉及一种算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其系统。
技术介绍
文档概述(Documentsummarization)用来创建出能代表文档的简缩文本。为了从信息洪水正确快速地获取所需信息而需要进行文档概述。文档概述方法可以分为提取(extraction)概述方法与抽象(abstraction)概述方法。抽象概述方法虽然可以比提取并概述方法更有效地简缩原文,但无法保障其与原文之间的一贯性及概述的正确性。提取并概述的方法从文档提取重要句子并且利用所提取的重要句子组成摘要。但,一般的提取并概述算法没有考虑到读者(Reader)的观点、关注事项或意图地从文档提取被判定为绝对重要的句子。因此,根据一般的提取并概述算法所提取的重要句子虽然对于第一读者来说可能是提供关注事项的信息的重要句子,但是对于第二读者却可能是提供非必要信息的句子而已。因此人们要求下列解决方案,亦即,考虑文档读者各自的偏好度并且提取对任何读者都能判定为重要的句子。
技术实现思路
【解决的技术课题】本专利技术需要解决的技术课题为,提供一种以文档读者(reader)各自的偏好度为基础算出包含在文档的各句子的重要度并且以算出来的各句子的重要度为基础从文档中提取重要句子的方法及其系统。本专利技术需要解决的另一个技术课题为,提供一种以提取自文档的重要句子为基础把文档概述的方法及其系统。本专利技术需要解决的再一个技术课题为,提供一种以提取自文档的重要句子为基础供应搜索服务及去噪(noisefiltering)的方法及系统。本专利技术需要解决的再一个技术课题为,提供一种以提取自文档的重要句子为基础进行聚类(clustering)的内容聚类方法及系统。本专利技术需要解决的技术课题不限于前述课题,本领域所属领域中具备通常知识者可以在下面的记载中明确地了解到前面没有提到的其它课题。【技术解决方案】为了解决上述技术课题的本专利技术一实施例的一种文档概述方法,包括下列步骤:接受关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRankalgorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子。在一实施例中,上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。为了解决上述技术课题的本专利技术另一实施例的一种文档概述方法,包括下列步骤:从用户终端接收不包含用来提取文档的重要句子的关键词的文档概述请求;以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词;反映上述选定的关键词而从上述文档提取重要句子;及以上述所提取的重要句子为基础生成上述文档的摘要。为了解决上述技术课题的本专利技术再一实施例的一种文档概述方法,包括下列步骤:接收第一关键词及第二关键词;反映上述第一关键词而从包含多个句子的文档提取k个重要句子;以上述k个重要句子为基础生成第一摘要;反映上述第二关键词而从第一摘要提取m个重要句子;及以上述m个重要句子为基础生成第二摘要。为了解决上述技术课题的本专利技术又一实施例的一种文档概述方法,包括下列步骤:接收第一关键词及不同于上述第一关键词的第二关键词;反映上述第一关键词而从包含多个句子的文档提取第一重要句子;反映上述第二关键词而从上述文档提取第二重要句子;及生成包含上述第一重要句子与上述第二重要句子的摘要;上述第一重要句子与上述第二重要句子是相异的句子。为了解决上述技术课题的本专利技术一实施例的一种搜索服务提供方法,包括下列步骤:从用户终端接收搜索用关键词;利用上述收到的搜索用关键词进行预搜索;作为进行上述预搜索的结果,从搜索的文档提取重要句子;及把上述所提取的重要句子是否包含上述搜索用关键词加以反映地把上述预搜索结果重新配置而组成最终搜索结果。为了解决上述技术课题的本专利技术一实施例的一种内容聚类方法,包括下列步骤:接收包括第一文档及第二文档的多个文档;接收包含群组关键词的内容聚类请求;利用上述群组关键词从第一文档提取第一重要句子;利用上述群组关键词从第二文档提取第二重要句子;算出上述第一重要句子与上述第二重要句子之间的相似度;及以上述算出来的相似度为基础决定上述第一文档与上述第二文档能否包含在一个群组。为了解决上述技术课题的本专利技术再一实施例的一种重要句子选定方法,其从由多个句子组成的文本选定重要句子,包括下列步骤:反映第一关键词而从上述文本选定第一重要句子;反映不同于上述第一关键词的第二关键词而从上述文本选定不同于上述第一重要句子的第二重要句子;及作为对应于上述第一关键词及上述第二关键词的上述文本的概述结果,把包含上述第一重要句子及上述第二重要句子的上述文本的概述数据发送给用户终端。为了解决上述技术课题的本专利技术一实施例的一种文档概述装置,包括:网络接口;一个以上的处理器;把上述处理器所执行的电脑程序载入(load)的内存;及储存一个以上的文件的存儲器;上述电脑程序包括下列操作:接收关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成把上述各句子作为顶点而把上述各句子之间的相似度作为边的加权值的图形;在上述图形适用变形的佩奇等级算法算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子;上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。【有益效果】根据如前所述的本专利技术,在提取用来生成摘要的重要句子时考虑读者的偏好度,从而得以生成符合读者观点、关注事项或意图的定制型摘要。而且,利用根据读者偏好度提取的重要句子重新组成关键词搜索结果,从而得以提供针对各个读者进行了定制化的搜索服务。更进一步,利用根据读者偏好度提取的重要句子把内容加以聚类而得以完成对各个读者实现了定制化的聚类。本专利技术的效果不限于前面提到的效果,本领域所属领域中具备通常知识者可以在下面的记载中明确地了解到前面没有提到的其它效果。附图说明图1是用来说明根据本专利技术的一个实施例的文档概述的概念的图形。图2是用来说明根据本专利技术的一个实施例的文档概述系统的图形。图3是用来说明根据本专利技术的一个实施例的搜索服务系统的图形。图4是用来说明根据本专利技术的一个实施例的内容聚类系统(contentsclusteringsystem)的图形。图5是用来说明根据本专利技术的一个实施例的文档概述过程的概念图。图6是用来说明根据本专利技术的一个实施例的文档概述方法的顺序图。图7是用来说明根据本专利技术的一个实施例的文档概述方法的图形创建过程的图形。图8是用来说明本文档来自技高网...

【技术保护点】
一种文档概述方法,其特征在于,包括下列步骤:接收关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRank algorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子;上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。

【技术特征摘要】
2015.09.09 KR 10-2015-01275561.一种文档概述方法,其特征在于,包括下列步骤:接收关键词;分析包含多个句子的文档后识别包含在上述文档的各句子;组成下列图形,该图形把上述各句子作为顶点(Vertex)并且把上述各句子之间的相似度作为边(Edge)的加权值(Weight);在上述图形适用变形的佩奇等级算法(PageRankalgorithm)算出上述各句子的重要度,上述变形的佩奇等级算法则变形以便把基于和上述关键词的关联度的加权值加以反映;及以上述算出来的重要度为基准从上述文档提取重要句子;上述佩奇等级算法以邻接第一顶点的诸多顶点的相对重要度为基础算出上述第一顶点的重要度,在邻接上述第一顶点的各顶点的相对重要度上反映加权值,该加权值则和邻接上述第一顶点的各顶点的句子是否包含上述关键词有关。2.根据权利要求1所述的文档概述方法,其特征在于,组成图形的上述步骤包括下列步骤:组成以上述各句子作为顶点的图形,上述图形是所有的顶点全部通过边连接起来的完全图;算出上述各句子之间的相似度,把算出来的相似度作为把上述顶点之间连接起来的边的加权值地赋予;及在上述图形中删除被赋予了低于既定阈值的加权值的边。3.根据权利要求1所述的文档概述方法,其特征在于,上述提取重要句子的步骤包括下列步骤:从上述文档提取既定的k个重要句子,上述k个重要句子则从上述重要度最大的句子起按照上述重要度降低的顺序提取;及以上述重要句子在上述文档内的位置为基础把上述k个重要句子重新排列后生成摘要。4.根据权利要求1所述的文档概述方法,其特征在于,上述提取重要句子的步骤包括下列步骤:从上述文档提取一个重要句子;在通过边连接到上述所提取的重要句子顶点的其它顶点句子中选择用于生成摘要的句子;及利用上述所提取的重要句子及上述所选择的用于生成摘要的句子生成摘要。5.一种文档概述方法,其特征在于,包括下列步骤:从用户终端接收不包含用来提取文档的重要句子的关键词的文档概述请求;以上述用户终端的用户资料为基准选定反映了上述用户偏好度的关键词;反映上述选定的关键词而从上述文档提取重要句子;及以上述所提取的重要句子为基础生成上述文档的摘要。6.根据权利要求5所述的文档概述方法,其特征在于,上述选定关键词的步骤包括下列步骤:选择反映了上述用户的偏好度的第一关键词及第二关键词;上述提取重要句子的步骤包括下列步骤:反映上述第一关键词而从上述文档提取既定的k个重要句子;及反映上述第二关键词而从上述文档提取既定的m个重要句子;上述生成摘要的步骤包括下列步骤:以上述根据第一关键词提取的k个重要句子及上述根据第二关键词提取的m个重要句子中的同一句子为基础生成上述摘要。7.一种文档概述方法,其特征在于,包括下列步骤:接收第一关键词及第二关键词;反映上述第一关键词而从包含多个句子的文档提取k个重要句子;以上述k个重要句子为基础生成第一摘要;反映上述第二关键词而从第一摘要提取m个重要句子;及以上述m个重要句子为基础生成第二摘要。8.一种文档概述方法,其特征在于,包括下列步骤:接收第一关键词及不同于上述第一关键词的第二关键词;反映上述第一关键词而从包含多个句子的文档提取第一重要句子;反映上述第二关键词而从上述文档提取第二重要句子;及生成包含上...

【专利技术属性】
技术研发人员:郑在弼金在润
申请(专利权)人:UBERPLE有限公司
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1