用于自动概括电子文档的内容的方法和装置制造方法及图纸

技术编号:16158114 阅读:34 留言:0更新日期:2017-09-08 16:12
一种用于概括电子文档的方法的一个实施例,包括将电子文档分割为多个项,其中多个项中的每一个与相应长度、相应信息量得分和相应一致性得分相关联;自动地选择多个项的子集,以使得该子集的聚合信息量得分最大化而该子集的聚合长度小于或等于最大长度;以及将该子集安排为电子文档的概要。

【技术实现步骤摘要】
【国外来华专利技术】用于自动概括电子文档的内容的方法和装置相关申请的交叉引用本申请要求2011年12月7日提交的英国专利申请No.1121033.3和2011年12月8日提交的美国临时专利申请序列号No.61/568,188的权益,所述两个申请的全部内容都通过引用结合在此。
本专利技术一般涉及电子文档的领域,并且更具体来说涉及电子文档的概括。
技术介绍
使用万维网上的搜索引擎执行的典型搜索生成多个搜索结果(例如,包括新故事、网页、社会媒体内容等的电子文档)。然而,至少一部分搜索结果通常与该搜索无关。此外,即使是相关搜索结果的内容在文档之间也可以不同。另外,社会媒体允许用户向其他用户推荐各种电子文档。然而,当面临仅统一资源定位符(URL)或标题时,可能难以告知所联接的电子文档是否有可能是所关注的。因此,找到内容真正相关或感兴趣的文档涉及一些麻烦和误差,因为用户可能必须将多个文档通过对其内容的极少现有知识来逐一分类。这是耗时的操作,尤其是在所有文档都长的情况下(例如,如在书或一些新闻文章的情况下)。如果在移动设备(例如,智能电话)上执行,则逐一审阅各种文档可能花费更多时间,因为文档可能需要更多时间来在设备上本文档来自技高网...
用于自动概括电子文档的内容的方法和装置

【技术保护点】
一种用于概括电子文档的方法,所述方法包括:生成所述电子文档的特征向量,其中所述特征向量包括所述电子文档的多个特征;对所述多个特征中的每一个分配权重;根据分配给所述多个特征中的每一个的所述权重来向所述电子文档分配可概括性得分,其中所述可概括性得分指示所述电子文档是否可概括;以及确定所述电子文档是可概括的时:将所述电子文档分割为多个项,其中所述多个项中的每一个与相应长度、相应信息量得分和相应一致性得分相关;自动地选择所述多个项的子集,以使得所述子集的聚合信息量得分最大化而所述子集的聚合长度小于或等于最大长度;以及将所述子集安排为所述电子文档的概要。

【技术特征摘要】
【国外来华专利技术】2011.10.14 GB 1117848.0;2011.12.07 GB 1121033.3;201.一种用于概括电子文档的方法,所述方法包括:生成所述电子文档的特征向量,其中所述特征向量包括所述电子文档的多个特征;对所述多个特征中的每一个分配权重;根据分配给所述多个特征中的每一个的所述权重来向所述电子文档分配可概括性得分,其中所述可概括性得分指示所述电子文档是否可概括;以及确定所述电子文档是可概括的时:将所述电子文档分割为多个项,其中所述多个项中的每一个与相应长度、相应信息量得分和相应一致性得分相关;自动地选择所述多个项的子集,以使得所述子集的聚合信息量得分最大化而所述子集的聚合长度小于或等于最大长度;以及将所述子集安排为所述电子文档的概要。2.如权利要求1所述的方法,其中所述子集包括少于所有所述多个项。3.如权利要求1所述的方法,其中所述项中的至少一个包括语句。4.如权利要求1所述的方法,其中根据与语言无关的评分技术来分配用于所述多个项中的给定项的所述相应信息量得分。5.如权利要求4所述的方法,其中所述评分技术根据一组手工编写的规则来向所述给定项的多个特征分配权重。6.如权利要求1所述的方法,其中根据与语言相关的评分技术来分配用于所述多个项中的给定项的所述相应信息量得分。7.如权利要求6所述的方法,其中所述评分技术是使用统计分类器的监督机器学习技术。8.如权利要求7所述的方法,其中所述统计分类器是支持向量机。9.如权利要求6所述的方法,其中所述评分技术是将所述给定项表示为有向图中的加权节点的非监督机器学习技术。10.如权利要求1所述的方法,其中用于所述多个项中的每一个的所述相应信息量得分至少等于阈值。11.如权利要求1所述的方法,其中所述多个项中的每一个的所述相应一致性得分至少等于阈值。12.如权利要求1所述的方法,其进一步包括:在所述分割之后但是在所述自动选择之前修剪所述多个项中的每一个。13.如权利要求1所述的方法,其中使用组合优化器来执行所述自动选择。14.如权利要求1所述的方法,其中所述自动选择包括:单独地评估所述多个项中的每一个以包括在所述子集中。15.如权利要求14所述的方法,其中所述评估包括:拒绝将所述多个项中所述相应长度超过所述子集的当前聚合长度的那些包括在所述子集中。16.如权利要求14所述的方法,其中所述评估包括,对于所述多个项中的给定项:计算第一和,其中所述第一和是与所述多个项中排除所述给定项并且具有小于或等于所述最大长度的聚合长度的最大信息量子集相关的所述相应信息量得分的和;以及计算...

【专利技术属性】
技术研发人员:因德吉特·玛尼欧金尼奥·西乌拉娜尼古拉斯·D·阿洛伊西奥·蒙蒂勒巴特·K·斯旺森
申请(专利权)人:雅虎控股公司
类型:发明
国别省市:美国,US

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1