一种自动生成标题的方法及系统技术方案

技术编号：13348032 阅读：104 留言：0更新日期：2016-07-15 00:49

从文档的语料库学习等同句法模式的多个集合。接收一个或多个输入文档的集合。针对与等同句法模式的多个集合中的一个等同句法模式的集合相匹配的一个或多个表达处理所述一个或多个输入文档的集合。从所述等同句法模式的集合中为标题选择句法模式。所述句法模式反映所述一个或多个输入文档的集合所描述的主要事件。使用所述句法模式生成标题。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请要求于2013年6月27日提交的题为“AutomaticGenerationofHeadlines”的美国临时申请No.61/840417以及于2013年10月22日提交的题为“AutomaticGenerationofHeadlines”的美国专利申请No.14/060562的权益；上述每份申请的全部内容通过引用结合于此。
技术介绍
本公开涉及自动生成标题。为了为新闻文章生成标题，一些当前的方法包括手动生成标题或自动从文章中识别并选择句子作为题目。然而，这些方法经常无法进行扩展以覆盖从web所爬行得到的新闻。这有时可能是由于需要大量的人工介入或者该方法是基于具有一致的内容和格式的文章的模型集合，其中从web所爬行得到的文章经常具有变化的内容和格式。一些现有解决方案试图使用文章的主要段落作为那些文章的标题。然而，这些解决方案经常并不切合实际，原因在于重要的信息可能跨文章中的若干句子进行分布，或者所选择的句子可能比所期望或可允许的标题尺寸更长。为了减小句子的尺寸，一些解决方案已经尝试对句子中的单词进行重新排序。然而，它们所使用的重新排序的技术所产生的标题容易包含有不正确的语法。选择一个或多个句子并且随后将它们减小为目标标题尺寸的其它方法依赖于手动的监管和/或注解，并且因此通常无法进行扩展且一般仅能够应用于单个文档而并不是两个或更多新闻文章的集合。此外，由于保持数据库为最新所需的人力工...

【技术保护点】
一种计算机实施的方法，包括：从文档的语料库学习等同语法模式的多个集合；接收一个或多个输入文档的集合；针对与所述等同语法模式的多个集合中的一个等同语法模式的集合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合；从所述等同语法模式的集合中为标题选择语法模式，所述语法模式反映所述一个或多个输入文档的集合所描述的主要事件；以及使用所述语法模式生成所述标题。

【技术特征摘要】
【国外来华专利技术】2013.06.27 US 61/840,417;2013.10.22 US 14/060,5621.一种计算机实施的方法，包括：
从文档的语料库学习等同语法模式的多个集合；
接收一个或多个输入文档的集合；
针对与所述等同语法模式的多个集合中的一个等同语法模式的集
合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合；
从所述等同语法模式的集合中为标题选择语法模式，所述语法模
式反映所述一个或多个输入文档的集合所描述的主要事件；以及
使用所述语法模式生成所述标题。
2.根据权利要求1所述的计算机实现的方法，进一步包括：
将所述等同语法模式的多个集合映射至知识图中的相对应的项
目；
从与所述等同语法模式的集合相匹配的所述一个或多个表达中确
定一个或多个实体；
确定所述知识图中与所述一个或多个表达所描述的所述一个或多
个实体相对应的一个或多个条目；以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所
述主要事件。
3.根据权利要求1所述的计算机实现的方法，其中，所述一个或
多个输入文档的集合包括相关新闻文章的新闻集合。
4.根据权利要求1所述的计算机实现的方法，进一步包括：
对来自所述一个或多个表达的一个或多个实体进行处理，其中，
生成所述标题包括用所述一个或多个实体填充所述语法模式。
5.根据权利要求1所述的计算机实现的方法，其中，学习所述等
同语法模式的多个集合进一步包括：
接收相关文档的多个集合；
针对所述相关文档的多个集合中的每一个，确定涉及相对应的信
息的表达；
基于所述表达确定等同语法模式的多个集合；以及
将所述等同语法模式的多个集合存储在数据存储中。
6.根据权利要求5所述的计算机实现的方法，进一步包括：
使用概率模型确定附加的隐藏语法模式以包括在所述等同语法模
式的多个集合中的一个或多个之中。
7.根据权利要求1所述的计算机实现的方法，其中，处理所述一
个或多个输入文档的集合包括：
确定从所述一个或多个输入文档所处理的表达的数目满足预定证
据阈值；以及
基于满足所述证据阈值而确定所述等同语法模式的集合与所述一
个或多个输入文档的集合相关。
8.一种包括计算机可用介质的计算机程序产品，所述计算机可用
介质包括计算机可读程序，其中，所述计算机可读程序在计算机上执
行时使得所述计算机：
从文档的语料库学习等同语法模式的多个集合；
接收一个或多个输入文档的集合；
针对与所述等同语法模式的多个集合中的一个等同语法模式的集
合相匹配的一个或多个表达来处理所述一个或多个输入文档的集合；
从所述等同语法模式的集合中为标题选择语法模式，所述语法模
式反映所述一个或多个输入文档的集合所描述的主要事件；以及
使用所述语法模式生成所述标题。
9.根据权利要求8所述的计算机程序产品，其中，所述计算机可
读程序在所述计算机上执行时，进一步使得该计算机：
将所述等同语法模式的多个集合映射至知识图中的相对应的项
目；
从与所述等同语法模式的集合相匹配的所述一个或多个表达确定
一个或多个实体；
确定所述知识图中与所述一个或多个表达所描述的所述一个或多
个实体相对应的一个或多个条目；以及
更新所述知识图中的所述一个或多个条目以使用所述标题反映所
述主要事件。
10.根据权利要求8所述的计算机程序产品，其中，所述一个或多
个输入文档的集合...

【专利技术属性】
技术研发人员：恩里克·阿方塞卡，丹尼利·皮金，吉列尔莫·加里多·尤斯特，叶卡捷琳娜·菲利波娃，
申请(专利权)人：谷歌公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人