自动生成主题内容摘要的系统和方法技术方案

技术编号:23516211 阅读:30 留言:0更新日期:2020-03-18 02:17
一种自动生成主题内容摘要的方法包括接收对于概念的分类和文本语料库。所述方法进一步包括:基于所述分类从所述文本语料库生成具有对应于所述概念的术语注释的有注释的数据集;将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;确定针对所述术语注释的特征;和从所述定制生成的文件对象提取片段,其中所述片段中的每一个对应于所述定制生成的文件对象的一章节。所述方法进一步包括:基于所述特征对所述片段评分,使得所述片段中的每一个对应于评分;当符合一个或多个片段过滤条件时,过滤来自所述片段的一个或多个片段;基于所述评分将所述片段排名成针对所述概念的有序列表;和将所述有序列表提供到用户计算装置。

System and method of automatically generating topic content summary

【技术实现步骤摘要】
【国外来华专利技术】自动生成主题内容摘要的系统和方法相关申请的交叉引用本申请主张2017年6月16日年提交的美国临时申请第62/520,991号的权益,所述申请的内容在此被以引用的方式全部并入。
本说明书大体涉及自动生成主题内容摘要的系统和方法,并且更具体地说,提取对应于内容摘要的文本语料库内的概念的片段和定义的系统和方法。
技术介绍
随着电子内容的数量和密度增大,研究员、作家、教授、学生等面临着搜索、剖析和识别与其所关注的相应领域有关的质量主要参考的增大挑战。当前,许多人利用可公开获得的可搜索内容(诸如,维基百科)来获得针对概念的另外信息。然而,这些来源不满足对于针对概念的权威信息的需求。即,许多研究员、作家、教授、律师、学生等寻找途径来在其通常工作流内获得另外信息,诸如,来自书本、期刊文章、案例法和/或其它参考数据库的另外信息。另外,不仅需要能够获取这些更主要和权威类型的文献,而且还需要可用来进一步确定特定来源是否与其所关注的特定概念或领域有关的内容摘要。
技术实现思路
在一个实施例中,一种自动生成主题内容摘要的方法包括:在本文档来自技高网...

【技术保护点】
1.一种自动生成主题内容摘要的方法,所述方法包括:/n在计算装置处接收对于概念的分类;/n在所述计算装置处接收未结构化的文本语料库;/n基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;/n将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;/n针对所述一个或多个术语注释中的每一个确定一个或多个特征;/n从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节;/n基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个...

【技术特征摘要】
【国外来华专利技术】20170616 US 62/520,9911.一种自动生成主题内容摘要的方法,所述方法包括:
在计算装置处接收对于概念的分类;
在所述计算装置处接收未结构化的文本语料库;
基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;
将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象;
针对所述一个或多个术语注释中的每一个确定一个或多个特征;
从所述定制生成的文件对象提取针对所述概念的多个片段,其中所述多个片段中的每一个对应于所述定制生成的文件对象的一章节;
基于所述一个或多个特征对所述多个片段中的每一个评分,使得针对所述概念的所述多个片段中的每一个对应于综合评分,其中所述一个或多个特征包括以下中的至少一个:所述概念在所述章节中第一次出现的相对偏移、所述概念在所述章节中最后一次出现的相对偏移、所述概念在所述章节中总出现次数、所述章节中的语言符号的记数或在所述概念与所述章节的标题之间的相似度等级;
当符合一个或多个片段过滤条件时,从所述多个片段滤出一个或多个片段;
基于所述综合评分,将所述多个片段排名成针对所述概念的有序片段列表,其中所述有序片段列表中的第一片段是排名第一的片段并且比所述有序片段列表中的第二片段与所述概念更加相关;以及
将所述有序片段列表提供到用户计算装置。


2.根据权利要求1所述的方法,进一步包括将针对所述概念的所述有序片段列表存储于数据存储组件中。


3.根据权利要求1所述的方法,进一步包括:
从所述用户计算装置接收所述概念的查询;以及
显示来自所述有序片段列表的针对所述概念的预定义数目的片段。


4.根据权利要求3所述的方法,其中针对所述概念的所述预定义数目的片段显示于动态生成的网页内。


5.根据权利要求1所述的方法,其中所述未结构化的文本语料库包括来自一个或多个参考源的文本,且所述方法进一步包括:
从所述一个或多个参考源选择来自针对所述概念的所述有序片段列表的所述排名第一的片段;以及
抛弃来自所述一个或多个参考源中的每一个的针对所述概念的所述有序片段列表中的所有其它片段。


6.根据权利要求1所述的方法,其中对所述多个片段排名进一步基于确定具有针对所述概念的片段的所述章节的所述标题与所述概念之间的相似度,使得当将第一章节的第一标题确定为与所述概念相似时,在所述第一章节内的第一片段排名比第二章节的第二片段高,其中将所述第二章节的第二标题判定为不与所述概念相似。


7.根据权利要求1所述的方法,其中所述未结构化的文本语料库包括以下中的至少一个的一个或多个章节、段落或章:期刊文章、文件或书本。


8.根据权利要求1所述的方法,其中在所述分类内定义的所述概念包括优选标签和至少一个替代标签,其中所述优选标签和所述至少一个替代标签对应于在所述分类内的唯一共同概念ID。


9.根据权利要求1所述的方法,其中所述一个或多个片段过滤条件包括以下中的至少一个:所述章节内的语言符号的所述记数低于下阈值,所述章节内的语言符号的所述记数大于上阈值,或将所述章节识别为排除的章节。


10.一种自动生成主题内容摘要的方法,所述方法包括:
在计算装置处接收对于概念的分类;
在所述计算装置处接收未结构化的文本语料库;
基于所述分类从所述未结构化的文本语料库生成有注释的数据集,其中所述有注释的数据集包括对应于所述概念的一个或多个术语注释;
将所述有注释的数据集剖析成具有结构化的布局的定制生成的文件对象,其中所述定制生成的文件对象定义所述有注释的数据集内的一个或多个句子;
识别针对所述概念的一个或多个潜在定义句子;
针对所述一个或多个潜在定义句子中的每一个确定一个或多个特征;
基于所述一个或多个特征对所述一个或多个潜在定义句子评分,使得所述一个或多个潜在定义句子中的每一个包括综合评分,其中所述一个或多个特征包括以下中的至少一个:标题权重、动词权重、句子权重或相似度权重,其中:
所述标题权重与包括所述一个或多个潜在定义句子中的一个的章节的标题与所述概念的相似度相关联,
所述动词权重与表示定义的动词的存在相关联,
所述句子权重与所述一个或多个潜在定义句子在所述章节的段落内的位置相关联,并且
所述相似度权重与藉由比较所述一个或多个潜在定义句子中的一个与所述概念的标准定义来定...

【专利技术属性】
技术研发人员:马吕斯·多恩巴尔斯里尼瓦桑·萨提亚·萨米尔·库马尔·希武库拉贾德森·邓纳姆瑞克·米斯拉米歇尔·格雷戈里
申请(专利权)人:爱思唯尔有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1