【技术实现步骤摘要】
一种用于生成文本的摘要的方法及系统
本专利技术涉及文字处理领域,尤其涉及一种用于生成文本的摘要的方法及系统。
技术介绍
目前,存在多种提取文本的摘要的方法。例如,基于简单统计来提取摘要的方法。该方法可以根据句子中的各个单词出现的频率而对文本中的每一个句子打分,从而得到句子重要性的排序,并且将最重要句子作为文本的摘要。然而,这类方法的缺点在于,所提取的摘要的最小单位是一个句子。然而对于汉语而言,一个句子可能是一个复句,该复句可能由多个子句形成,各个子句通过逗号、顿号、分号连接。因此,作为摘要的句子仍然可能非常长,阅读起来仍然耗费较多时间。
技术实现思路
本专利技术的一个方面提供了一种用于生成文本的摘要的方法,包括:预处理所述文本;标注所述文本中的词语的词性并确定所述文本中存在的语法结构;基于所述词性和所述语法结构确定所述词语的语义角色的类别;按照预定算法在所述文本的分句中提取所述文本的摘要;以及调整所述摘要。本专利技术的另一方面提供了一种用于生成文本的摘要的方法,包括:预处理所述文本;按照预 ...
【技术保护点】
1.一种用于生成文本的摘要的方法,包括:/n预处理所述文本;/n标注所述文本中的词语的词性并确定所述文本中存在的语法结构;/n基于所述词性和所述语法结构确定所述词语的语义角色的类别;/n按照预定算法在所述文本的分句中提取所述文本的摘要;和/n调整所述摘要。/n
【技术特征摘要】
1.一种用于生成文本的摘要的方法,包括:
预处理所述文本;
标注所述文本中的词语的词性并确定所述文本中存在的语法结构;
基于所述词性和所述语法结构确定所述词语的语义角色的类别;
按照预定算法在所述文本的分句中提取所述文本的摘要;和
调整所述摘要。
2.根据权利要求1所述的方法,其中,所述预处理所述文本的步骤包括:
对所述文本进行分词,以获得所述词语。
3.根据权利要求2所述的方法,其中,所述预处理所述文本的步骤还包括:
去除所述文本中的停用词;或
利用正则表达式从具有HTML格式的富文本中提取所述文本。
4.根据权利要求1所述的方法,其中,所述基于所述词性和所述语法结构确定所述词语的语义角色的类别的步骤还包括:
基于所述词性将所述语法结构中的动词作为谓语;
根据所述谓语确定与所述谓语相关的相关词语;和
基于分类模型确定所述相关词语的语义角色的类别。
5.根据权利要求4所述的方法,其中,所述基于分类模型确定所述相关词语的语义角色的类别的步骤包括:
按照语义角色的类别对所述相关词语中的每一个词语进行分类,并且确定所述每一个词语能够从属的类别;和
在所述类别的任一类别中,评估所从属的每一个词语的分值,将所述分值高于阈值的词语确定为具有语义角色的该任一类别。
6.根据权利要求1所述的方法,其中,所述调整所述摘要的步骤包括:
在所述摘要中的首个词语的词性为代词,则在所述文本中、在所述摘要之前的分句中查找距离所述摘要最近的、语义角色的类别为宾语的词语,并将所述首个词语替换为所述语义角色的类别为宾语的词语;或
如果在所述摘要中的首个词语的词性不为名词和代词,则在所述文本中、在所述摘要之前的分句中查找距离所述摘要最近的、语义角色的类别为主语的词语,并将所述语义角色的类别为主语的词语添加至所述摘要的开头。
7.根据权利要求1所述的方法,其中,所述调整所述摘要的步骤包括:
如果在所述摘要中不包含语义角色的类别为时间和/或地点的词语,并且在所述文本中存在语义角色的类别为时间和/或地点的词语,则将所述语义角色的类别为时间和/或地点的词语添加至所述摘要的开头。
8.一种用于生成文本的摘要的方法,包括:
预处理所述文本;
按照预定算法在所述文本的句子中提取所述文本的第一摘要;
标注所述第一摘要中的词语的词性并确定所述第一摘要中存在的语法结构;
基于所述词性和所述语法结构确定所述词语的语义角色的类别;
按照所述预定算法在所述第一摘要的分句中提取所述第一摘要的第二摘要;和
调整所述第二摘要。
9.根据权利要求8所述的方法,其中,所述预处理所述文本的步骤包括:
对所述文本进行分词,以获得所述词语。
10.根据权利要求9所述的方法,其中,所述预处理所述文本的步骤还包括:
去除所述文本中的停用词;或
利用正则表达式从具有HTML格式的富文本中提取所述文本。
11.根据权利要求8所述的方法,其中,所述基于所述词性和所述语法结构确定所述词语的语义角色的类别的步骤还包括:
基于所述词性将所述语法结构中的动词作为谓语;
根据所述谓语确定与所述谓语相关的相关词语;和
基于分类模型确定所述相关词语的语义角色的类别。
12.根据权利要求11所述的方法,其中,所述基于分类模型确定所述相关词语的语义角色的类别的步骤包括:
按照语义角色的类别对所述相关词语中的每一个词语进行分类,并且确定所述每一个词语能够从属的类别;和
在所述类别的任一类别中,评估所从属的每一个词语的分值,将所述分值高于阈值的词语确定为具有语义角色的该任一类别。
13.根据权利要求8所述的方法,其中,所述调整所述第二摘要的步骤包括:
在所述第二摘要中的首个词语的词性为代词,则在所述第一摘要中、在所述第二摘要之前的分句中查找距离所述第二摘要最近的、语义角色的类别为宾语的词语,并将所述首个词语替换为所述语义角色的类别为宾语的词语;或
如果在所述第二摘要中的首个词语的词性不为名词和代词,则在所述第一摘要中、在所述第二摘要之前的分句中查找距离所述第二摘要最近的、语义角色的类别为主语的词语,并将所述语义角色的类别为主语的词语添加至所述第二摘要的开头。
14.根据权利要求8所述的方法,其中,所述调整所述第二摘要的步骤包括:
如果在所述第二摘要中不包含语义角色的类别为时间和/或地点的词语,并且在所述第一摘要中存在语义角色的类别为时间和/或地点的词语,则将所述语义角色的类别为时间和/或地点的词语添加至所述第二摘要的开头。
15.一种用于生成文本的摘要的系统,包括:
文本预处理系统,其用于预处理所述文本;
词性标注及语法结构分析系统,其用于标注所述文本中的词语的词性并确定所述文本中存在的语法结构;
语义角色标注系统,其用于基于所述词性和所述语法结构确定所述词语的语义...
【专利技术属性】
技术研发人员:王欣晟,周继恩,陆堃彪,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。