【技术实现步骤摘要】
文本处理方法、装置、计算机设备及计算机可读存储介质
本申请涉及计算机
,特别是涉及一种文本处理方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着计算机技术的发展,越来越多的用户选择在互联网上通过文本进行信息的表达和传递,从而涉及到文本处理的场景越来越多,比如事件类型识别等。事件类型识别是事件体系构建的关键环节,广泛应用于金融领域、教育领域等等。通过对文本所属的事件类型进行识别,可对文本进行归类,从而快速挖掘某一事件类型的信息。但是,传统的事件类型识别方式,通常是根据文本中的触发词确定文本所属的事件类型,而一些词汇在多个事件类型中均可作为触发词,这导致对事件类型识别的准确性不高。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高对文本的事件类型的识别准确性的文本处理方法、装置、计算机设备及计算机可读存储介质。一种文本处理方法,该方法包括:获取待识别文本、各个事件类型的关键词库以及各个事件类型的序列特征库;将待识别文本与各个关键词库中的关键词组进行 ...
【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n获取待识别文本、各个事件类型的关键词库以及各个所述事件类型的序列特征库;/n将所述待识别文本与各个所述关键词库中的关键词组进行匹配,得到与所述待识别文本匹配的目标关键词组,并根据所述目标关键词组确定所述待识别文本相应的候选事件类型;/n在每个所述候选事件类型的序列特征库中,查找得到与所述待识别文本匹配的目标序列特征、及所述目标序列特征相应的序列支持度;/n根据所述目标序列特征、及所述目标序列特征相应的序列支持度,确定每个所述候选事件类型的分类权重;/n根据所述分类权重,确定所述待识别文本所属的事件类型。/n
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
获取待识别文本、各个事件类型的关键词库以及各个所述事件类型的序列特征库;
将所述待识别文本与各个所述关键词库中的关键词组进行匹配,得到与所述待识别文本匹配的目标关键词组,并根据所述目标关键词组确定所述待识别文本相应的候选事件类型;
在每个所述候选事件类型的序列特征库中,查找得到与所述待识别文本匹配的目标序列特征、及所述目标序列特征相应的序列支持度;
根据所述目标序列特征、及所述目标序列特征相应的序列支持度,确定每个所述候选事件类型的分类权重;
根据所述分类权重,确定所述待识别文本所属的事件类型。
2.根据权利要求1所述的方法,其特征在于,所述序列特征库包括不同字段长度的序列特征;
所述在每个所述候选事件类型的序列特征库中,查找得到与所述待识别文本匹配的目标序列特征的方式,包括:
在每个所述候选事件类型的序列特征库中,查找得到与所述待识别文本匹配的各候选序列特征;
获取每个所述候选序列特征的字段长度;
选取字段长度最长的候选序列特征,作为所述目标序列特征。
3.根据权利要求2所述的方法,其特征在于,所述序列特征包括正向序列特征及负向序列特征;
所述在每个所述候选事件类型的序列特征库中,查找得到与所述待识别文本匹配的各候选序列特征,包括:
在每个所述候选事件类型的序列特征库中,查找与所述待识别文本匹配的各正向序列特征,作为候选正向序列特征;并查找与所述待识别文本匹配的各负向序列特征,作为候选负向序列特征;
所述选取字段长度最长的候选序列特征,作为所述目标序列特征,包括:
选取字段长度最长的候选正向序列特征,作为目标正向序列特征;并选取字段长度最长的候选负向序列特征,作为目标负向序列特征;
将所述目标正向序列特征和所述目标负向序列特征作为所述目标序列特征。
4.根据权利要求3所述的方法,其特征在于,所述序列支持度为正值;
所述根据所述目标序列特征、及所述目标序列特征相应的序列支持度,确定每个所述候选事件类型的分类权重之前,还包括:
确定所述目标序列特征所覆盖的序列特征类型;
其中,所述序列特征类型包括正向序列特征类型、负向序列特征类型及正负向序列特征类型;当所述目标序列特征仅包含所述目标正向序列特征时,所述序列特征类型为所述正向序列特征类型;当所述目标序列特征仅包含所述目标负向序列特征时,所述序列特征类型为所述负向序列特征类型;当所述目标序列特征包含所述目标正向序列特征和所述目标负向序列特征时,所述序列特征类型为所述正负向序列特征类型;
所述方法还包括:
当所述序列特征类型为所述正向序列特征类型时,根据所述目标正向序列特征相应的序列支持度,确定所述候选事件类型的分类权重;
当所述序列特征类型为所述负向序列特征类型时,根据所述目标负向序列特征相应的序列支持度的负值,确定所述候选事件类型的分类权重;
当所述序列特征类型为所述正负向序列特征类型时,根据所述目标正向序列特征相应的序列支持度、及所述目标负向序列特征相应的序列支持度的负值,确定所述候选事件类型的分类权重。
5.根据权利要求1所述的方法,其特征在于,所述根据所述分类权重,确定所述待识别文本所属的事件类型之前,还包括:
获取事件类型的分类标签;
所述根据所述分类权重,确定所述待识别文本所属的事件...
【专利技术属性】
技术研发人员:刘志煌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。