【技术实现步骤摘要】
一种文本处理方法、装置、设备以及存储介质
[0001]本专利技术涉及计算机领域,尤其涉及一种文本处理方法
、
装置
、
设备以及存储介质
。
技术介绍
[0002]随着浏览器的发展,在搜索引擎输入短文本内容进行搜索已经是广泛应用的场景,输入的短文本内容往往都有一个完整的意思表达,属于段落级文本
。
采用
NLP(
自然语言处理,
Natural Language Processing)
机器识别技术进行文本处理时,对于段落级短文本处理的准确性效率不高
。
[0003]如何更好的对短文本之间的关联关系进行分析,从而确定出文档级别的样本,以训练出准确的文本分类模型进行文本处理,是目前亟待解决的问题
。
技术实现思路
[0004]本专利技术提供了一种文本处理方法
、
装置
、
设备以及存储介质,可以更好的对短文本之间的关联关系进行分析,从而确定出文档级别的样本,以训练出准确的文本分类模型进行文本处理
。
[0005]根据本专利技术的一方面,提供了一种文本处理方法,包括:
[0006]基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句;
[0007]根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句;
[0008]根据所述目标关键字和所述目标上 ...
【技术保护点】
【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句;根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句;根据所述目标关键字和所述目标上下文语句,生成目标样本,并采用所述目标样本进行模型训练得到文本分类模型,以进行文本分类处理
。2.
根据权利要求1所述的方法,其特征在于,基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句,包括:基于正向排除规则和
/
或反向排除规则,根据预设的目标关键字,确定目标关键词对应的正向修饰词和反向修饰词;根据所述目标关键字
、
正向修饰词和反向修饰词,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句
。3.
根据权利要求2所述的方法,其特征在于,根据所述目标关键字
、
正向修饰词和反向修饰词,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句,包括:确定输入法或搜索协议中的短文本语句,并将所述短文本语句中包含所述目标关键字和
/
或正向修饰词的语句,确定为候选语句;将候选语句中不包含反向修饰词的语句,确定为目标语句
。4.
根据权利要求1所述的方法,其特征在于,根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句,包括:根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定输入目标语句前后预设次数范围内的候选上下文语句;根据各候选上下文语句和目标语句的语义关联关系,对候选上下文语句进行筛选,确定目标语句对应的目标上下文语句
。5.
根据权利要求4所述的方法,其特征在于,根据各候选上下文语句和目标语句的语义关联关系...
【专利技术属性】
技术研发人员:尹长青,李明明,谢永恒,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。