一种文本处理方法技术

技术编号：39714604 阅读：8 留言：0更新日期：2023-12-17 23:22

本发明专利技术公开了一种文本处理方法

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法、装置、设备以及存储介质

[0001]本专利技术涉及计算机领域，尤其涉及一种文本处理方法
、
装置
、
设备以及存储介质
。

技术介绍

[0002]随着浏览器的发展，在搜索引擎输入短文本内容进行搜索已经是广泛应用的场景，输入的短文本内容往往都有一个完整的意思表达，属于段落级文本
。
采用
NLP(
自然语言处理，
Natural Language Processing)
机器识别技术进行文本处理时，对于段落级短文本处理的准确性效率不高
。
[0003]如何更好的对短文本之间的关联关系进行分析，从而确定出文档级别的样本，以训练出准确的文本分类模型进行文本处理，是目前亟待解决的问题
。

技术实现思路

[0004]本专利技术提供了一种文本处理方法
、
装置
、
设备以及存储介质，可以更好的对短文本之间的关联关系进行分析，从而确定出文档级别的样本，以训练出准确的文本分类模型进行文本处理
。
[0005]根据本专利技术的一方面，提供了一种文本处理方法，包括：
[0006]基于预设的排除规则，根据预设的目标关键字，对输入法或搜索协议中的短文本语句进行筛选，确定目标语句；
[0007]根据目标语句的输入时间，基于预设的时间范围和输入次数阈值，确定目标语句对应的目标上下文语句；
[0008]根据所述目标关键字和所述目标上...

【技术保护点】

【技术特征摘要】
1.
一种文本处理方法，其特征在于，包括：基于预设的排除规则，根据预设的目标关键字，对输入法或搜索协议中的短文本语句进行筛选，确定目标语句；根据目标语句的输入时间，基于预设的时间范围和输入次数阈值，确定目标语句对应的目标上下文语句；根据所述目标关键字和所述目标上下文语句，生成目标样本，并采用所述目标样本进行模型训练得到文本分类模型，以进行文本分类处理
。2.
根据权利要求1所述的方法，其特征在于，基于预设的排除规则，根据预设的目标关键字，对输入法或搜索协议中的短文本语句进行筛选，确定目标语句，包括：基于正向排除规则和
/
或反向排除规则，根据预设的目标关键字，确定目标关键词对应的正向修饰词和反向修饰词；根据所述目标关键字
、
正向修饰词和反向修饰词，对输入法或搜索协议中的短文本语句进行筛选，确定目标语句
。3.
根据权利要求2所述的方法，其特征在于，根据所述目标关键字
、
正向修饰词和反向修饰词，对输入法或搜索协议中的短文本语句进行筛选，确定目标语句，包括：确定输入法或搜索协议中的短文本语句，并将所述短文本语句中包含所述目标关键字和
/
或正向修饰词的语句，确定为候选语句；将候选语句中不包含反向修饰词的语句，确定为目标语句
。4.
根据权利要求1所述的方法，其特征在于，根据目标语句的输入时间，基于预设的时间范围和输入次数阈值，确定目标语句对应的目标上下文语句，包括：根据目标语句的输入时间，基于预设的时间范围和输入次数阈值，确定输入目标语句前后预设次数范围内的候选上下文语句；根据各候选上下文语句和目标语句的语义关联关系，对候选上下文语句进行筛选，确定目标语句对应的目标上下文语句
。5.
根据权利要求4所述的方法，其特征在于，根据各候选上下文语句和目标语句的语义关联关系...

【专利技术属性】
技术研发人员：尹长青，李明明，谢永恒，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人