一种文本处理方法技术

技术编号:39714604 阅读:8 留言:0更新日期:2023-12-17 23:22
本发明专利技术公开了一种文本处理方法

【技术实现步骤摘要】
一种文本处理方法、装置、设备以及存储介质


[0001]本专利技术涉及计算机领域,尤其涉及一种文本处理方法

装置

设备以及存储介质


技术介绍

[0002]随着浏览器的发展,在搜索引擎输入短文本内容进行搜索已经是广泛应用的场景,输入的短文本内容往往都有一个完整的意思表达,属于段落级文本

采用
NLP(
自然语言处理,
Natural Language Processing)
机器识别技术进行文本处理时,对于段落级短文本处理的准确性效率不高

[0003]如何更好的对短文本之间的关联关系进行分析,从而确定出文档级别的样本,以训练出准确的文本分类模型进行文本处理,是目前亟待解决的问题


技术实现思路

[0004]本专利技术提供了一种文本处理方法

装置

设备以及存储介质,可以更好的对短文本之间的关联关系进行分析,从而确定出文档级别的样本,以训练出准确的文本分类模型进行文本处理

[0005]根据本专利技术的一方面,提供了一种文本处理方法,包括:
[0006]基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句;
[0007]根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句;
[0008]根据所述目标关键字和所述目标上下文语句,生成目标样本,并采用所述目标样本进行模型训练得到文本分类模型,以进行文本分类处理

[0009]根据本专利技术的另一方面,提供了一种文本处理装置,包括:
[0010]第一确定模块,用于基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句;
[0011]第二确定模块,用于根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句;
[0012]处理模块,用于根据所述目标关键字和所述目标上下文语句,生成目标样本,并采用所述目标样本进行模型训练得到文本分类模型,以进行文本分类处理

[0013]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的文本处理方法

[0017]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储
介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的文本处理方法

[0018]本专利技术实施例的技术方案,基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句;根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句;根据所述目标关键字和所述目标上下文语句,生成目标样本,并采用所述目标样本进行模型训练得到文本分类模型,以进行文本分类处理

通过这样的方式,可以更好的对短文本之间的关联关系进行分析,从而确定出文档级别的样本,以训练出准确的文本分类模型进行文本处理

[0019]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围

本专利技术的其它特征将通过以下的说明书而变得容易理解

附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0021]图1是本专利技术实施例一提供的一种文本处理方法的流程图;
[0022]图2是本专利技术实施例二提供的一种文本处理方法的流程图;
[0023]图3是本专利技术实施例三提供的一种文本处理装置的结构框图;
[0024]图4是本专利技术实施例四提供的电子设备的结构示意图

具体实施方式
[0025]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围

[0026]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”、“候选”、“备选”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施

此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程

方法

系统

产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程

方法

产品或设备固有的其它步骤或单元

[0027]在相关技术中,使用浏览器在搜索引擎输入内容进行搜索,每一句话都有一个完整的意思表达,属于段落级,段落之间可能存在关联,可能是一个主题或多个主题

自然语言的文本分类技术,目前主要有关键词匹配和
NLP(
自然语言处理,
Natural Language Processing)
机器识别两种方式,两种方式各有弊端

[0028]具体的,关键词碰撞分类不准确
(
只有不到
0.5
%的准确性
)
,问题来源包括:错误
的句子或语法

输入不全

错别字

重复输入部分段落

多义词等
。NLP
机器识别的症结则是样本准备的问题,样本需要具有文档级
(
文档级是指多行文字为关联性的一个完整意思的表达,段落级则是主题分散每行都是一个完整的意思表达
)
,模型才能够进行回归分析,如果只取每个段落作为样本,又存在分类上的困难
(
比如“多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句;根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句;根据所述目标关键字和所述目标上下文语句,生成目标样本,并采用所述目标样本进行模型训练得到文本分类模型,以进行文本分类处理
。2.
根据权利要求1所述的方法,其特征在于,基于预设的排除规则,根据预设的目标关键字,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句,包括:基于正向排除规则和
/
或反向排除规则,根据预设的目标关键字,确定目标关键词对应的正向修饰词和反向修饰词;根据所述目标关键字

正向修饰词和反向修饰词,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句
。3.
根据权利要求2所述的方法,其特征在于,根据所述目标关键字

正向修饰词和反向修饰词,对输入法或搜索协议中的短文本语句进行筛选,确定目标语句,包括:确定输入法或搜索协议中的短文本语句,并将所述短文本语句中包含所述目标关键字和
/
或正向修饰词的语句,确定为候选语句;将候选语句中不包含反向修饰词的语句,确定为目标语句
。4.
根据权利要求1所述的方法,其特征在于,根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定目标语句对应的目标上下文语句,包括:根据目标语句的输入时间,基于预设的时间范围和输入次数阈值,确定输入目标语句前后预设次数范围内的候选上下文语句;根据各候选上下文语句和目标语句的语义关联关系,对候选上下文语句进行筛选,确定目标语句对应的目标上下文语句
。5.
根据权利要求4所述的方法,其特征在于,根据各候选上下文语句和目标语句的语义关联关系...

【专利技术属性】
技术研发人员:尹长青李明明谢永恒
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1