System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种词语处理方法、装置、设备、可读存储介质及产品制造方法及图纸_技高网

一种词语处理方法、装置、设备、可读存储介质及产品制造方法及图纸

技术编号:43156781 阅读:16 留言:0更新日期:2024-11-01 19:52
本申请实施例公开了一种词语处理方法、装置、设备、可读存储介质及产品,其中,方法包括:获取包括多个搜索语句的搜索语句集合;获取搜索语句集合中各个搜索语句的第一搜索次数和各个搜索语句的下探词的词语属性参数,基于第一搜索次数和词语属性参数,对搜索语句集合进行一级过滤处理,得到待过滤主题语句;获取待过滤主题语句为词语的概率,基于待过滤主题语句为词语的概率,对待过滤主题语句进行二级过滤处理,得到候选主题词;将候选主题词挂靠到主题体系下,挂靠后的候选主题词用于更新用于预测笔记对应的主题词的主题预测模型。采用本申请实施例,可以挖掘更多的主题词更新主题预测模型,提升针对笔记的主题词的预测准确性。

【技术实现步骤摘要】

本申请涉及计算机网络领域,具体涉及词语处理,尤其涉及一种词语处理方法、装置、设备、可读存储介质及产品


技术介绍

1、在多种数据交互平台中均支持对象发布各式各样的笔记,这些笔记描述的核心主题不尽相同,通过对这些笔记的核心主题进行识别,可以帮助平台中的搜索、推荐等业务更好地为对象呈现相关笔记。然而随着时间的推移,平台的使用对象会不断发布新笔记,这些笔记在内容上属于新的主题,无法被原有的主题体系所正确描述,因此在进行主题搜索时,无法搜到这部分笔记。因此,如何挖掘出更多的主题词,提升针对笔记的主题词的预测准确性是亟待解决的问题。


技术实现思路

1、本申请实施例提供一种词语处理方法、装置、设备、可读存储介质及产品,可以挖掘更多的主题词更新主题预测模型,提升针对笔记的主题词的预测准确性。

2、第一方面,本申请提供一种词语处理方法,包括:

3、获取搜索语句集合;该搜索语句集合中包括多个搜索语句,搜索语句是指搜索词语或多个搜索词语组成的词语组合;

4、获取该搜索语句集合中各个搜索语句的第一搜索次数和该各个搜索语句的下探词的词语属性参数,基于该第一搜索次数和该词语属性参数,对该搜索语句集合中的搜索语句进行一级过滤处理,得到待过滤主题语句;该各个搜索语句的下探词是指该各个搜索语句的下位词语;

5、获取该待过滤主题语句的词语参数,基于该待过滤主题语句的词语参数,对该待过滤主题语句进行二级过滤处理,得到候选主题词;该待过滤主题语句的词语参数用于反映该待过滤主题语句为词语的概率;

6、对该候选主题词进行挂靠处理,将该候选主题词挂靠到主题体系的多个参考主题词中与该候选主题词具有关联关系的参考主题词下;挂靠后的候选主题词用于更新主题预测模型,该主题预测模型用于基于笔记预测该笔记对应的主题词。

7、第二方面,本申请提供了一种词语处理装置,包括:

8、数据获取单元,用于获取搜索语句集合;该搜索语句集合中包括多个搜索语句,搜索语句是指搜索词语或多个搜索词语组成的词语组合;

9、一级过滤单元,用于获取该搜索语句集合中各个搜索语句的第一搜索次数和该各个搜索语句的下探词的词语属性参数,基于该第一搜索次数和该词语属性参数,对该搜索语句集合中的搜索语句进行一级过滤处理,得到待过滤主题语句;该各个搜索语句的下探词是指该各个搜索语句的下位词语;

10、二级过滤单元,用于获取该待过滤主题语句的词语参数,基于该待过滤主题语句的词语参数,对该待过滤主题语句进行二级过滤处理,得到候选主题词;该待过滤主题语句的词语参数用于反映该待过滤主题语句为词语的概率;

11、词语挂靠单元,用于对该候选主题词进行挂靠处理,将该候选主题词挂靠到主题体系的多个参考主题词中与该候选主题词具有关联关系的参考主题词下;挂靠后的候选主题词用于更新主题预测模型,该主题预测模型用于基于笔记预测该笔记对应的主题词。

12、第三方面,本申请提供了一种计算机设备,包括:处理器、存储器、网络接口;

13、上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序代码,上述处理器用于调用上述计算机程序代码,以使包含该处理器的计算机设备执行上述词语处理方法。

14、第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述词语处理方法。

15、第五方面,本申请提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令被处理器执行时实现本申请中的各种可选方式中提供的词语处理方法。

16、本申请实施例中,获取包括多个搜索语句的搜索语句集合;获取搜索语句集合中各个搜索语句的第一搜索次数和各个搜索语句的下探词的词语属性参数,基于第一搜索次数和词语属性参数,对搜索语句集合进行一级过滤处理,得到待过滤主题语句;获取待过滤主题语句为词语的概率,基于待过滤主题语句为词语的概率,对待过滤主题语句进行二级过滤处理,得到候选主题词;将候选主题词挂靠到主题体系下,挂靠后的候选主题词用于更新用于预测笔记对应的主题词的主题预测模型。由于结合了各个搜索语句的搜索次数和下位词语对获取到的搜索语句集合中的搜索语句进行一级过滤处理,以及结合待过滤主题语句为词语的概率对待过滤主题语句进行二级过滤处理,相当于从多个不同维度对搜索语句进行过滤,可以过滤掉搜索语句集合中包含长句子、多个词语组成的搜索语句,从而使得过滤得到的候选主题词更容易被后续应用。通过对候选主题词进行挂靠处理,可以提升后续应用场景中针对候选主题词的应用准确性。由于可以挖掘到更多的主题词更新主题预测模型,可以提升针对笔记的主题词的预测准确性。

本文档来自技高网...

【技术保护点】

1.一种词语处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述词语属性参数包括所述各个搜索语句的下探词的第二搜索次数和下探词的数量;所述基于所述第一搜索次数和所述词语属性参数,对所述搜索语句集合中的搜索语句进行一级过滤处理,得到待过滤主题语句,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所述待过滤主题语句的词语参数,包括:

4.根据权利要求3所述的方法,其特征在于,所述待过滤主题语句的数量为多个,所述待过滤主题语句的信息熵包括所述待过滤主题语句的左熵和右熵,所述待过滤主题语句的左熵用于基于所述待过滤主题语句左侧的相邻词语反映所述待过滤主题语句为词语的概率,所述待过滤主题语句的右熵用于基于所述待过滤主题语句右侧的相邻词语反映所述待过滤主题语句为词语的概率;

5.根据权利要求1所述的方法,其特征在于,所述对所述候选主题词进行挂靠处理,将所述候选主题词挂靠到主题体系的多个参考主题词中与所述候选主题词具有关联关系的参考主题词下,包括:

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:

8.一种词语处理装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。

11.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现权利要求1-7任一项所述的方法。

...

【技术特征摘要】

1.一种词语处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述词语属性参数包括所述各个搜索语句的下探词的第二搜索次数和下探词的数量;所述基于所述第一搜索次数和所述词语属性参数,对所述搜索语句集合中的搜索语句进行一级过滤处理,得到待过滤主题语句,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取所述待过滤主题语句的词语参数,包括:

4.根据权利要求3所述的方法,其特征在于,所述待过滤主题语句的数量为多个,所述待过滤主题语句的信息熵包括所述待过滤主题语句的左熵和右熵,所述待过滤主题语句的左熵用于基于所述待过滤主题语句左侧的相邻词语反映所述待过滤主题语句为词语的概率,所述待过滤主题语句的右熵用于基于所述待过滤主题语句右侧的相邻词语反映所述待过滤主题语句为词语的概率;

5.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:林健
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1