短语生成方法、装置和计算机可读存储介质制造方法及图纸

技术编号:31229643 阅读:30 留言:0更新日期:2021-12-08 09:58
本公开涉及一种短语生成方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:针对获取的每个初始短语,确定初始短语中各个分词的词性和顺序,得到初始短语的词性组合,其中,词性组合为按照各个分词的顺序排列的各个分词的词性;根据每种词性组合出现的次数,选取一种或多种词性组合;从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。选取备选短语作为生成的短语。选取备选短语作为生成的短语。

【技术实现步骤摘要】
短语生成方法、装置和计算机可读存储介质


[0001]本公开涉及计算机
,特别涉及一种短语生成方法、装置和计算机可读存储介质。

技术介绍

[0002]互联网平台上的对象经常使用一些短语来描述。例如“美白保湿”、“户外烧烤”等。这些短语可以作为对象的标签进行外露展示,也可以为搜索侧提供索引,为文本生成等生成项目提供写作素材。例如,可以通过“短语+产品词”组合构建与SKU之间的搜索索引,这样能引导用户搜索相关关键词时,相关产品就能够快速被锁定。
[0003]这些短语是两个或多个词构成一定的组合关系,又经常在不同的句子里一起使用的固定片段。目前专利技术人已知的互联网平台生成短语的方法为人为设置一些词语组合的规则,按照规则将词语进行组合得到短语。

技术实现思路

[0004]专利技术人发现:人工设置的规则不一定很通用,可能生成大量质量较差的短语,例如短语中的词语完全没有关系,表达的含义不清楚。
[0005]本公开所要解决的一个技术问题是:如何提高短语生成的质量和有效率。
[0006]根据本公开的一些实施例,提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种短语生成方法,包括:针对获取的每个初始短语,确定所述初始短语中各个分词的词性和顺序,得到所述初始短语的词性组合,其中,所述词性组合为按照各个分词的顺序排列的各个分词的词性;根据每种词性组合出现的次数,选取一种或多种词性组合;从备选文本的各个分词中筛选出符合选取的词性组合中的词性的分词,并按照选取的词性组合生成短语,作为备选短语;根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语。2.根据权利要求1所述的短语生成方法,其中,所述根据每个备选短语中各个分词的紧密程度,选取备选短语作为生成的短语包括:针对每个备选短语,根据该备选分词中各个分词分别在预设文本中出现的次数以及各个分词连续在预设文本中出现的次数,确定该备选短语中各个分词的紧密程度;选取紧密程度不低于紧密程度阈值的备选短语,作为生成的短语。3.根据权利要求2所述的短语生成方法,其中,针对每个备选短语,该备选短语中各个分词的紧密程度为各个分词连续在预设文本中出现的概率与各个分词分别在预设文本中出现的概率的乘积的比值。4.根据权利要求1所述的短语生成方法,其中,所述根据每种词性组合出现的次数,选取一种或多种词性组合包括:针对每种词性组合,根据该词性组合出现的次数、各个词性组合出现的次数中的最大次数和最小次数,确定该词性组合的权重;选取权重不低于权重阈值的一种或多种词性组合。5.根据权利要求1所述的短语生成方法,还包括:在生成的短语中包括具有相同分词且分词的顺序不同的多个短语的情况下,确定多个短语中每个短语的分词序列出现的概率;根据各个短语的分词序列出现的概率,确定各个短语的通顺度;根据各个短语的通顺度,选取一个或多个短语,更新为生成的短语。6.根据权利要求5所述的短语生成方法,其中,所述确定多个短语中每个短语的分词序列出现的概率包括:将每个短语的分词序列输入预先训练的自然语言处理模型,得到每个短语的分词序列出现的概率。7.根据权利要求5所述的短语生成方法,其中,所述根据各个短语...

【专利技术属性】
技术研发人员:朱鹏军巨荣辉崔明葛一迪刘朋樟
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1