一种词典构建方法和装置制造方法及图纸

技术编号:31227598 阅读:15 留言:0更新日期:2021-12-08 09:36
本发明专利技术公开了一种词典构建方法和装置,涉及计算机技术领域。该方法的一种具体实施方式包括:根据标点符号将目标文本中的句子划分为一个或多个子句;使用基于半监督学习算法训练的文本分类模型,预测目标文本中的子句归属于预先构建的商品要素词典所包含的商品要素的第一概率;在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率;在所述词归属于所述商品要素的第二概率大于第二阈值概率的情况下,将所述词用作所述商品要素的要素词添加至所述商品要素词典。该实施方式实现了对词典的自动扩充,提高了词典的构建效率。提高了词典的构建效率。提高了词典的构建效率。

【技术实现步骤摘要】
一种词典构建方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种词典构建方法和装置。

技术介绍

[0002]在电子商务领域,为便于用户快速了解商品性能以刺激用户的购买欲,常需根据商品的详细信息为用户生成涵盖有商品要素的商品摘要,所谓的商品要素则是指用于描述商品性能的字词。而在生成商品摘要的过程中,又需要基于预先构建的商品要素词典所包含的商品要素的要素词来确定商品的详细信息中包含的商品要素,进而为用户生成涵盖有商品要素的商品摘要。其中,要素词则是指商品要素的同义词、近义词或者下位词等,如“手机”具有“屏幕”、“电池”等多个商品要素,而“屏幕”这一商品要素又具有“屏幕尺寸”、“分辨率”、“全面屏”、“曲面屏”等要素词。
[0003]因此,构建的商品要素词典的完善性、准确性对确定商品详细信息中包含的商品要素至关重要,进而影响生成的商品摘要的质量。目前,常通过人工标注的方式构建商品要素词典,但由于商品的描述文本数量巨大,人工标注的效率较低,影响商品要素词典的构建效率;此外,由于不同的人对商品要素的认知不同,标注一致性差,准确率和覆盖率低,构建的商品要素词典实际应用效果不佳。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种词典构建方法和装置,能够使用基于半监督学习算法构建的文本分类模型,实现对商品要素词典的自动扩充及更新,使得构建的商品要素词典更完善、更准确。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种词典构建方法,包括:
[0006]根据标点符号将目标文本中的句子划分为一个或多个子句;
[0007]使用基于半监督学习算法训练的文本分类模型,预测目标文本中的子句归属于预先构建的商品要素词典所包含的商品要素的第一概率;
[0008]在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率;
[0009]在所述词归属于所述商品要素的第二概率大于第二阈值概率的情况下,将所述词用作所述商品要素的要素词添加至所述商品要素词典。
[0010]可选地,基于所述半监督学习算法,训练所述文本分类模型,包括:
[0011]基于所述商品要素词典获取训练数据,所述训练数据指示了一个或多个子句及所述子句归属于所述商品要素的第一概率;
[0012]向所述文本分类模型中输入所述训练数据,以根据所述子句归属于所述商品要素的第一概率计算所述文本分类模型的当前损失函数,并根据所述当前损失函数对所述文本分类模型进行优化;
[0013]使用优化后的所述文本分类模型,预测不包含商品要素的子句归属于所述商品要素的第三概率;
[0014]在所述第三概率大于所述第一阈值概率的情况下,将所述子句、所述子句对应的第三概率添加至所述训练数据,以对所述文本分类模型继续进行优化。
[0015]可选地,所述基于所述商品要素词典获取训练数据,所述训练数据指示了一个或多个子句及所述子句归属于所述商品要素的第一概率,包括:
[0016]判断所述子句中是否包含所述商品要素词典所包含的商品要素的要素词;
[0017]若所述子句包含所述商品要素的要素词,则所述第一概率为第一值;
[0018]若所述子句不包含所述商品要素的要素词且同一句子中与所述子句相邻的其他子句包含所述商品要素的要素词,则所述第一概率为第二值。
[0019]可选地,所述在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率,包括:
[0020]根据所述子句归属于所述商品要素的概率,确定所述词在不同的所述子句中归属于所述商品要素的概率;
[0021]计算所述词在不同的所述子句中归属于所述商品要素的概率平均值以获取所述第二概率。
[0022]可选地,在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,还包括:
[0023]计算归属于同一所述商品要素的所有所述子句中所述词的出现频率;
[0024]根据所述词的出现频率由高到低的顺序,确定一个或多个所述词,以将所述词用作所述商品要素的要素词添加至所述商品要素词典。
[0025]可选地,还包括:
[0026]在计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率之前,判断所述词是否属于禁用要素词列表;
[0027]在所述词不属于所述禁用要素词列表的情况下,计算所述词归于属于所述商品要素的第二概率。
[0028]可选地,还包括:
[0029]在计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率之前,判断所述词是否属于停用词;
[0030]在所述词不属于停用词的情况下,计算所述词归于属于所述商品要素的第二概率。
[0031]为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种词典构建装置,包括:子句获取模块、第一概率预测模块、第二概率计算模块、词典扩充模块;其中,
[0032]所述子句获取模块,用于根据标点符号将目标文本中的句子划分为一个或多个子句;
[0033]所述第一概率预测模块,用于使用基于半监督学习算法训练的文本分类模型,预测目标文本中的子句归属于预先构建的商品要素词典所包含的商品要素的第一概率;
[0034]所述第二概率计算模块,用于在所述子句归属于所述商品要素的第一概率大于第
一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率;
[0035]所述词典扩充模块,用于在所述词归属于所述商品要素的第二概率大于第二阈值概率的情况下,将所述词用作所述商品要素的要素词添加至所述商品要素词典。
[0036]可选地,还包括:分类模型训练模块;其中,所述分类模型训练模块,用于,
[0037]基于所述商品要素词典获取训练数据,所述训练数据指示了一个或多个子句及所述子句归属于所述商品要素的第一概率;
[0038]向所述文本分类模型中输入所述训练数据,以根据所述子句归属于所述商品要素的第一概率计算所述文本分类模型的当前损失函数,并根据所述当前损失函数对所述文本分类模型进行优化;
[0039]使用优化后的所述文本分类模型,预测不包含商品要素的子句归属于所述商品要素的第三概率;
[0040]在所述第三概率大于所述第一阈值概率的情况下,将所述子句、所述子句对应的第三概率添加至所述训练数据,以对所述文本分类模型继续进行优化。
[0041]可选地,所述基于所述商品要素词典获取训练数据,所述训练数据指示了一个或多个子句及所述子句归属于所述商品要素的第一概率,包括:
[0042]判断所述子句中是否包含所述商品要素词典所包含的商品要素的要素词;
[0043]若所述子句包含所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词典构建方法,其特征在于,包括:根据标点符号将目标文本中的句子划分为一个或多个子句;使用基于半监督学习算法训练的文本分类模型,预测目标文本中的子句归属于预先构建的商品要素词典所包含的商品要素的第一概率;在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率;在所述词归属于所述商品要素的第二概率大于第二阈值概率的情况下,将所述词用作所述商品要素的要素词添加至所述商品要素词典。2.根据权利要求1所述的词典构建方法,其特征在于,基于所述半监督学习算法,训练所述文本分类模型,包括:基于所述商品要素词典获取训练数据,所述训练数据指示了一个或多个子句及所述子句归属于所述商品要素的第一概率;向所述文本分类模型中输入所述训练数据,以根据所述子句归属于所述商品要素的第一概率计算所述文本分类模型的当前损失函数,并根据所述当前损失函数对所述文本分类模型进行优化;使用优化后的所述文本分类模型,预测不包含商品要素的子句归属于所述商品要素的第三概率;在所述第三概率大于所述第一阈值概率的情况下,将所述子句、所述子句对应的第三概率添加至所述训练数据,以对所述文本分类模型继续进行优化。3.根据权利要求2所述的词典构建方法,其特征在于,所述基于所述商品要素词典获取训练数据,所述训练数据指示了一个或多个子句及所述子句归属于所述商品要素的第一概率,包括:判断所述子句中是否包含所述商品要素词典所包含的商品要素的要素词;若所述子句包含所述商品要素的要素词,则所述第一概率为第一值;若所述子句不包含所述商品要素的要素词且同一句子中与所述子句相邻的其他子句包含所述商品要素的要素词,则所述第一概率为第二值。4.根据权利要求1所述的词典构建方法,其特征在于,所述在所述子句归属于所述商品要素的第一概率大于第一阈值概率的情况下,计算所述子句中除所述商品要素当前包含的要素词以外的词归属于所述商品要素的第二概率,包括:根据所述子句归属于所述商品要素的概率,确定所述词在不同的所述子句中归属于所述商品要素的概率;计算所述词在不同的所述子句中归属于所述商品要素的概率平...

【专利技术属性】
技术研发人员:李浩然袁鹏
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1