【技术实现步骤摘要】
一种基于文本分类和信息抽取的暗网商品标注方法及系统
[0001]本专利技术涉及信息分类领域,特别涉及一种基于文本分类和信息抽取的暗网商品标注方 法及系统。
技术介绍
[0002]本专利技术涉及暗网商品标注多使用人工标注,各个站点没有统一的分类体系和分类模型; 明网商品标注多基于分类和实体抽取模型。然而不论是文本分类模型还是实体抽取模型都 存在一定的局限性。
[0003]文本分类模型进行暗网商品的细粒度分类,由于标签个数多,模型效果一般较差,难 以达到较高的准确率。
[0004]实体抽取模型进行暗网商品的细粒度标注,存在标注粒度太散的问题,同时高度依赖 于知识库的完备性,暗网数据较为稀疏,构建完备的暗网商品知识库需要耗费大量的人力。
技术实现思路
[0005]针对文本分类模型和实体抽取模型难以达到细粒度标注的问题,本专利技术提出一种基于 文本分类和信息抽取的暗网商品标注方法及系统,该方案结合文本分类和信息抽取技术, 提升暗网商品理解效果和数据标注的鲁棒性。
[0006]本专利技术采用的技 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本分类和信息抽取的暗网商品标注方法,其特征在于,构建暗网商品分类体系,对商品进行分类,得到商品的分类标签;提取暗网商品描述文本中的关键信息获取信息标签;融合分类标签与信息标签对商品进行标注。2.根据权利要求1所述的基于文本分类和信息抽取的暗网商品标注方法,其特征在于,所述分类标签包括两级类别标签,二级类别标签为一级类别标签下的细分类别标签。3.根据权利要求1或2所述的基于文本分类和信息抽取的暗网商品标注方法,其特征在于,所述对商品进行分类方法为:若暗网存在商品自有商品类别,则直接通过映射模型将将其原有的商品类别映射到统一的暗网商品分类体系中;若不存在,则通过有监督机器学习模型为商品标注所属类别。4.根据权利要求3所述的基于文本分类和信息抽取的暗网商品标注方法,其特征在于,所述映...
【专利技术属性】
技术研发人员:刘志洁,丁建伟,李欣泽,李雄峰,陈周国,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。