一种网页内容的多维度标注方法及装置制造方法及图纸

技术编号:20389930 阅读:21 留言:0更新日期:2019-02-20 02:52
本发明专利技术公开了一种网页内容的多维度标注方法及装置,该方法包括:将待标注的网页内容文本转换为词向量;根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将第二类维度实体词与第二类维度规则知识库进行匹配,得到第二类维度标注结果。本发明专利技术从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。

【技术实现步骤摘要】
一种网页内容的多维度标注方法及装置
本专利技术涉及数据挖掘领域,特别是涉及一种网页内容的多维度标注方法及装置。
技术介绍
如何通过分析互联网网页内容,提取并对网页进行标注是互联网数据管理和挖掘等应用的重要基础。目前,对网页进行分类标注的方法中,多采用基于词频统计的方法,其标注准确率低;同时,目前的网页标注通常只对单一维度进行标注处理,标注信息量有限,不利于全面掌握网页信息。
技术实现思路
本专利技术提供一种网页内容的多维度标注方法及装置,用以解决现有技术的分类标准方法准确率低且标注信息量有限的问题。为解决上述技术问题,一方面,本专利技术提供一种网页内容的多维度标注方法,包括:将待标注的网页内容文本转换为词向量;根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。进一步,所述将待标注的网页内容文本转换为词向量,包括:使用词向量生成工具在预设语料库中生成词向量列表;将所述待标注的网页内容文本进行分词处理;根据所述词向量列表,将所述分词转换为所述词向量。进一步,所述将待标注的网页内容文本转换为词向量之后,还包括:将所述待标注的网页内容文本与预设应急标注项进行相似度对比;在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。进一步,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。进一步,所述构建第二类维度规则知识库,包括:在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。另一方面,本专利技术还提供一种网页内容的多维度标注装置,包括:转换模块,用于将待标注的网页内容文本转换为词向量;第一类维度标注模块,用于根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;识别模块,用于对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建模块,用于构建第二类维度规则知识库;第二类维度标注模块,用于将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。进一步,所述转换模块,具体用于:使用词向量生成工具在预设语料库中生成词向量列表;将所述待标注的网页内容文本进行分词处理;根据所述词向量列表,将所述分词转换为所述词向量。进一步,还包括:对比模块,用于将所述待标注的网页内容文本与预设应急标注项进行相似度对比;所述第一类维度标注模块,还用于在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。进一步,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。进一步,所述构建模块,具体用于:在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。本专利技术从网页的内容出发,利用有监督的深度学习分类方法卷积神经网络对第一类维度进行标注,解决了传统基于词频统计分类方法分类准确率低的问题;利用命名实体识别和规则知识库对第二类维度进行标注,丰富了网页的标注内容,提升了用户体验。附图说明图1是本专利技术第一实施例中网页内容的多维度标注方法的流程图;图2是本专利技术第一实施例中CNN分类模型示意图;图3是本专利技术第二实施例中网页内容的多维度标注装置的结构示意图;图4是本专利技术第二实施例中另一种网页内容的多维度标注装置的结构示意图。具体实施方式为了解决现有技术的分类标准方法准确率低且标注信息量有限的问题,本专利技术提供了一种网页内容的多维度标注方法及装置,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。本专利技术的第一实施例公开了一种网页内容的多维度标注方法,其流程示意图如图1所示,主要包括步骤S101至S105:S101,将待标注的网页内容文本转换为词向量。网页的内容通常包括文本、图片、跳转链接,甚至视频播放器、音频播放器等,而对网页进行分类标注时,由于文本内容最容易获取,也最能直接反应网页需要表示的内容,因此通常只根据网页的文本内容进行标注。在针对待标注的网页内容文本进行基于第一类维度的标注之前,在本实施例中,第一类维度为事件维度,首先将待标注的网页内容文本转换为词向量,以方便进行后续的深度自然学习和分类。具体地,将待标注的网页内容文本转换为词向量时,首先使用词向量生成工具在预设语料库中生成词向量列表,在本实施例中使用搜狗语料作为预设语料库,也可以使用其他语料库作为预设语料库;其次将待标注的网页内容文本进行分词处理,文本分词使用的是语言技术平台(LTP,LanguageTechnologyPlantform)工具,也可使用StandfordcoreNLP或中科院NLPIR分词系统,具体分词工具的选用根据实际情况而定;最后,根据词向量列表,将分词转换为词向量,其中,词向量生成使用的是词向量word2vec工具,也可使用其他工具进行,本实施例在此不进行限制。S102,根据词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果。根据步骤S101得到的词向量结果,通过卷积神经网络(CNN,ConvolutionalNeuralNetwork)分类模型进行分类,根据对各个分类进行评分的阈值设定,可以得到分类结果,分类结果即为第一类维度的标注结果,本实施例中使用的CNN分类模型如图2所示。进一步地,在将待标注的网页内容文本转换为词向量之后,可以将待标注的网页内容文本与预设应急标注项进行相似度对比,在相似度超过预设相似度的情况下,将预设应急标注项作为待标注的网页内容的第一类维度标注结果,可以对事件标注结果进行快速确定;在相似度未超过预设相似度的情况下,再使用CNN分类模型进行分类。与此同时,还可以通过人工对标注结果进行核查,将标注错误的网页添加到应急标注项,待应急标注处理使用,在后续的标注过程中,通过应急标注处理,可以对修正的事件标注结果进行快速线上更正反馈。另外,本专利技术实施例中还可以对CNN分类模型进行训练和更新,根据样本数据对CNN分类器进行重新训练,训练结束后,更新分类模型,完成分类器的线下更新,保证分类算法更新灵活,线上和线下均可实现更新操作。S103,对待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词。在本实施例中,第二类维度包括至少以下维度本文档来自技高网...

【技术保护点】
1.一种网页内容的多维度标注方法,其特征在于,包括:将待标注的网页内容文本转换为词向量;根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。

【技术特征摘要】
1.一种网页内容的多维度标注方法,其特征在于,包括:将待标注的网页内容文本转换为词向量;根据所述词向量,进行卷积神经网络分类,并将分类结果作为第一类维度标注结果;对所述待标注的网页内容进行第二类维度实体识别,得到第二类维度实体词;构建第二类维度规则知识库;将所述第二类维度实体词与所述第二类维度规则知识库进行匹配,得到第二类维度标注结果。2.如权利要求1所述的多维度标注方法,其特征在于,所述将待标注的网页内容文本转换为词向量,包括:使用词向量生成工具在预设语料库中生成词向量列表;将所述待标注的网页内容文本进行分词处理;根据所述词向量列表,将所述分词转换为所述词向量。3.如权利要求1所述的多维度标注方法,其特征在于,所述将待标注的网页内容文本转换为词向量之后,还包括:将所述待标注的网页内容文本与预设应急标注项进行相似度对比;在所述相似度超过预设相似度的情况下,将所述预设应急标注项作为所述待标注的网页内容的第一类维度标注结果。4.如权利要求1至3中任一项所述的多维度标注方法,其特征在于,所述第一类维度至少包括:事件维度;所述第二类维度至少包括以下维度之一:人物维度、地点维度、时间维度、组织机构维度。5.如权利要求4所述的多维度标注方法,其特征在于,所述构建第二类维度规则知识库,包括:在所述第二类维度为人物维度时,根据历史总结的重点人物信息,构建重点人物规则知识库;在所述第二类维度为地点维度时,根据地理实体编码规则,构建地点规则知识库;在所述第二类维度为时间维度时,根据历史总结的特殊时期信息,构建特殊时期规则知识库;在所述第二类维度为组织机构维度时,根据组织机构代码表对现有组织机构建设情况进行枚举,构建组织机构规则知识库。6.一种网页内容的多维度标注装置...

【专利技术属性】
技术研发人员:李扬曦杜翠兰佟玲玲段东圣井雅琪翟羽佳段运强任博雅程光
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1