基于机器学习技术提取HTML文档内容的方法和装置制造方法及图纸

技术编号:34771869 阅读:20 留言:0更新日期:2022-08-31 19:34
本发明专利技术公开了基于机器学习技术提取HTML文档内容的方法和装置,属于自然语言处理技术领域,本发明专利技术要解决的技术问题为如何提高网页文档内容信息提取的准确性,采用的技术方案为:该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;数据预处理:将获取的网页数据按照HTML特征进行标注;二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练;二分类模型评估:计算Accuracy进行模型评估;跨领域微调:选取多领域内文本,优化二分类模型。优化二分类模型。优化二分类模型。

【技术实现步骤摘要】
基于机器学习技术提取HTML文档内容的方法和装置


[0001]本专利技术涉及自然语言处理
,具体地说是一种基于机器学习技术提取HTML文档内容的方法和装置。

技术介绍

[0002]自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其可以弥补人类交流和计算机理解之间的差距,为企业发展提供诸多便利。目前较为常用的自然语言处理方法大多基于机器学习算法甚至深度学习算法,其自然而然需要大量的文本数据用来进行训练。
[0003]网页通常是获取文本数据源的一种来源,但是网页中包含了诸多如标签等无价值的冗余信息。对于业务分析而言,有价值的信息往往是网页正文部分,为了便于分析,需要将网页中和正文不相干的部分给剔除。
[0004]对于特定的网站,可以分析其html结构,根据其结构来获取正文信息。不同的网站,正文所在的位置不同,并且HTML的结构也不同。对于爬虫而言,抓取的页面是各种各样的,不可能针对所有的页面去写抓取规则来提取正文内容,因此需要一种通用的算法将正文提取出来。
[0005]现有的一些网页正文提取算法具体如下:
[0006](1)、基于标签用途的正文提取算法;比如title或h1,h2标签一般用作标题,p一般表示正文段落,根据标签的含义去提取正文。
[0007](2)、基于标签密度判定的正文提取算法;即字符统计,正文部分html标签的密度比较低,确定一个阈值,按照标签密度提取正文部分。
[0008](3)、基于数据挖掘思想的网页正文提取算法;这类方法会涉及到统计学和概率论的一些知识,进一步的会涉及到机器学习算法。
[0009](4)、基于视觉网页块分析技术的正文提取算法。计算机视觉这种较为复杂的方法实现上比较困难,但就提取效果而言,这种方法提取的精度还是不错。
[0010]故如何提高网页文档内容信息提取的准确性是目前亟待解决的技术问题。

技术实现思路

[0011]本专利技术的技术任务是提供一种基于机器学习技术提取HTML文档内容的方法和装置,来解决如何提高网页文档内容信息提取的准确性的问题。
[0012]本专利技术的技术任务是按以下方式实现的,一种基于机器学习技术提取HTML文档内容的方法,该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:
[0013]数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;
[0014]数据预处理:将获取的网页数据按照HTML特征进行标注;
[0015]二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit

learn库进行二分类模型训练;
[0016]二分类模型评估:计算Accuracy进行模型评估;
[0017]跨领域微调:选取多领域内文本,优化二分类模型。
[0018]作为优选,数据预处理是指对文本按照文本块(子序列块)进行手工标注,文本块用于后期的模型验证分析;文本块包括,分别有标题、正文内容、用户评论、相关链接及补充内容。
[0019]更优地,数据预处理具体如下:
[0020]去除文本块中的无效内容;无效内容包括空白符、标点符号及停用词;
[0021]使用正则表达式过滤掉文本块中的多媒体链接地址url。
[0022]作为优选,二分类模型训练具体如下:
[0023]数据划分:使用sickit

learn库的train_test_split()方法按照8:2的比例将标注好的数据集划分为训练集和测试集;
[0024]分词:使用jieba分词工具库将句子分成多个词语;
[0025]特征提取:使用TF

IDF算法和scikit

learn库的TfidfVectorizer()方法对文本数据集进行特征提取;
[0026]通过决策树模块训练模型:调用scikit

learn库的决策树模块,输入训练数据集,通过决策树模块调用fit()方法进行模型训练;具体如下:
[0027]从训练数据集中随机取9成作为“训练集(train datasets)”,取1成作为“验证集(val datasets)”;
[0028]从scikit

learn库中进行调用;
[0029]将训练集数据训练一次称为一次迭代(epoch),连续迭代10次,此即为10

折交叉验证法。
[0030]更优地,TF

IDF算法具体如下:
[0031]计算词频:TF=任一个词在文本中的出现次数/文章的总词数;
[0032]计算逆文档频率:IDF=log(语料库的文本总数/包含该词的文本数+1);
[0033]计算TF

IDF:TF

IDF=TF
×
IDF;
[0034]其中,TF表示词频;IDF表示逆文档频率。
[0035]作为优选,二分类模型评估是指利用测试集进行模型测试,具体如下:
[0036]输入测试集文本到训练好的二分类模型中,得出对应文本的预测标签类别;
[0037]根据预测结果进行统计求得混淆矩阵;其中,混淆矩阵由四个统计值构成,分别如下:
[0038]①
、True Positive(TP):真实值是阳(P),模型预测为阳的数量(P);
[0039]②
、False Negative(FN):真实值是阳(P),模型预测为阴的数量(N);
[0040]③
、False Positive(FP):真实值是阴(N),模型预测为阳的数量(P);
[0041]④
、True Negative(TN):真实值是阴(N),模型预测为阴的数量(N);
[0042]将True Positive(TP)、False Negative(FN)、False Positive(FP)及True Negative(TN)这四个统计值放在一个表格中,构成混淆矩阵;
[0043]计算二分类模型的准确率(Accuracy)及精度(Precision)作为评价标准,公式如
下:
[0044]准确率(Accuracy)=(TP+TN)/(TP+TN+FP+FN);
[0045]二分类模型中所有判断正确的结果占总预测值的比重。
[0046]作为优选,跨领域微调具体如下:
[0047]使用CleanEval数据集中的测试集对前面训练好的二分类模型进行评估,即采用混淆矩阵计算准确率(Accuracy)来对分类模型进行评估;
[0048]根据评估的结果,使用CleanEval数据集中的训练集采用10<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习技术提取HTML文档内容的方法,其特征在于,该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;数据预处理:将获取的网页数据按照HTML特征进行标注;二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit

learn库进行二分类模型训练;二分类模型评估:计算Accuracy进行模型评估;跨领域微调:选取多领域内文本,优化二分类模型。2.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,数据预处理是指对文本按照文本块进行手工标注,文本块用于后期的模型验证分析;文本块包括,分别有标题、正文内容、用户评论、相关链接及补充内容。3.根据权利要求1或2所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,数据预处理具体如下:去除文本块中的无效内容;无效内容包括空白符、标点符号及停用词;使用正则表达式过滤掉文本块中的多媒体链接地址url。4.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,二分类模型训练具体如下:数据划分:使用sickit

learn库的train_test_split()方法按照8:2的比例将标注好的数据集划分为训练集和测试集;分词:使用jieba分词工具库将句子分成多个词语;特征提取:使用TF

IDF算法和scikit

learn库的TfidfVectorizer()方法对文本数据集进行特征提取;通过决策树模块训练模型:调用scikit

learn库的决策树模块,输入训练数据集,通过决策树模块调用fit()方法进行模型训练;具体如下:从训练数据集中随机取9成作为“训练集”,取1成作为“验证集”;从scikit

learn库中进行调用;将训练集数据训练一次称为一次迭代,连续迭代10次,此即为10

折交叉验证法。5.根据权利要求4所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,TF

IDF算法具体如下:计算词频:TF=任一个词在文本中的出现次数/文章的总词数;计算逆文档频率:IDF=log(语料库的文本总数/包含该词的文本数+1);计算TF

IDF:TF

IDF=TF
...

【专利技术属性】
技术研发人员:朱冬平潘心冰李明明
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1