【技术实现步骤摘要】
基于机器学习技术提取HTML文档内容的方法和装置
[0001]本专利技术涉及自然语言处理
,具体地说是一种基于机器学习技术提取HTML文档内容的方法和装置。
技术介绍
[0002]自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向,其可以弥补人类交流和计算机理解之间的差距,为企业发展提供诸多便利。目前较为常用的自然语言处理方法大多基于机器学习算法甚至深度学习算法,其自然而然需要大量的文本数据用来进行训练。
[0003]网页通常是获取文本数据源的一种来源,但是网页中包含了诸多如标签等无价值的冗余信息。对于业务分析而言,有价值的信息往往是网页正文部分,为了便于分析,需要将网页中和正文不相干的部分给剔除。
[0004]对于特定的网站,可以分析其html结构,根据其结构来获取正文信息。不同的网站,正文所在的位置不同,并且HTML的结构也不同。对于爬虫而言,抓取的页面是各种各样的,不可能针对所有的页面去写抓取规则来提取正文内容,因此需要一种通用的算法将正文提取出来。
[0005]现有的一些网页正文提取算法具体如下:
[0006](1)、基于标签用途的正文提取算法;比如title或h1,h2标签一般用作标题,p一般表示正文段落,根据标签的含义去提取正文。
[0007](2)、基于标签密度判定的正文提取算法;即字符统计,正文部分html标签的密度比较低,确定一个阈值,按照标签密度提取正文部分。
[0008](3)、基于数据挖掘思想的网页正文提取算法;这类方法会涉及到 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器学习技术提取HTML文档内容的方法,其特征在于,该方法是利用机器学习算法中的决策树和支持向量机分类算法来训练文本数据得到一个二分类模型,利用二分类模型从HTML网页中分类出正文内容和其他无用样本信息;具体如下:数据获取:通过爬虫技术获取网页数据,通过获取的网页数据训练二分类模型;数据预处理:将获取的网页数据按照HTML特征进行标注;二分类模型训练:选用C4.8决策树算法和线性支持向量机算法对标注好的数据进行训练,并使用scikit
‑
learn库进行二分类模型训练;二分类模型评估:计算Accuracy进行模型评估;跨领域微调:选取多领域内文本,优化二分类模型。2.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,数据预处理是指对文本按照文本块进行手工标注,文本块用于后期的模型验证分析;文本块包括,分别有标题、正文内容、用户评论、相关链接及补充内容。3.根据权利要求1或2所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,数据预处理具体如下:去除文本块中的无效内容;无效内容包括空白符、标点符号及停用词;使用正则表达式过滤掉文本块中的多媒体链接地址url。4.根据权利要求1所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,二分类模型训练具体如下:数据划分:使用sickit
‑
learn库的train_test_split()方法按照8:2的比例将标注好的数据集划分为训练集和测试集;分词:使用jieba分词工具库将句子分成多个词语;特征提取:使用TF
‑
IDF算法和scikit
‑
learn库的TfidfVectorizer()方法对文本数据集进行特征提取;通过决策树模块训练模型:调用scikit
‑
learn库的决策树模块,输入训练数据集,通过决策树模块调用fit()方法进行模型训练;具体如下:从训练数据集中随机取9成作为“训练集”,取1成作为“验证集”;从scikit
‑
learn库中进行调用;将训练集数据训练一次称为一次迭代,连续迭代10次,此即为10
‑
折交叉验证法。5.根据权利要求4所述的基于机器学习技术提取HTML文档内容的方法,其特征在于,TF
‑
IDF算法具体如下:计算词频:TF=任一个词在文本中的出现次数/文章的总词数;计算逆文档频率:IDF=log(语料库的文本总数/包含该词的文本数+1);计算TF
‑
IDF:TF
‑
IDF=TF
...
【专利技术属性】
技术研发人员:朱冬平,潘心冰,李明明,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。