基于条件随机场与句法分析的通用网页人物信息提取方法技术

技术编号:26763890 阅读:27 留言:0更新日期:2020-12-18 23:31
本发明专利技术公开了一种基于条件随机场与句法分析的通用网页人物信息提取方法,包括以下步骤:S1、提取网页正文;S2、设定人物属性;S3、训练条件随机场模型。本发明专利技术通过求最佳候选节点公共祖先节点来定位文本区域并二次清洗噪声来提取正文,计算量较少且对正文区域分割较准;对文本应用句法分析并以句法分析结果作为高层特征,训练树状条件随机场进行人物属性标注,使用较少训练数据即可获得一定的标注效果。可以充分地利用各种样式的人物网页,不局限于含结构化表格或固定模板的网页,高效提取信息。

【技术实现步骤摘要】
基于条件随机场与句法分析的通用网页人物信息提取方法
本专利技术涉及一种基于条件随机场与句法分析的通用网页人物信息提取方法。
技术介绍
web2.0为互联网带来了爆炸式的信息增长,普通用户对互联网信息的贡献令我们能更容易地搜索到更多人物的个人信息,而这对于部分信息的抽取利用,则凸显出愈发重要的价值。互联网人物属性信息抽取技术,对于知识图谱构建,人物信息库开发,人物画像任务,乃至个性化推荐等应用,都有着基础性作用。人物属性抽取是属性抽取的一个分支,是指对人物的基本信息进行抽取,比如人物的生日、出生地和工作等。因为网页是互联网世界展现信息的最常见形式,基于网页的人物属性抽取成为了互联网人物属性抽取领域主要的研究方向。现有的人物属性抽取主要分为三种方法:基于规则的方法、基于机器学习的方法和基于图像的方法。基于规则的方法是通过模式匹配,人工定义抽取的规则和模式,侧重领域分析和匹配模式定义,往往依赖于专业的领域背景知识。抽取人物属性时,针对不同网页分别设计网页爬虫的爬取规则,以此匹配到描述人物属性的所有可能模式,这种方法通常对目标网站抽取精本文档来自技高网...

【技术保护点】
1.基于条件随机场与句法分析的通用网页人物信息提取方法,其特征在于,包括以下步骤:/nS1、提取网页正文;/nS2、设定人物属性;/nS3、训练条件随机场模型。/n

【技术特征摘要】
1.基于条件随机场与句法分析的通用网页人物信息提取方法,其特征在于,包括以下步骤:
S1、提取网页正文;
S2、设定人物属性;
S3、训练条件随机场模型。


2.根据权利要求1所述的基于条件随机场与句法分析的通用网页人物信息提取方法,其特征在于,所述步骤S1具体实现方法为:
S11、对网页进行去噪处理;
S12、定位正文文本区域:将文档表现为一棵DOM树,包括文本,图像在内的对象均为DOM树中的节点,而文档自身即为DOM树的根节点;
设DOM树根节点为Pr,正文节点为ti,则对于所有正文节点组成的序列T={t1,t2,...tn},DOM树中必存在一个节点Pt,满足对于Pt均为ti的上级节点,且Pt的子节点中不存在其他满足条件的节点;Pt表示了正文节点的所在范围,为了定位正文文本区域,需要确定Pt的位置;
确定Pt的位置的具体方法为:找出网页内的所有文本节点:p标签下的text子标签、div标签下的text子标签、td标签下的text子标签、body标签下的text子标签;并去除网页内的所有非文本节点:a标签下的text子标签、dd标签下的text子标签;得到正文节点组成的序列T={t1,t2,...tn},其中n为序列的长度;
为T中每个节点ti计算分数xi,以分数排名较高的节点为依据计算Pt;
节点分数计算方法为:用L(ti)表示节点ti中文本的长度,若ti为字母、标点或空格,则L(ti)=1,则对于ti∈T,有ti节点的得分:



对于L(ti)<50的节点,直接将对应xi设为0;
xi越大,...

【专利技术属性】
技术研发人员:费高雷刘畅胡光岷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1