【技术实现步骤摘要】
一种基于多源信息的网络人物属性提取及关系分析方法
[0001]本专利技术属于应用网络人物属性提取及关系分析
,具体涉及一种基于多源信息的网络人物属性提取及关系分析方法。
技术介绍
[0002]目前互联网数据中含有海量人物信息(例如,人物基本信息、人际关系、参与事件等),然而互联网数据源头多、冗余数据多、数据量大的特点使得互联网用户难以快捷准确地获取目标人物信息。
[0003]存在问题或缺陷的原因:目前通用的人物属性获取方法是用户通过搜索引擎查询所关注的某个人物的内容,往往需要用户在很多非结构化自由文本中再查找感兴趣的信息。这一方法暴露出速度慢、成本高和效率低下等诸多缺点。
技术实现思路
[0004]针对上述方法速度慢、成本高和效率低等问题,本专利技术提供了一种具有速度快且结果准确的网络人物属性提取及关系分析方法。
[0005]为了解决上述技术问题,本专利技术采用的技术方案为:
[0006]一种基于多源信息的网络人物属性提取及关系分析方法,包括下列步骤:
[0007]S10 ...
【技术保护点】
【技术特征摘要】
1.一种基于多源信息的网络人物属性提取及关系分析方法,其特征在于:包括下列步骤:S100、预处理和后处理数据:采用基于触发词、词典和规则相结合的方法对数据进行处理;S200、输入数据:使用海量的文本数据和深层网络模型训练出来的预训练词向量;S300、输出结果:使用BiLSTM学习词序列的上下文特征,同时使用CRF模型通过全局信息推断标签的能力,再输出结果。2.根据权利要求1所述的一种基于多源信息的网络人物属性提取及关系分析方法,其特征在于:所述S100预处理和后处理数据中,从百度百科、维基百科和搜狗百科中获取人物相关的非结构化文档作为测试语料,去掉图片url等结构化内容,整理成描述该人物的文本文件。3.根据权利要求2所述的一种基于多源信息的网络人物属性提取及关系分析方法,其特征在于:所述S100预处理和后处理数据中,通过分析自然语言文本特征和中文语言的表述习惯,为每个属性建立了对应的触发词表。4.根据权利要求3所述的一种基于多源信息的网络人物属性提取及关系分析方法,其特征在于:所述S100预处理和后处理数据中,针对国家、城市、学校等范围比较固定的属性,可以利用词典直接匹配出部分属性值。5.根据权利要求4所述的一种基于多源信息的网络人物属性提取及关系分析方法,其特征在于:所述S100预处理和后处理数据中,结合词性标注、句法分析和命名实体识别等语言分析,归纳整理出语料中属性描述的一般特...
【专利技术属性】
技术研发人员:潘晓光,张娜,宋晓晨,陈亮,陈智娇,
申请(专利权)人:山西三友和智慧信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。