一种提取智能家居行业动态信息的方法和系统技术方案

技术编号:27615689 阅读:19 留言:0更新日期:2021-03-10 10:45
本发明专利技术提出一种提取智能家居行业动态信息的方法和系统,基于智能家居领域,在行业动态数据捕捉提取任务上,提出构建一套自动化行业动态趋势捕捉并自动生成报告的方法。可以在文章结构化信息抽取上,基于智能家居行业背景提出一种结合行业先验知识和自然语言处理序列标注的智能化行业动态数据提取方式,同时结合基于深度学习的文本分类模型和多类指标的段落摘要提取,自动生成行业研究报告。而且本发明专利技术是机器学习算法和智能家居行业业务特征深度结合,经过大量实践摸索研究的具有较好预测效果的自然语言分析业务流程,算法高效,针对性强,工序流程高度契合数据分析业务,抽取数据并生成报告成功率较高的流程。数据并生成报告成功率较高的流程。数据并生成报告成功率较高的流程。

【技术实现步骤摘要】
一种提取智能家居行业动态信息的方法和系统


[0001]本专利技术涉及计算机
,特别是涉及一种提取智能家居行业动态信息的方法和系统。

技术介绍

[0002]智能家居行业作为互联网时代的新兴产业,伴随5G和物联网技术的高速发展呈现出了更强的增长趋势,如何基于市场最新发展动态及时做出反应和决策,成为抓住智能家居市场的关键。智能家居行业动态的主要来源是互联网资讯文章,传统的行业动态分析借助人工在庞大的文章报告中阅读查找相关数据,并进行整理记录,例如通过人工翻阅各大新闻类网站和媒体,从中选取有用信息组成行业周报和行业月报,这个工作需要由专门的人员每周花费2-3个工作日进行资料查找、筛选、排版等工作,需要消耗大量人力资源。同时,用户意图识别的任务可以抽象为自然语言处理中的文本分类任务,可以使用相关算法实现自动意图识别代替人工识别操作。文本分类是指对给定的非结构化文本,根据相应的分类算法或模型,得到文本对应的类别,用于相关判断。而传统的机器学习算法基于人工特征工程提取文本特征,在文本分类上的准确率和鲁棒性上都存在一定局限,且基于传统循环神经网络和卷积神经网络的深度学习算法对于训练数据的质量要求也较高。

技术实现思路

[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种提取智能家居行业动态信息的方法和系统,用于解决现有技术中存在的技术问题。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种提取智能家居行业动态信息的方法,包括以下步骤:
[0005]通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;
[0006]对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;
[0007]在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;
[0008]将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;
[0009]对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;
[0010]使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。
[0011]可选地,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板
块;所述目标函数的表达式如下:
[0012][0013]其中为资讯文章被预测为第t种智能家居子板块种类的概率,γ表示权重的陡峭程度,α表示不同类别之间的比例。
[0014]可选地,若负样本的很小,而正样本的很大时,所述深度卷积神经网络文本分类模型开始集中关注正样本。
[0015]可选地,所述结构化数据组合包括:时间、销量、金额、增长、产品、机构和企业。
[0016]可选地,对清洗后的资讯文章进行打分,包括按照预先定制的评分标准对文章段落的位置、长度、数词量、关键词频进行打分。
[0017]可选地,所述资讯文章包括:智能家居行业门户网站资讯、媒体新闻资讯文章、行业分析文章、互联网新闻和微信公众号文章。
[0018]可选地,对所述资讯文章清洗包括:对所述资讯文章进行停用词筛选、去除所述资讯文章的网页标签和去除所述资讯文章的超链接。
[0019]可选地,对清洗后的资讯文章进行词性标注和命名实体识别,包括:
[0020]使用训练好的词性标注模型BiGRU-CRF结合智能家居行业关键词和对应产品的三元组对关系文章针对性进行词性标注和命名实体识别。
[0021]本专利技术还提供一种提取智能家居行业动态信息的系统,包括有:
[0022]采集模块,用于通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;
[0023]清洗模块,用于对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;
[0024]结构化数据模块,用于在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;
[0025]分类模块,用于将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;
[0026]摘要提取模块,用于对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;
[0027]报告构建模块,用于使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。
[0028]可选地,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:
[0029][0030]其中为资讯文章被预测为第t种智能家居子板块种类的概率,γ表示权重的陡
峭程度,α表示不同类别之间的比例;
[0031]若负样本的很小,而正样本的很大时,所述深度卷积神经网络文本分类模型开始集中关注正样本。
[0032]如上所述,本专利技术提供一种提取智能家居行业动态信息的方法和系统,具有以下有益效果:
[0033]本专利技术基于智能家居领域,在行业动态数据捕捉提取任务上,提出构建一套自动化行业动态趋势捕捉并自动生成报告的方法。在文章结构化信息抽取上,基于智能家居行业背景提出一种结合行业先验知识和自然语言处理序列标注的智能化行业动态数据提取方式,同时结合基于深度学习的文本分类模型和多类指标的段落摘要提取,自动生成行业研究报告。而且本专利技术还具有以下优点:
[0034](1)通常文本数据挖掘处理一般为停用词筛选、网页标签及超链接去除等。本专利技术在此基础上,融入了智能家居行业垂直领域知识,通过引入智能家居行业词表对模型输入文本的领域关键词位置进行特征加强,同时针对智能家居行业中企业与旗下产品的关系知识库,利用远程监督的方式,在进行实体识别时,提前确定语义角色,为后续数据抽取提供先验知识。通过两种特殊处理方式增加行业信息融入到机器学习模型,将机器学习模型鲁棒性的准确率较一般算法提供了15%以上。
[0035](2)传统深度学习文本分类采用的卷积神经网络,网络模型较浅,特征抽取和表示能力不强,对于语言学知识与上下文模式学习不足。本专利使用深层叠加的DPCNN网络结构,通过残差连接的方式加强信息在深层网络中的流通,语义特征提取能力和上下文模式学习能力较传统模式提高了20%以上。
[0036](3)在信息产生和流通速度急剧上升,语义分析和自然语言处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提取智能家居行业动态信息的方法,其特征在于,包括以下步骤:通过网络爬虫自动获取与智能家居行业关联的资讯文章,并存储至数据库中;对获取的资讯文章进行清洗,并对清洗后的资讯文章进行词性标注和命名实体识别;在完成实体识别以及对资讯文章进行的词性标注后,根据中文的词性句法和知识库中的先验关系,从资讯文章中提取出结构化数据组合;将历史时刻智能家居行业研究报告中各个板块的文章作为训练数据,训练深度卷积神经网络文本分类模型,并利用训练后的深度卷积神经网络文本分类模型确定清洗后的资讯文章是否属于智能家居行业动态信息,以及确定清洗后的资讯文章属于智能家居行业中哪个子板块;对清洗后的资讯文章进行打分,并从清洗后的资讯文章中选取目标段落作为智能家居行业研究报告中的文章摘要;使用历史时刻智能家居行业研究报告作为模板,根据所述结构化数据组合、各个子板块动态资讯文章和文章摘要定期构建智能家居行业研究报告。2.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,包括利用目标函数确定清洗后的资讯文章属于智能家居行业中哪个子板块;所述目标函数的表达式如下:其中为资讯文章被预测为第t种智能家居子板块种类的概率,γ表示权重的陡峭程度,α表示不同类别之间的比例。3.根据权利要求2所述的提取智能家居行业动态信息的方法,其特征在于,若负样本的很小,而正样本的很大时,所述深度卷积神经网络文本分类模型开始集中关注正样本。4.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,所述结构化数据组合包括:时间、销量、金额、增长、产品、机构和企业。5.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,对清洗后的资讯文章进行打分,包括按照预先定制的评分标准对文章段落的位置、长度、数词量、关键词频进行打分。6.根据权利要求1所述的提取智能家居行业动态信息的方法,其特征在于,所述资讯文章包括:智能家居行业门户网站资讯、媒体新闻资讯文章、行业分析文章、互联网新闻和微信公众号文章...

【专利技术属性】
技术研发人员:王元晓蒋秋霞
申请(专利权)人:南京数脉动力信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1