一种基于网络文本语义分析的建筑评价方法技术

技术编号:15438273 阅读:85 留言:0更新日期:2017-05-26 04:13
本发明专利技术公开了一种基于网络文本语义分析的建筑评价方法,所述方法包括:选取专业建筑论坛,利用Locoy Spider软件对网络文本进行获取,并进行筛选整理;通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库;通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异。本发明专利技术基于大型公共建筑设计专业建筑论坛评论的网络文本,建立网络环境下的建筑评论专业语料库,并分析专业建筑设计师与网络群众对建筑个案的关注差异。

A method of building evaluation based on semantic analysis of network text

The invention discloses a method for building evaluation network based on semantic analysis of text, the method includes: selection of professional architectural forum, the network text is obtained by using Locoy Spider software, and through sorting; stammer segmentation tool and Chinese word frequency analysis tool for Semantic Web text analysis, and the modern Chinese corpus divided frequency table screening lexical category matching and non parametric test, to establish a network architecture corpus; through characteristic analysis of vocabulary construction cases, the construction case of lexicon and network architecture corpus comparison, analysis concerning the difference for the construction case of network public and professional architectural designer. The invention of network text of large public building design professional architectural forum comments based on the establishment of network environment professional architectural review corpus, and analyze the differences of attention for professional architectural designers and building a case of network mass.

【技术实现步骤摘要】
一种基于网络文本语义分析的建筑评价方法
本专利技术涉及一种建筑评价方法,尤其是一种基于网络文本语义分析的建筑评价方法,属于建筑评价领域。
技术介绍
随着信息时代和网络社会的来临,建筑媒体的种类也变得日益丰富。除了传统的报刊、杂志等文字出版媒体外,一些社交软件、专业建筑论坛、贴吧等新媒体的崛起给建筑评论提供了新的平台和工具。近年来,一批类似于“秋裤楼”、“大裤衩”、“大肠塔”等“绰号建筑”在网络中受到关注,引来网民和社会群众的广泛热议,并掀起一轮建筑批评狂潮,对于建筑设计和建筑评论产生了广泛的影响。多样化的建筑传播媒体在建筑评论领域承担着越来越重要的角色,对于建筑评论的主体、内容、形式和价值标准等都产生了深刻的影响[1]。在当今的网络新媒体在建筑领域中所处的角色,设计师、群众等不同群体对于建筑的认知存的差异,以及利用新时代的网络媒体工具有效地提升建筑设计的公共参与都是值得深入研究的课题。随着信息技术的不断改进,对于词频分析、语义分析和评论倾向性分析的方法也逐渐成熟。掌明等(2009)专利技术了一种基于关键词频度分析的中文网页分类方法,用正则表达式过滤器过滤噪音,用分词器和关键词频度分析器进行网页模糊分类计算,得出网页所属类别结果[1];王益等(2013)专利技术了一种语义分析方法及系统,按文档维度和词维度进行语料切分和迭代采样,对得出的收敛采样模型进行语义分析[2];石磊(2014)专利技术了一种提取领域关键词的方法及装置,通过生成词频矩阵,设定算法提取领域中的关键词[3];赵渺希等(2016)专利技术了一种基于互联网词频的城市认知地图生成方法,基于网络数据收集的城市认知测度,反映到城市地图上[4];吴琼等(2009)专利技术了一种跨领域文本情感倾向性分析方法,通过文本集建立矩阵关系,利用矩阵计算情感分并进行归一化[5];中科鼎富(北京)科技发展有限公司(2011)专利技术了一种针对短文本的倾向性分析的系统与方法,识别句子语义结构,句中搜索设定的倾向性词和倾向性模式,分析倾向性[6]。吴明芬等(2013)专利技术了一种倾向性文本自动分类系统及其实现方法,基于情感分类句法树库和依存关系图库对文本进行分类[7];董丽丽等(2013)专利技术了一种文本倾向性分析方法及基于该方法的商品评论倾向判别器,通过依存语法分析,情感词典计算引擎判别文本倾向性[8];鲁平(2014)专利技术了一种文本倾向性的确定方法和装置,根据预先设定的行业特征词词典和文本分类模型,确定包含行业特征词的句子的倾向性[9]。因此,利用网络文本对建立专业建筑语料库,并研究公众对于不同建筑方案的倾向性,有助于让更多的建筑评论语言反应到建筑设计之中,推动建筑评价和建筑设计的发展。上述内容提到的参考文献如下:[1]掌明,垄成龙,卢艳宏,冯源,杨瑞,王攀.基于关键词频度分析的中文网页分类方法[P].江苏:专利申请公告号CN101593200,2009-12-02.[2]王益,赵学敏,孙振龙,严浩,王莉峰,靳志辉,王流斌.语义分析方法及系统[P].广东:专利申请公告号CN104346339A,2015-02-11.[3]石磊.一种提取领域关键词的方法及装置[P].北京:专利申请公告号CN103870575A,2014-06-18.[4]赵渺希,黄俊浩,林艳柳,钟烨.一种基于互联网词频的城市认知地图生成方法[P].广东:专利申请公告号CN105574259A,2016-05-11.[5]吴琼,谭松波,段洣毅,程学旗.一种跨领域文本情感倾向性分析方法[P].北京:专利申请公告号CN101714135A,2010-05-26.[6]不公告专利技术人.一种针对短文本的倾向性分析的系统与方法[P].北京:专利申请公告号CN102541840A,2012-07-04.[7]吴明芬,陈涛,刘兴林.一种倾向性文本自动分类系统及其实现方法[P].广东:CN102930042A,2013-02-13.[8]董丽丽,赵繁荣,张翔,王茹.一种文本倾向性分析方法及基于该方法的商品评论倾向判别器[P].陕西:专利申请公告号CN103455562A,2013-12-18.[9]鲁平.文本倾向性的确定方法和装置[P].北京:专利申请公告号CN104572616A,2015-04-29.
技术实现思路
本专利技术的目的是为了克服上述现有技术的不足之处,提供了一种基于网络文本语义分析的建筑评价方法,该方法基于大型公共建筑设计专业建筑论坛评论的网络文本,建立网络环境下的建筑评论专业语料库,并分析专业建筑设计师与网络群众对建筑个案的关注差异。本专利技术的目的可以通过采取如下技术方案达到:一种基于网络文本语义分析的建筑评价方法,所述方法包括以下步骤:S1、选取专业建筑论坛,利用LocoySpider软件对网络文本进行获取,并进行筛选整理;S2、通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库;S3、通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异。优选的,步骤S1中,所述选取专业建筑论坛,利用LocoySpider软件对网络文本进行获取,并进行筛选整理,具体包括:S11、选取评论样本数量充足的专业建筑论坛作为数据来源;S12、利用LocoySpider软件编辑新建火车头任务,通过分析专业建筑论坛网页结构的源代码,选取前后相应的字段作为抓取所需网页信息的标识字符串,爬取的主要标签信息包括专业建筑论坛主题、评论用户名称、评论时间和评论内容;S13、在火车头任务的采集内容规则中进行设置,运行火车头任务爬取相关数据;S14、将获取的评论数据按照专业建筑论坛主题、评论用户、评论时间和评论内容的标签进行完善和整理,并剔除专业建筑论坛公告和广告帖子。优选的,步骤S2中,所述通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库,具体包括:S21、将筛选整理后的专业建筑论坛评论数据转换成txt文本格式,并利用结巴分词工具进行分词,形成专业建筑论坛评论的词汇列表;S22、根据步骤S21形成的词汇列表,利用汉语词频统计工具对专业建筑论坛评论数据统计各项词汇的频数、重复数、百分比和去重百分比;S23、根据语料库在线网站中现代汉语语料库的词语频率表,匹配获取一定数量的词汇样本以及该词汇样本在建筑专业建筑论坛和现代整体汉语语料库的词频数;S24、对两组词频数据进行标准归一化处理;S25、将标准归一化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差异;S26、当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析专业建筑论坛词汇的重要性;S27、根据步骤S26形成的词汇重要性数据,将建筑专业建筑论坛词汇由高到低进行排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语语料库高频词汇进行筛选剔除,剩余词汇作为网络建筑专业词汇;S28、按照建筑类型、建筑功能、建筑造型、交通布局、建筑环境、建筑本文档来自技高网
...
一种基于网络文本语义分析的建筑评价方法

【技术保护点】
一种基于网络文本语义分析的建筑评价方法,其特征在于:所述方法包括以下步骤:S1、选取专业建筑论坛,利用Locoy Spider软件对网络文本进行获取,并进行筛选整理;S2、通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库;S3、通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异。

【技术特征摘要】
1.一种基于网络文本语义分析的建筑评价方法,其特征在于:所述方法包括以下步骤:S1、选取专业建筑论坛,利用LocoySpider软件对网络文本进行获取,并进行筛选整理;S2、通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库;S3、通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异。2.根据权利要求1所述的一种基于网络文本语义分析的建筑评价方法,其特征在于:步骤S1中,所述选取专业建筑论坛,利用LocoySpider软件对网络文本进行获取,并进行筛选整理,具体包括:S11、选取评论样本数量充足的专业建筑论坛作为数据来源;S12、利用LocoySpider软件编辑新建火车头任务,通过分析专业建筑论坛网页结构的源代码,选取前后相应的字段作为抓取所需网页信息的标识字符串,爬取的主要标签信息包括专业建筑论坛主题、评论用户名称、评论时间和评论内容;S13、在火车头任务的采集内容规则中进行设置,运行火车头任务爬取相关数据;S14、将获取的评论数据按照专业建筑论坛主题、评论用户、评论时间和评论内容的标签进行完善和整理,并剔除专业建筑论坛公告和广告帖子。3.根据权利要求1所述的一种基于网络文本语义分析的建筑评价方法,其特征在于:步骤S2中,所述通过结巴分词工具及汉语词频分析工具进行网络文本的语义分析,并与现代汉语语料库分词类词频表进行筛选匹配和非参数检验,建立网络建筑专业语料库,具体包括:S21、将筛选整理后的专业建筑论坛评论数据转换成txt文本格式,并利用结巴分词工具进行分词,形成专业建筑论坛评论的词汇列表;S22、根据步骤S21形成的词汇列表,利用汉语词频统计工具对专业建筑论坛评论数据统计各项词汇的频数、重复数、百分比和去重百分比;S23、根据语料库在线网站中现代汉语语料库的词语频率表,匹配获取一定数量的词汇样本以及该词汇样本在建筑专业建筑论坛和现代整体汉语语料库的词频数;S24、对两组词频数据进行标准归一化处理;S25、将标准归一化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差异;S26、当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析专业建筑论坛词汇的重要性;S27、根据步骤S26形成的词汇重要性数据,将建筑专业建筑论坛词汇由高到低进行排序,并根据语料库在线网站中现代汉语语料库的词语频率表,将其中出现的现代汉语语料库高频词汇进行筛选剔除,剩余词汇作为网络建筑专业词汇;S28、按照建筑类型、建筑功能、建筑造型、交通布局、建筑环境、建筑色彩、建筑材料及结构、空间布局、建筑成果、建筑构件和建筑角色将步骤S27形成的网络建筑专业词汇进行分类整理,建立网络建筑专业语料库。4.根据权利要求1所述的一种基于网络文本语义分析的建筑评价方法,其特征在于:步骤S3中,所述通过对建筑个案进行特征词汇分析,将建筑个案特征词汇与网络建筑专业语料库进行比较,分析网络群众与专业建筑设计师对于建筑个案的关注差异,具体包括:S31、将筛选整理后的建筑个案评论数据转换成txt文本格式,并利用结巴中文分词工具进行分词,形成建筑个案评论的词汇列表;S32、根据步骤S31形成的词汇列表,利用汉语词频统计工具对建筑个案评论数据统计各项词汇的频数、重复数、百分比和去重百分比;S33、根据语料库在线网站中现代汉语语料库的词语频率表,匹配获取一定数量的词汇样本以及该词汇样本在建筑个案评论和现代整体汉语语料库的词频数;S34、对两组词频数据进行标准归一化处理;S35、将标准化处理后的数据导入SPSS软件中,利用两配对样本非参数检验命令进行两组词频数的非参数检验分析,判断两配对样本来自的总体分布是否存在显著性差异;S36、当两配对样本来自的总体分布存在显著性差异时,基于TextRank算法分析建筑个案词汇的重要性;S37、根据步骤S36形成的词汇重要性数据,将建筑个案词汇重要性由高...

【专利技术属性】
技术研发人员:赵渺希郭振松梁景宇
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1