当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于古代诗词文本的空间基因识别提取方法及系统技术方案

技术编号:39749489 阅读:9 留言:0更新日期:2023-12-17 23:47
本发明专利技术公开了一种基于古代诗词文本的空间基因识别提取方法及系统,属于城市规划技术领域

【技术实现步骤摘要】
一种基于古代诗词文本的空间基因识别提取方法及系统


[0001]本专利技术属于城市规划
,具体涉及一种基于古代诗词文本的空间基因识别提取方法及系统


技术介绍

[0002]21
世纪以来,城市建设快速扩张,造成了城市风貌趋同等诸多问题
。“空间基因”的提出对解决城市“千城一面”问题具有重要意义,其强调只有保护城市空间要素间稳定的地域性组合模式,而非通过符号复制或形态模仿的方式进行城市文脉传承,才能实现历史文脉传承与城市建设发展的共赢

[0003]目前空间基因的识别提取通常是采用文献研究

问卷访谈等传统方法,依赖规划与设计人员的能力和经验,主观因素影响较大,数据样本量较少

古诗词作为留存量最大的文字材料之一,蕴含着大量历史空间信息,且往往在同一句子中包含着多个空间要素及其组合关系

随着文本挖掘技术的日益成熟以及大数据技术在城市规划领域的广泛应用,基于古诗词文本数据,研究者可以获取到大量历史真实存在的

内涵多义信息的特色空间要素及其相关关系,从而较好地识别空间基因


技术实现思路

[0004]针对现有技术的不足,本专利技术的目的在于提供一种基于古代诗词文本的空间基因识别提取方法及系统,以解决上述
技术介绍
中提出的问题

[0005]本专利技术的目的可以通过以下技术方案实现:
[0006]第一方面,提供了一种基于古代诗词文本的空间基因识别提取方法,包括以下步骤:
[0007]预处理步骤,接收关于研究城市的古诗词文本数据,并对所述古诗词文本数据进行预处理,得到数据集
D1;
[0008]分析步骤,统计数据集
D1中高频地名词和名词,并加入专有地名词,对数据集
D1中高频地名词和名词进行筛选,构建空间相关关键词集
C1;
[0009]合并处理步骤,在空间相关关键词集
C1和数据集
D1中进行复合词拆分和同义词替换,并对空间相关关键词集
C1中重复的词合并处理,得到空间相关关键词集
C2和数据集
D2;
[0010]构建步骤,根据空间相关关键词集
C2在数据集
D2中的共现关系构建共词矩阵,并根据共词矩阵构建共词网络;
[0011]划分步骤,对所述共词网络进行社区划分,根据社区划分结果得到空间要素共现组合;
[0012]提取步骤,提取所述古诗词文本数据中对空间进行详细描述的诗句,对空间要素共现组合进行筛选和解释,得到研究城市的空间基因

[0013]进一步的,所述古诗词文本数据的采集步骤包括:
[0014]收集研究城市的相关古诗词及研究城市历代地方编纂收录的诗词集,摘取古诗词
的正文内容并分篇目整理成结构化数据

[0015]进一步的,所述对所述古诗词文本数据进行预处理的步骤包括:
[0016]对所述古诗词文本数据去重

通过正则表达式过滤无效字符

句子分词和去除停用词,保留专有地名词;其中,所述停用词包含古诗词常用虚词及其他无意义词,所述专有地名词为以本地历史为依据的专有地名或物名

[0017]进一步的,所述构建空间相关关键词集
C1,具体为:
[0018]对预处理后的古诗词文本数据进行词性标注和词频统计,筛选出词频大于预设词频阈值的地名词和名词作为空间相关高频词;
[0019]将空间相关高频词与专有地名词合并去重后,进行进一步筛选,得到空间相关关键词集
C1。
[0020]进一步的,所述复合词拆分是指将古诗词中较多存在的并列式复合词拆分为两个或多个词语分开统计

[0021]进一步的,所述构建共词网络的步骤具体为:
[0022]将数据集
D2中每个文本构建二维数组
formated_data

[0023]建立一个二维矩阵
matrix
,其大小为:
(C2集合长度
+1)
×
(C2集合长度
+1)
,将所有空间相关关键词作为共现矩阵的首行和首列;
[0024]如果行关键词和列关键词相同,则其对应的共现次数为0,即矩阵对角线为0;
[0025]遍历
formated_data
,让取出的行关键词和取出的列关键词进行组合,一组关键词共现则在对应矩阵中
+1
,得到共词矩阵
M

[0026]去除与其他任意关键词共现次数之和小于一定阈值的关键词及其行列,得到共词矩阵
M


[0027]根据所述关键词共现矩阵
M

构建共词网络,其中节点为空间相关关键词,边表示关键词的共现关系,词共现则节点相连,边的权重为共现次数

[0028]进一步的,对所述共词网络进行社区划分采用
Louvain
算法,包括以下步骤:
[0029](1)
初始化社区,将每个节点即作为一个独立的社区,社区个数与节点个数相同,社区内的连边权重为0;
[0030](2)
遍历数据中的所有节点,针对每个节点
i
遍历该节点的全部邻居节点,计算节点
i
加入邻居节点前后的模块度
Q
及模块度增益
Δ
Q

Q

Δ
Q
的计算如下式:
[0031][0032][0033]其中,
m
表示网络中所有边的权重总和;
∑in
表示社区
c
内部的边的权重总和;
∑tot
表示关联到社区
c
内部节点的边的权重之和
(
包括社区内部和外部的边
)

k
i
是关联到节点
i
的边的权重之和;
k
i,in
是节点
i
连接到社区
c
中的节点的边数之和;
[0034]若最大模块度增益
Δ
Qmax>0
,则将节点
i
加入模块度增量最大的邻居节点所在社区,若所有
Δ
Q
<0,则节点
i
保持不动;
[0035](3)
重复执行步骤
(2)
,直至算法稳定,即所有节点的社区归属不再变化;
[0036](4)
将每个社区中的节点合并为一个新的超级节点,边权重为原始社区内所有节点的边权重之和,重新构造子图;
[0037](5)
重复步骤
...

【技术保护点】

【技术特征摘要】
1.
一种基于古代诗词文本的空间基因识别提取方法,其特征在于,包括以下步骤:接收关于研究城市的古诗词文本数据,并对所述古诗词文本数据进行预处理,得到数据集
D1;统计数据集
D1中高频地名词和名词,并加入专有地名词,对数据集
D1中高频地名词和名词进行筛选,构建空间相关关键词集
C1;在空间相关关键词集
C1和数据集
D1中进行复合词拆分和同义词替换,并对空间相关关键词集
C1中重复的词合并处理,得到空间相关关键词集
C2和数据集
D2;根据空间相关关键词集
C2在数据集
D2中的共现关系构建共词矩阵,并根据共词矩阵构建共词网络;对所述共词网络进行社区划分,根据社区划分结果得到空间要素共现组合;提取所述古诗词文本数据中对空间进行详细描述的诗句,对空间要素共现组合进行筛选和解释,得到研究城市的空间基因
。2.
根据权利要求1所述的一种基于古代诗词文本的空间基因识别提取方法,其特征在于,所述古诗词文本数据的采集步骤包括:收集研究城市的相关古诗词及研究城市历代地方编纂收录的诗词集,摘取古诗词的正文内容并分篇目整理成结构化数据
。3.
根据权利要求1所述的一种基于古代诗词文本的空间基因识别提取方法,其特征在于,所述对所述古诗词文本数据进行预处理的步骤包括:对所述古诗词文本数据去重

通过正则表达式过滤无效字符

句子分词和去除停用词,保留专有地名词;其中,所述停用词包含古诗词常用虚词及其他无意义词,所述专有地名词为以本地历史为依据的专有地名或物名
。4.
根据权利要求1所述的一种基于古代诗词文本的空间基因识别提取方法,其特征在于,所述构建空间相关关键词集
C1,具体为:对预处理后的古诗词文本数据进行词性标注和词频统计,筛选出词频大于预设词频阈值的地名词和名词作为空间相关高频词;将空间相关高频词与专有地名词合并去重后,进行进一步筛选,得到空间相关关键词集
C1。5.
根据权利要求1所述的一种基于古代诗词文本的空间基因识别提取方法,其特征在于,所述复合词拆分是指将古诗词中较多存在的并列式复合词拆分为两个或多个词语分开统计
。6.
根据权利要求1所述的一种基于古代诗词文本的空间基因识别提取方法,其特征在于,所述构建共词网络的步骤具体为:将数据集
D2中每个文本构建二维数组
formated_data
;建立一个二维矩阵
matrix
,其大小为:
(C2集合长度
+1)
×
(C2集合长度
+1)
,将所有空间相关关键词作为共现矩阵的首行和首列;如果行关键词和列关键词相同,则其对应的共现次数为0,即矩阵对角线为0;遍历
formated_data
,让取出的行关键词和取出的列关键词进行组合,一组关键词共现则在对应矩阵中
+1
,得到共词矩阵
M
;去除与其他任意关键词共现次数之和小于一定阈值的关键词及其行列,得到共词矩阵
M

;根据所述关键词共现矩阵
M

构建共词网络,其中节点为空间相关关键词,边表示关键词的共现关系,词共现则节点相连,边的权重为共现次数
。7.
根据权利要求1所述的一种基于古代诗词文本的空间基因识别提取方法,其特征在于,对所述共词网络进行社区划分采用
Louvain
算法,包括以下步骤:
(1)
初始化社区,将每个节点即作为一个独立的社区,社区个数与节点个数相同,社区内的连边权重为0;
(2)
遍历数据中的所有节点,针对每个节点
i
遍历该节点的全部邻居节点,计算节点
i
加入邻居节点前后的模块度
Q
及模块度增益
Δ
Q

Q
和...

【专利技术属性】
技术研发人员:段进鄢雨晨陈柯帆
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1