一种基于人工智能的病案统计整理方法及系统技术方案

技术编号:39842552 阅读:14 留言:0更新日期:2023-12-29 16:30
本发明专利技术公开了一种基于人工智能的病案统计整理方法及系统,方法包括数据采集

【技术实现步骤摘要】
一种基于人工智能的病案统计整理方法及系统


[0001]本专利技术涉及数据处理
,具体是指一种基于人工智能的病案统计整理方法及系统


技术介绍

[0002]病案统计整理方法的技术背景主要是结合自然语言处理和机器学习技术对病案文本进行语义分析和信息抽取

但是一般
k
均值聚类方法存在
k
值选择不当,计算量大导致聚类结果差,效率低的问题;一般关键词提取算法存在忽略词义相近单词的贡献率,关键词提取不稳定的问题


技术实现思路

[0003]针对上述情况,为克服现有技术的缺陷,本专利技术提供了一种基于人工智能的病案统计整理方法及系统,针对一般
k
均值聚类方法存在
k
值选择不当,计算量大导致聚类结果差,效率低的问题,本方案采用迭代计算目标函数,基于目标函数的拐点确定
k
值,基于三角不等式原理筛选计算,并利用轮廓系数作为聚类判定标准,从而使聚类结果更精准,减少计算量,提高聚类效率;针对一般关键词提取算法存在忽略词义相近单词的贡献率,关键词提取不稳定的问题,本方案通过定义关联度

建立粗糙演绎空间和计算转移概率,综合考虑候选关键词之间的关联和影响,从而准确地提取出与文本相关的关键词,通过迭代计算关键词权值,让关键词的权值逐渐收敛,使得提取的关键词更加稳定和可靠

[0004]本专利技术采取的技术方案如下:本专利技术提供的一种基于人工智能的病案统计整理方法,该方法包括以下步骤:步骤
S1
:数据采集,采集病案文本数据;
[0005]步骤
S2
:数据预处理;
[0006]步骤
S3
:聚类,基于
k
均值算法,利用目标函数的拐点确定
k
值,基于三角不等式原理筛选计算,并利用轮廓系数作为聚类判定标准;
[0007]步骤
S4
:关键词提取,基于关联度建立粗糙演绎空间,将覆盖影响转移概率和聚类影响转移概率加权求和作为转移概率,迭代计算各节点权值,最终选择文本关键词;
[0008]步骤
S5
:分类整理

[0009]进一步地,在步骤
S2
中,所述数据预处理是基于
TextRank
算法对文本数据进行预处理,通过切句

分词和词性过滤得到候选关键词,并基于词袋模型将候选关键词的属性转化为向量表示

[0010]进一步地,在步骤
S3
中,所述聚类具体包括以下步骤:步骤
S31
:确定
k
值,步骤包括:步骤
S311
:基于
k
均值算法,对于
n
个候选关键词,初始化
K
值为1,并迭代增加
K
值,从
K=1
到,每次聚类完成后,计算目标函数
SSE
,所用公式如下:
;式中,
K
为簇数,
x
是候选关键词数据点,
k
是候选关键词数据索引,
c
k
是簇
C
k
的质心,
d
是标准欧氏距离;
[0011]步骤
S312
:在迭代过程中,目标函数逐渐减小,当目标函数接近0时,终止迭代;
[0012]步骤
S313
:在平方和下降的过程中,损失函数会出现一个拐点,在这个拐点处,平方和下降速率突然减慢,输出此时的簇数
K

[0013]步骤
S32
:用最小方差选择聚类中心;
[0014]步骤
S33
:筛选计算,基于三角不等式原理,对于两个质心
c
i

c
j
,以及数据点
x
,若满足
2d

x

c
i

≤d

c
i

c
j
),则确定
x
属于质心
c
i
所属的聚类簇中,无需计算与
c
j
之间的距离;
[0015]步骤
S34
:判定标准,聚类结束后,计算数据点的轮廓系数,并得到平均轮廓系数,预先设有轮廓阈值,当平均轮廓系数高于轮廓阈值,聚类成功;否则重新聚类;计算数据点轮廓系数
s

x
i
)的公式如下:;式中,
dv

x
i
)是
x
i
与同一聚类其他对象的平均距离,
b

x
i
)是
x
i
与所有其他聚类的平均距离中的最小值

[0016]进一步地,在步骤
S4
中,所述关键词提取具体包括以下步骤:步骤
S41
:定义关联规则中的关联度
PMI
,所用公式如下:;式中,
A

B
是两个候选关键词,
p

A

B
)是
A

B
在同一聚类结果中的概率,
p

A
)是
A
出现的概率,
p

B
)是
B
出现的概率;
[0017]步骤
S42
:建立粗糙演绎空间,预先设有关联阈值,当候选关键词间的关联度高于关联阈值,判定关键词间存在关联,关联遵循传递规则,关联度即关联权值;对于任意两个候选关键词节点
v
j

v
i
,候选关键词节点
v
j

v
i
的影响通过有向边
<v
j

v
i
>
传递,边的权重是影响力,设
v
j

v
i
的关联权值为候选关键词节点
v
j
传递给候选关键词节点
v
i
的影响权值,记为
ω
ji
;建立粗糙演绎空间,其中
U
是候选关键字组成的数据集,
F
是关系集合,
S

U
中的两个元素之间存在关联;
[0018]步骤
S43
:计算候选关键词节点
v本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于人工智能的病案统计整理方法,其特征在于:该方法包括以下步骤:步骤
S1
:数据采集,采集病案文本数据;步骤
S2
:数据预处理;步骤
S3
:聚类,基于
k
均值算法,利用目标函数的拐点确定
k
值,基于三角不等式原理筛选计算,并利用轮廓系数作为聚类判定标准;步骤
S4
:关键词提取,基于关联度建立粗糙演绎空间,将覆盖影响转移概率和聚类影响转移概率加权求和作为转移概率,迭代计算各节点权值,最终选择文本关键词;步骤
S5
:分类整理
。2.
根据权利要求1所述的一种基于人工智能的病案统计整理方法,其特征在于:在步骤
S4
中,所述关键词提取具体包括以下步骤:步骤
S41
:定义关联规则中的关联度
PMI
,所用公式如下:;式中,
A

B
是两个候选关键词,
p

A

B
)是
A

B
在同一聚类结果中的概率,
p

A
)是
A
出现的概率,
p

B
)是
B
出现的概率;步骤
S42
:建立粗糙演绎空间,预先设有关联阈值,当候选关键词间的关联度高于关联阈值,判定关键词间存在关联,关联遵循传递规则,关联度即关联权值;对于任意两个候选关键词节点
v
j

v
i
,候选关键词节点
v
j

v
i
的影响通过有向边
<v
j

v
i
>
传递,边的权重是影响力,设
v
j

v
i
的关联权值为候选关键词节点
v
j
传递给候选关键词节点
v
i
的影响权值,记为
ω
ji
;建立粗糙演绎空间,其中
U
是候选关键字组成的数据集,
F
是关系集合,
S

U
中的两个元素之间存在关联;步骤
S43
:计算候选关键词节点
v
j

v
i
之间影响覆盖转移概率,所用公式如下:;式中,
p
cov
是覆盖影响转移概率,
Out

v
j
)是指从节点
v
j
出发的所有边所连接的节点的集合,
t
是集合节点的索引;步骤
S44
:计算在聚类结果中任意候选关键词
v
i
的投票重要性,所用公式如下:;式中,
c
wt
()是投票重要性,是包含候选关键词
v
i
的聚类结果,是候选关键词
v
i
的向量表示和聚类结果中心的向量表示之间的欧式距离,是聚类结果包含的词数;步骤
S45
:计算节点
v
j
和节点
v
i
之间的聚类影响转移概率,所用公式如下:;式中,
p
clu
是聚类影响转移概率;步骤
S46
:加权求和,将覆盖影响转移概率和聚类影响转移概率加权求和作为节点
v
i

v
j
之间的转移概率,用
r
表示;步骤
S47
:迭代权值,迭代计算各节点权值,直至计算结果收敛,所用公式如下:;式中,
C
wt

v
i
)是原始关键词权值,
C
wt

v
i


是迭代后的关键词权值,
In

v
i
)是指从节点
v
i
结束的所有边所连接的节点的集合,
Out

【专利技术属性】
技术研发人员:戴子卿陈宇荣霞刘琪邹文
申请(专利权)人:中国人民解放军总医院第六医学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1