【技术实现步骤摘要】
一种基于人工智能的病案统计整理方法及系统
[0001]本专利技术涉及数据处理
,具体是指一种基于人工智能的病案统计整理方法及系统
。
技术介绍
[0002]病案统计整理方法的技术背景主要是结合自然语言处理和机器学习技术对病案文本进行语义分析和信息抽取
。
但是一般
k
均值聚类方法存在
k
值选择不当,计算量大导致聚类结果差,效率低的问题;一般关键词提取算法存在忽略词义相近单词的贡献率,关键词提取不稳定的问题
。
技术实现思路
[0003]针对上述情况,为克服现有技术的缺陷,本专利技术提供了一种基于人工智能的病案统计整理方法及系统,针对一般
k
均值聚类方法存在
k
值选择不当,计算量大导致聚类结果差,效率低的问题,本方案采用迭代计算目标函数,基于目标函数的拐点确定
k
值,基于三角不等式原理筛选计算,并利用轮廓系数作为聚类判定标准,从而使聚类结果更精准,减少计算量,提高聚类效率;针对一般关键词提取算法存在忽略词义相近单词的贡献率,关键词提取不稳定的问题,本方案通过定义关联度
、
建立粗糙演绎空间和计算转移概率,综合考虑候选关键词之间的关联和影响,从而准确地提取出与文本相关的关键词,通过迭代计算关键词权值,让关键词的权值逐渐收敛,使得提取的关键词更加稳定和可靠
。
[0004]本专利技术采取的技术方案如下:本专利技术提供的一种基于人工智能的病案统计整理方 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种基于人工智能的病案统计整理方法,其特征在于:该方法包括以下步骤:步骤
S1
:数据采集,采集病案文本数据;步骤
S2
:数据预处理;步骤
S3
:聚类,基于
k
均值算法,利用目标函数的拐点确定
k
值,基于三角不等式原理筛选计算,并利用轮廓系数作为聚类判定标准;步骤
S4
:关键词提取,基于关联度建立粗糙演绎空间,将覆盖影响转移概率和聚类影响转移概率加权求和作为转移概率,迭代计算各节点权值,最终选择文本关键词;步骤
S5
:分类整理
。2.
根据权利要求1所述的一种基于人工智能的病案统计整理方法,其特征在于:在步骤
S4
中,所述关键词提取具体包括以下步骤:步骤
S41
:定义关联规则中的关联度
PMI
,所用公式如下:;式中,
A
和
B
是两个候选关键词,
p
(
A
,
B
)是
A
和
B
在同一聚类结果中的概率,
p
(
A
)是
A
出现的概率,
p
(
B
)是
B
出现的概率;步骤
S42
:建立粗糙演绎空间,预先设有关联阈值,当候选关键词间的关联度高于关联阈值,判定关键词间存在关联,关联遵循传递规则,关联度即关联权值;对于任意两个候选关键词节点
v
j
和
v
i
,候选关键词节点
v
j
对
v
i
的影响通过有向边
<v
j
,
v
i
>
传递,边的权重是影响力,设
v
j
与
v
i
的关联权值为候选关键词节点
v
j
传递给候选关键词节点
v
i
的影响权值,记为
ω
ji
;建立粗糙演绎空间,其中
U
是候选关键字组成的数据集,
F
是关系集合,
S
是
U
中的两个元素之间存在关联;步骤
S43
:计算候选关键词节点
v
j
与
v
i
之间影响覆盖转移概率,所用公式如下:;式中,
p
cov
是覆盖影响转移概率,
Out
(
v
j
)是指从节点
v
j
出发的所有边所连接的节点的集合,
t
是集合节点的索引;步骤
S44
:计算在聚类结果中任意候选关键词
v
i
的投票重要性,所用公式如下:;式中,
c
wt
()是投票重要性,是包含候选关键词
v
i
的聚类结果,是候选关键词
v
i
的向量表示和聚类结果中心的向量表示之间的欧式距离,是聚类结果包含的词数;步骤
S45
:计算节点
v
j
和节点
v
i
之间的聚类影响转移概率,所用公式如下:;式中,
p
clu
是聚类影响转移概率;步骤
S46
:加权求和,将覆盖影响转移概率和聚类影响转移概率加权求和作为节点
v
i
与
v
j
之间的转移概率,用
r
表示;步骤
S47
:迭代权值,迭代计算各节点权值,直至计算结果收敛,所用公式如下:;式中,
C
wt
(
v
i
)是原始关键词权值,
C
wt
(
v
i
)
’
是迭代后的关键词权值,
In
(
v
i
)是指从节点
v
i
结束的所有边所连接的节点的集合,
Out
(
技术研发人员:戴子卿,陈宇,荣霞,刘琪,邹文,
申请(专利权)人:中国人民解放军总医院第六医学中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。