一种用于医保目录的文本匹配方法组成比例

技术编号:38665737 阅读:10 留言:0更新日期:2023-09-02 22:46
本发明专利技术公开了一种用于医保目录的文本匹配方法,包括:获取医疗文本并进行预处理;根据获取的医保目录语料库文档,基于BM25算法分别对各关键词集合进行粗匹配,获得对应的匹配得分;对各关键词集合中第i个关键词与各个文档之间的匹配得分进行降序排列,获得第i个关键词的候选匹配目录文本集,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本的候选结果;根据对应的候选结果,利用编辑距离与Jaccard系数对待匹配文本进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本的最终匹配结果。该方法提高了零星报销审核效率和医保费用审核的准确度。和医保费用审核的准确度。和医保费用审核的准确度。

【技术实现步骤摘要】
一种用于医保目录的文本匹配方法


[0001]本专利技术属于一种用于医保目录的文本匹配方法领域,具体涉及一种用于医保目录的文本匹配方法。

技术介绍

[0002]基本医疗保险是社会保险制度中最重要的险种之一,其是为补偿劳动者因疾病风险造成的经济损失而建立的一项社会保险制度。随着全民参保的逐渐深入,尤其是城镇居民、农村居民加入医疗保险以及医保涵盖范围的逐渐增大,待遇享受人次持续升高,医保经办机构在经办医疗费用零星报销业务的压力持续叠加。
[0003]医疗费用零星报销作为医保部门的一项重要日常工作,一定程度上反映了医保基金的整体运转情况,备受社会的关注。医保零星报销情况大多数为异地就医或在本地临时应急情况下的就医。每年产生的医疗票据及报销凭证数以亿计,一方面传统的零星报销业务完全依靠医保经办人员通过人工记忆、手动查询等方式进行医保报销审核、拨付报销资金,存在医保零星报销业务工作量大,处理周期较长等弊端,另一方面,医保报销过程中,医保经办人员需要将医疗票据中的医疗机构具体诊疗项目与国家医保目录进行匹配,由于相同国家医保条目对应不同医疗机构中的具体诊疗项目各不相同,加之国家医保目录数据庞大,存在审核不够精准、难度高、效率低、风险大等问题。此外,传统的医疗费用零星报销依赖人工进行逐条审核,花费大量的时间和人工成本,人工录入信息慢,严重依赖工作人员经验,出现错漏只能通过事后检查发现并处置,给基金安全带来隐患。因此,本专利技术提出了一种用于医保目录的文本匹配方法。

技术实现思路

[0004]本专利技术的目的在于针对上述问题,提出一种用于医保目录的文本匹配方法,提高了零星报销审核效率和医保费用审核的准确度。
[0005]为实现上述目的,本专利技术所采取的技术方案为:
[0006]本专利技术提出的一种用于医保目录的文本匹配方法,包括如下步骤:
[0007]步骤1、获取医疗文本并进行预处理,预处理具体如下:
[0008]步骤1.1、利用电子凭证识别医疗文本,并对识别后的医疗文本进行子句切分;
[0009]步骤1.2、遍历切分后的子句,对各子句执行如下操作:
[0010]步骤1.2.1、对当前子句进行文本清洗形成待匹配文本query;
[0011]步骤1.2.2、对待匹配文本query进行分词处理,获得分词词组;
[0012]步骤1.2.3、根据构建的停用词表去除分词词组中的停用词,获得关键词集合Term={t1,t2,...,t
i
,...,t
n
},t
i
为第i个关键词,i=1~n,n为关键词集合中关键词的数量;
[0013]步骤2、根据获取的医保目录语料库文档d,基于BM25算法分别对各关键词集合Term={t1,t2,...,t
i
,...,t
n
}进行粗匹配,获得对应关键词集合中第i个关键词t
i
与第j个文档之间的匹配得分,1≤j≤docCount,docCount为医保目录语料库文档d中的文档总数;
[0014]步骤3、对各关键词集合中第i个关键词t
i
与各个文档之间的匹配得分进行降序排列,取前M个匹配得分对应的文档组成第i个关键词t
i
的候选匹配目录文本集D
ti
,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本query的候选结果D={D1,D2,...,D
k
,...,D
m
},M为预设数量,D
k
表示第k个返回结果,m为交集元素个数;
[0015]步骤4、根据对应的候选结果D={D1,D2,...,D
k
,...,D
m
},利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本query的最终匹配结果D
match

[0016]优选地,基于BM25算法分别对各关键词集合Term={t1,t2,...,t
i
,...,t
n
}进行粗匹配,获得对应关键词集合中第i个关键词t
i
与第j个文档之间的匹配得分,具体如下:
[0017]步骤2.1、计算第i个关键词t
i
在医保目录语料库文档d中的出现频率f(t
i
,d);
[0018]步骤2.2、计算第i个关键词t
i
与医保目录语料库文档d之间的相关性R(t
i
,d),公式如下:
[0019][0020]其中,FieldLen
j
为第j个文档内容的长度,avgFieldLen为医保目录语料库文档d中全部文档内容的平均长度,b为权重调节参数,k为词频的饱和度调节参数;
[0021]步骤2.3、计算第i个关键词t
i
出现的文档数f(t
i
),即医保目录语料库文档d中包含关键词t
i
的文档个数;
[0022]步骤2.4、计算第i个关键词t
i
的权重IDF(t
i
),公式如下:
[0023][0024]步骤2.5、计算第i个关键词t
i
与第j个文档之间的匹配得分Score(query,d)
ij
,公式如下:
[0025][0026]优选地,利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,具体如下:
[0027]步骤4.1、计算待匹配文本query与第k个返回结果D
k
之间的编辑距离d(query,D
k
),公式如下:
[0028][0029]其中,query
s
为待匹配文本query的第s个字符,D
kt
为第k个返回结果D
k
的第t个字符,d(query

1,D
k
)表示删除query
s
后的编辑距离,d(query,D
k

1)表示插入D
kt
后的编辑距离,d(query

1,D
k

1)表示替换D
kt
为query
s
后的编辑距离;
[0030]步骤4.2、计算待匹配文本query与第k个返回结果D
k
之间的相似度Score
edit_dis
(query,D
k
),公式如下:
[0031][0032]步骤4.3、计算待匹配文本query与第i个返回结果D
k
之间的Jaccard系数Score
Jaccard
(qu本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于医保目录的文本匹配方法,其特征在于:所述用于医保目录的文本匹配方法包括如下步骤:步骤1、获取医疗文本并进行预处理,所述预处理具体如下:步骤1.1、利用电子凭证识别医疗文本,并对识别后的医疗文本进行子句切分;步骤1.2、遍历切分后的子句,对各子句执行如下操作:步骤1.2.1、对当前子句进行文本清洗形成待匹配文本query;步骤1.2.2、对待匹配文本query进行分词处理,获得分词词组;步骤1.2.3、根据构建的停用词表去除分词词组中的停用词,获得关键词集合Term={t1,t2,...,t
i
,...,t
n
},t
i
为第i个关键词,i=1~n,n为关键词集合中关键词的数量;步骤2、根据获取的医保目录语料库文档d,基于BM25算法分别对各关键词集合Term={t1,t2,...,t
i
,...,t
n
}进行粗匹配,获得对应关键词集合中第i个关键词t
i
与第j个文档之间的匹配得分,1≤j≤docCount,docCount为医保目录语料库文档d中的文档总数;步骤3、对各关键词集合中第i个关键词t
i
与各个文档之间的匹配得分进行降序排列,取前M个匹配得分对应的文档组成第i个关键词t
i
的候选匹配目录文本集D
ti
,并对关键词集合中所有关键词的候选匹配目录文本集取交集作为对应待匹配文本query的候选结果D={D1,D2,...,D
k
,...,D
m
},M为预设数量,D
k
表示第k个返回结果,m为交集元素个数;步骤4、根据对应的候选结果D={D1,D2,...,D
k
,...,D
m
},利用编辑距离与Jaccard系数对待匹配文本query进行精细匹配获得加权相似度,并将加权相似度最大时对应的返回结果作为当前待匹配文本query的最终匹配结果D
match
。2.如权利要求1所述的用于医保目录的文本匹配方法,其特征在于:所述基于BM25算法分别对各关键词集合Term={t1,t2,...,t
i
,...,t
n
}进行粗匹配,获得对应关键词集合中第i个关键词t
i
与第j个文档之间的匹配得分,具体如下:步骤2.1、计算第i个关键词t
i
在医保目录语料库文档d中的出现频率f(t
i
,d);步骤2.2、计算第i个关键词t
i
与医保目录语料库文档d之间的相关性R(t
i
,d),公式如下:其中,FieldLen
j
为第j个文档内容的长度,avgFieldLen为医保目录语料库文档d中全部文档内容的平均长度,b为权重调节参数,k为词频的饱和度调节参数;步骤2.3、计算第i个关键词t
i
出现的文档数f(t
i
),即医保目录语料库文档d中包含关键词t
i
的文档个数;步骤2.4、计算第i个关键词t
i
的权重IDF(t
i
),公式如下:步骤2.5、计算第i个关键词t
i
与第j...

【专利技术属性】
技术研发人员:郑河荣叶高坤
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1