一种针对中文文本的字符串匹配方法组成比例

技术编号：23672273 阅读：42 留言：0更新日期：2020-04-04 17:46

本发明专利技术涉及一种针对中文文本的字符串匹配方法。方法包括如下步骤：步骤1：根据报表属性定义关键词集；步骤2：以关键词询问的方式获取客户每个关键词下需要咨询的内容；步骤3：依次对每组字符串进行匹配；步骤4：查询每个关键词在报表中的位置；步骤5：判断关键词是否完全匹配，完全匹配则转步骤6，否则返回步骤4；步骤6：字符串进行模糊匹配；步骤7：判断是否可以完成该报表属性下各字符串匹配度计算；步骤8：判断所有字符串完成匹配；步骤9：计算字符串匹配度的最大值；步骤10：将该字符串对应的数据信息反馈给客户。本专利提高了信息查询的效率；提高了字符串匹配的准确性。

A string matching method for Chinese text

全部详细技术资料下载

【技术实现步骤摘要】
一种针对中文文本的字符串匹配方法
：本专利技术涉及线上客户服务系统或方法，具体涉及一种针对中文文本的字符串匹配方法。
技术介绍
：专利文献CN106919663A记载了一种考虑等价关键词以及连续数字的字符串匹配规则。该方法提出先满足关键词匹配要求才可进行字符串匹配度计算，但在计算总的字符串匹配度时将关键词与非关键词进行同级运算，无法体现关键词的高优先级，且非关键词的长度会影响匹配度；另外，该方法对于非关键词编辑距离的计算方式未考虑由于汉字与英文字符的差异性。传统的编辑距离计算方式主要用于英文字符串匹配，而汉字字符存在一定的特性，因此这里该方式并不适用。编辑距离是对两个字符串相互转换需要付出的最小代价，转换可能的操作只有插入、删除、替换三种，每次操作都看作一次原子操作，但是在这种方法中，由于每一个原子操作代价都为1，导致其考虑信息比较单一。
技术实现思路
：为了克服现有技术在进行中文字符串匹配时考虑信息单一而忽略了汉字与一般字符差异的问题，本专利技术对编辑距离的递推式进行了改进，提供一种针对中文文本...

【技术保护点】
1.一种针对中文文本的字符串匹配方法，其特征在于，包括如下步骤：/n步骤1：根据报表属性定义关键词集，转步骤2；/n步骤2：以关键词询问的方式获取客户每个关键词下需要咨询的内容，转步骤3；/n步骤3：依次对每组字符串进行匹配，转步骤4；/n步骤4：查询每个关键词在报表中的位置，转步骤5；/n步骤5：判断关键词是否完全匹配，完全匹配则转步骤6，否则返回步骤4；/n步骤6：从对应报表下的候选字符串与该组客户咨询内容字符串进行模糊匹配；转步骤7；/n步骤7：判断是否可以完成该报表属性下各字符串匹配度计算，可以完成则转步骤8，否则返回步骤6；计算方法如下：/n进行匹配的两字符串为S

【技术特征摘要】
1.一种针对中文文本的字符串匹配方法，其特征在于，包括如下步骤：
步骤1：根据报表属性定义关键词集，转步骤2；
步骤2：以关键词询问的方式获取客户每个关键词下需要咨询的内容，转步骤3；
步骤3：依次对每组字符串进行匹配，转步骤4；
步骤4：查询每个关键词在报表中的位置，转步骤5；
步骤5：判断关键词是否完全匹配，完全匹配则转步骤6，否则返回步骤4；
步骤6：从对应报表下的候选字符串与该组客户咨询内容字符串进行模糊匹配；转步骤7；
步骤7：判断是否可以完成该报表属性下各字符串匹配度计算，可以完成则转步骤8，否则返回步骤6；计算方法如下：
进行匹配的两字符串为S1,S2，S1中第i个字符记为S1[i]，S2中第j个字符记为S2[j]，d[i,j]表示S1前i个字符与S2前j个字符的编辑距离，dp[i,j]表示S1[i]与S2[j]两字符对应的拼音字符串的编辑距离，max(|S1[i]|,|S2[j]|...

【专利技术属性】
技术研发人员：邓志东，吕静贤，姜冬，陈龙，安业腾，宋灿，
申请(专利权)人：国家电网有限公司客户服务中心，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人