一种针对社会经济指标描述文本的关键信息提取方法技术

技术编号:38018082 阅读:9 留言:0更新日期:2023-06-30 10:45
本发明专利技术涉及经济学文本识别技术领域,尤其是一种针对社会经济指标描述文本的关键信息提取方法,包括:S100,构建行政区划文本库和标准指标名称文本库;S200,获取输入端输入的查询文本,并生成查询文本标注结果;S300,根据查询文本标注结果,提取标注的词性为地名的分词,并生成候选行政区划;S400,提取标注的词性为量词的分词,并生成候选年份;S500,提取标注的词性为其他词性的分词,并生成候选指标名称;S600,将候选行政区划与行政区划文本库中的数据进行比对,生成行政区划识别结果;根据行政区划识别结果、候选年份和候选指标名称,生成经济指标描述文本识别结果。采用本方案,能够实现社会经济指标描述文本的关键信息提取,并提升信息提取准确性。并提升信息提取准确性。并提升信息提取准确性。

【技术实现步骤摘要】
一种针对社会经济指标描述文本的关键信息提取方法


[0001]本专利技术涉及经济学文本识别
,特别涉及一种针对社会经济指标描述文本的关键信息提取方法。

技术介绍

[0002]文本实体提取是自然语言处理领域的主要任务之一,其主要内容是针对给定的一段文本,基于一定的算法处理过程,实现对其中所关注实体信息的提取,如提取事件描述文本中的事件名称、地点、人物等信息,从而支持建立一段完整的记录信息。常见的应用领域如裁判文书中的案件信息提取、医疗问诊语料中的病情信息提取等。
[0003]与其他常见领域的文本信息提取不同,社会经济类文本关键信息的提取存在较高的难度。其涉及到的指标名称众多,且多为包含各种专有名词的长文本,这些专有名词是常规语料库中无法查询到的,如“全体居民人均转移性可支配收入比”,现有的通用方法无法在社会经济指标信息提取领域取得准确的提取效果。且社会经济类的查询内容通常包括城市的限定,如具体查询某一指定城市的人口数量,但国内同音不同字的城市众多,用户键入查询内容时可能存在输入错误的情况,导致查询内容识别困难。
[0004]因此,急需提供一种针对社会经济指标描述文本的关键信息提取方法,能够实现社会经济指标描述文本的关键信息提取,并提升信息提取准确性。

技术实现思路

[0005]本专利技术提供了一种针对社会经济指标描述文本的关键信息提取方法,能够实现社会经济指标描述文本的关键信息提取,并提升信息提取准确性。
[0006]为了达到上述目的,本申请提供如下技术方案:
[0007]一种针对社会经济指标描述文本的关键信息提取方法,包括以下步骤:
[0008]S100,获取行政区划数据和指标名称,构建行政区划文本库和标准指标名称文本库;
[0009]S200,获取输入端输入的查询文本,并在作分词处理后进行词性标注,生成查询文本标注结果;标注的词性包括地名、量词和其他词性;
[0010]S300,根据查询文本标注结果,提取标注的词性为地名的分词,并生成候选行政区划;
[0011]S400,根据查询文本标注结果,提取标注的词性为量词的分词,并生成候选年份;
[0012]S500,根据查询文本标注结果,提取标注的词性为其他词性的分词,并生成候选指标名称;
[0013]S600,将候选行政区划与行政区划文本库中的数据进行比对,生成区划比对结果,并根据区划比对结果,生成行政区划识别结果;根据行政区划识别结果、候选年份和候选指标名称,生成经济指标描述文本识别结果。
[0014]进一步,S400中,提取标注的词性为量词且为四位数的分词。
[0015]进一步,S100包括:
[0016]S101,获取行政区划数据,并根据行政区划数据,构建行政区划文本库;
[0017]S102,获取指标名称,作小写化处理后构建标准指标名称文本库;
[0018]S103,对行政区划文本库和标准指标名称文本库中的词句作分词处理,并生成分词结果,所述分词结果包括若干词组;
[0019]S104,根据预存词汇库,在各词组末尾添加带有词性标注的限定词,并生成分词标注结果。
[0020]进一步,所述行政区划数据包括行政区划标准名称、行政区划惯常简称及对应的行政区划标准代码;
[0021]S101包括:
[0022]S1011,获取行政区划标准名称、行政区划惯常简称及对应的行政区划标准代码;
[0023]S1012,分析并删除行政区划标准名称和行政区划惯常简称中的区划等级限定词;
[0024]S1013,将删除区划等级限定词后的行政区划标准名称和行政区划惯常简称作为索引键,将对应的行政区划标准代码作为值,构建行政区划文本库。
[0025]进一步,S104包括:
[0026]S1041,将预存词汇库中的各词汇与分词结果中的词组进行比对,并生成比对结果;
[0027]S1042,根据比对结果,在各词组末尾添加带有词性标注的限定词,并生成分词标注结果。
[0028]进一步,S200包括:
[0029]S201,获取输入端输入的查询文本;
[0030]S202,对查询文本作分词处理并进行词性标注,生成查询文本标注结果,查询文本标注结果包括若干标注有词性的查询文本词组;
[0031]S203,提取词性为地名的查询文本词组,并删除相应查询文本词组的区划等级限定词,生成待定地名;
[0032]S204,将待定地名与预存同音地名库中的地名进行比对,生成地名比对结果;预存同音地名库包括若干同音地名组,各同音地名组中包括若干同音地名,还预存有各同音地名对应的区划等级;
[0033]S205,若地名比对结果为,待定地名与预存同音地名库中一同音地名组同音,则执行S206,否则执行S300;
[0034]S206,根据输入端输入的查询文本,分析用户使用的限定词;
[0035]S207,将待定地名与相应同音地名组中的同音地名进行比对,若存在同音地名与待定地名同字,则将相应同音地名的区划等级与用户使用的限定词进行比对,生成等级比对结果,并执行S208;若不存在同音地名与待定地名同字,则获取用户所在地,将各同音地名中与用户所在地距离最近的同音地名作为修正地名,修正查询文本标注结果中词性为地名的词组,并执行S300;
[0036]S208,若等级比对结果为同音地名的区划等级与用户使用的限定词相同,则执行S300,若等级比对结果为同音地名的区划等级与用户使用的限定词不同,则获取用户所在地,将各同音地名中与用户所在地距离最近的同音地名作为修正地名,修正查询文本标注
结果中词性为地名的词组,并执行S300。
[0037]本专利技术的原理及优点在于:
[0038]1、获取行政区划数据和指标名称,构建行政区划文本库和标准指标名称文本库,在用户查询相关社会经济指标描述文本,如“重庆市2020年的人均GDP”时,相对于现有技术中的文本库,基于本方案中的文本库,能够分别针对性的识别查询文本中的地名、年份、指标名称等数据,从而更加准确的进行文本信息提取,弥补了社会经济指标场景下专有处理算法的空白,提升了文本信息提取准确性。
[0039]2、首先,删除行政区划标准名称和行政区划惯常简称中的区划等级限定词,如重庆市开州区删除后为重庆开州,然后行政区划文本库和标准指标名称文本库中的词句作分词处理,即重庆、开州,再根据预存词汇库,在各词组末尾添加带有词性标注的限定词,如重庆市、开州区、开州县。由此,可以对发展过程中区划等级有过变化的行政区名称进行补足,使文本库更加全面,便于提升文本信息提取的准确性。
[0040]3、可自定义程度高,在原始数据变化时可随之快捷地进行基础语料的更新,模型更新快速灵活,泛化能力强,保证了算法的稳定性。
[0041]4、用户输入查询文本时,可能存在输入拼音后文本选择错误的问题,而全国同音不同字的地名众多,故本方案首先分析用户输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对社会经济指标描述文本的关键信息提取方法,其特征在于:包括以下步骤:S100,获取行政区划数据和指标名称,构建行政区划文本库和标准指标名称文本库;S200,获取输入端输入的查询文本,并在作分词处理后进行词性标注,生成查询文本标注结果;标注的词性包括地名、量词和其他词性;S300,根据查询文本标注结果,提取标注的词性为地名的分词,并生成候选行政区划;S400,根据查询文本标注结果,提取标注的词性为量词的分词,并生成候选年份;S500,根据查询文本标注结果,提取标注的词性为其他词性的分词,并生成候选指标名称;S600,将候选行政区划与行政区划文本库中的数据进行比对,生成区划比对结果,并根据区划比对结果,生成行政区划识别结果;根据行政区划识别结果、候选年份和候选指标名称,生成经济指标描述文本识别结果。2.根据权利要求1所述的针对社会经济指标描述文本的关键信息提取方法,其特征在于:S400中,提取标注的词性为量词且为四位数的分词。3.根据权利要求1所述的针对社会经济指标描述文本的关键信息提取方法,其特征在于:S100包括:S101,获取行政区划数据,并根据行政区划数据,构建行政区划文本库;S102,获取指标名称,作小写化处理后构建标准指标名称文本库;S103,对行政区划文本库和标准指标名称文本库中的词句作分词处理,并生成分词结果,所述分词结果包括若干词组;S104,根据预存词汇库,在各词组末尾添加带有词性标注的限定词,并生成分词标注结果。4.根据权利要求3所述的针对社会经济指标描述文本的关键信息提取方法,其特征在于:所述行政区划数据包括行政区划标准名称、行政区划惯常简称及对应的行政区划标准代码;S101包括:S1011,获取行政区划标准名称、行政区划惯常简称及对应的行政区划标准代码;S1012,分析并删除行政区划标准名称和行政区划惯常简称中的区划等级限定词;S1013,将删除区划等级限定词后的行政区划标准名称和行政区划...

【专利技术属性】
技术研发人员:彭震宇卢涛黄芸璟王皓冬余军李继珍左俊杰刘向丽刘晓燕陈杨阳王鹏
申请(专利权)人:重庆市规划设计研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1