一种面向招标文本的信息抽取方法技术

技术编号：19543722 阅读：40 留言：0更新日期：2018-11-24 20:36

本发明专利技术涉及一种面向招标文本的信息抽取方法，包括：对招标文件进行规范化处理；根据所需要抽取的信息，建立对应的关键词列表；逐句读取招标文件的文本内容，使用jieba分词逐句对招标文件的文本进行分词与标注词性处理；将分词结果进行存储，作为后续抽取操作的输入数据，完成预处理；通过调用预设信息抽取模块，根据目标招标信息，对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作，获取抽取结果。本发明专利技术提出的一种面向招标文本的信息抽取方法，利用自然语言处理领域的技术实现对招标文本中特定信息进行抽取并将获得的信息以结构化的形式给予描述。通过对招标文本的信息抽取为招标信息的提取提供更有力的获取工具。

An Information Extraction Method for Bidding Text

The invention relates to an information extraction method for bidding documents, which includes: standardizing the bidding documents; establishing corresponding keyword lists according to the information to be extracted; reading the text content of bidding documents sentence by sentence, and using Jieba participle to segment and annotate the text of bidding documents sentence by sentence. The results of word segmentation are stored as input data of subsequent extraction operation to complete the pre-processing; by calling the preset information extraction module, according to the target bidding information, the pre-processed text is extracted by corresponding matching extraction method to obtain the extraction results. The invention provides an information extraction method for bidding text, which uses the technology in the field of natural language processing to extract specific information from bidding text and describes the obtained information in a structured form. The information extraction of tender text provides a more powerful acquisition tool for the extraction of tender information.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向招标文本的信息抽取方法
本专利技术涉及一种面向招标文本的信息抽取方法。
技术介绍
当今社会是信息社会，信息资源己成为当今社会中重要的战略资源之一。信息资源的利用和开发水平已成为推动经济、文化、科技和社会发展的重要动力。招标文件是招标人向潜在投标人发出并告知项目需求、招标投标活动规则和合同条件等信息的要约邀请文件，是项目招标投标活动的主要依据。然而招标信息是以自由文本的形式存在的，因此如何将所需要的招标信息转化为计算机可处理、可读、可理解的结构化形式便成为亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种面向招标文本的信息抽取方法，以克服现有技术中存在的缺陷。为实现上述目的，本专利技术的技术方案是：一种面向招标文本的信息抽取方法，包括如下步骤：步骤S1：对招标文件进行规范化处理；步骤S2：根据所需要抽取的信息，建立对应的关键词列表；步骤S3：逐句读取招标文件的文本内容，使用jieba分词逐句对招标文件的文本进行分词与标注词性处理；将分词结果进行存储，作为后续抽取操作的输入数据，完成预处理；步骤S4：通过调用预设信息抽取模块，根据目标招标信息，对预处理过...

【技术保护点】
1.一种面向招标文本的信息抽取方法，其特征在于，包括如下步骤：步骤S1：对招标文件进行规范化处理；步骤S2：根据所需要抽取的信息，建立对应的关键词列表；步骤S3：逐句读取招标文件的文本内容，使用jieba分词逐句对招标文件的文本进行分词与标注词性处理；将分词结果进行存储，作为后续抽取操作的输入数据，完成预处理；步骤S4：通过调用预设信息抽取模块，根据目标招标信息，对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作，获取抽取结果。

【技术特征摘要】
1.一种面向招标文本的信息抽取方法，其特征在于，包括如下步骤：步骤S1：对招标文件进行规范化处理；步骤S2：根据所需要抽取的信息，建立对应的关键词列表；步骤S3：逐句读取招标文件的文本内容，使用jieba分词逐句对招标文件的文本进行分词与标注词性处理；将分词结果进行存储，作为后续抽取操作的输入数据，完成预处理；步骤S4：通过调用预设信息抽取模块，根据目标招标信息，对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作，获取抽取结果。2.根据权利要求1所述的一种面向招标文本的信息抽取方法，其特征在于，在所述步骤S1中，还包括如下过程：步骤S11：从本地的招标文件中读取文本；步骤S12：查找文本中所有的回车符和空行，将文本所有的回车符使用句号代替，将文本中的空行删除；步骤S13：将规范化处理后的文本进行存储。3.根据权利要求1所述的一种面向招标文本的信息抽取方法，其特征在于，在所述步骤S2中，所述关键词列表的格式如下：Keyword_list＝['招标内容','项目名称','项目编号','接受投标时间','采购人名称','投标截止及开标时间','投标地点及开标地点','联系电话采购中心地址','邮政编码','项目负责人','公告期限','联系电话','招标公告','项目联系人','项目联系电话','采购单位联系方式','采购单位','联系方式','代理机构联系方式','代理机构','代理机构联系人','代理机构联系地址','预算金额','招标文件售价','招标文件获取方式','投标截止时间','开标时间','开标地点','项目联系方式','资格要求','地点','最高投标限价'。4.根据权利要求3所述的一种面向招标文本的信息抽取方法，其特征在于，在所述步骤S3中，根据所述关键词列表建立词典，并将词典加入jieba分词，按照如下步骤对已经规范化的文本采用概率语言模型算法进行分词处理：步骤S31：引入jieba分词包；步骤S32：逐句读取规范化的招标文件；步骤S33：采用Python的内置函数split()函数通过指定分隔符对字符串进行切片，且指定分配符采用句号，将文本切片成以句号为单位的文本；步骤S34：利用jieba的add_word()函数将Keyword_list中的词加入到jieba的内置词典中，并动态修改词典；步骤S35：对句子进行分词，调用jieba.cut对句子进行分词处理，返回一个一个可迭代的generator，使用for循环来获得分词后得到的每一个词语。5.根据权利要求1所述的一种面向招标文本的信息抽取方法，其特征在于，在所述步骤S4中，所要抽取的招标信息包括：项目名称抽取、项目编号抽取、联系电话抽取、相关时间信息抽取、项目负责人与项目联系人抽取。6.根据权利要求5所述的一种面向招标文本的信息抽取方法，其特征在于，所述项目名称抽取按照如下步骤实现：步骤S411：输入分词结果，匹配找到包括“项目名称”的句子；步骤S412：通过采用stanfordcorenlp句法分析方法，对上述句子进行句法分析；步骤S413：在句法分析结果返回的list中，查找包括“项目”或者“服务项目”的元素，并往前回溯元素，直到查找的元素的父节点不包括“项目”或者“服务项目”的元素；若超过预设阀值，则令第10个词为项目名字的起始；步骤S414：迭代返回，即为项目名称。7.根据权利要求5所述的一种面向招标...

【专利技术属性】
技术研发人员：刘漳辉，陈艺燕，陈星，郭晨皓，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人