实体与属性关系的动态抽取方法、服务器及可读存储介质技术

技术编号：18668161 阅读：29 留言：0更新日期：2018-08-14 20:36

本发明专利技术公开了一种实体与属性关系的动态抽取方法，该方法包括：获取文本数据；基于动态实体属性关系库和训练模型，从文本数据中动态抽取实体与属性的各项特征。此外，本发明专利技术还提供了一种服务器及可读存储介质，采用本发明专利技术构建了动态的实体属性关系库和训练模型，并能够从文本数据中自动地抽取实体与属性的各项特征。

Dynamic extraction method of entity and attribute relationship, server and readable storage medium

The invention discloses a dynamic extraction method of entity and attribute relationship, which includes: acquiring text data; dynamically extracting various features of entity and attribute from text data based on dynamic entity attribute relation library and training model. In addition, the invention also provides a server and a readable storage medium, which constructs a dynamic entity attribute relational database and a training model, and can automatically extract various features of entities and attributes from text data.

全部详细技术资料下载

【技术实现步骤摘要】
实体与属性关系的动态抽取方法、服务器及可读存储介质
本专利技术互联网
，尤其涉及实体与属性关系的动态抽取方法、服务器及可读存储介质。
技术介绍
伴随着互联网的迅猛发展及大数据信息时代的来临，在一些特定领域中，例如：电信领域中的技术和业务面临技术升级、业务更新的机遇与挑战，产生了大量的知识和专用术语，成为名副其实的知识高度密信的行业。电信领域中信息量增长，并已形成一个非常庞大而无序的信息资源库，其中非结构化或半结构化的文本数据中携带着丰富的有价值的电信信息。命名实体是文本中承载信息的重要语言单位，是获取有价值信息的必不可少的环节，不同的实体具有不同的属性，同一类实体具有大致相同的属性，只是属性值有所不同。命名实体识别包括对实体的识别及属性的抽取。通用领域中实体识别是把文本中的实体划为某一语义类型。现有的方法主要有三种方法，即：基于字典、基于统计与基于规则的方法。其中，基于字典的方法主要是通过字符串匹配找寻词库中命名实体，但是通常没有一个全面的实体库，而且比对费时。基于规则算法主要在实体识别过程中加入词法规则、语法规则、语义规则，通过规则匹配的方法识别各种类型的命名实体。然而，基于规则方法受限于人工添加规则。基于统计的方法利用人工标注或原始语料进行训练。而基于统计的方法需要先建立语言模型，然后在训练数据上估算模型参数，这有利于移植到不同的语言及新领域。基于统计的方法主要利用一些统计模型如隐马尔可夫模型、最大熵模型、支持向量机、条件随机场等。属性抽取的任务是为每个实体语义类构造属性表并抽取出属性值。属性抽取的方法主要由模式匹配及基于统计的方法，但是，当前这...

【技术保护点】
1.一种实体与属性关系的动态抽取方法，其特征在于，所述方法包括步骤：获取文本数据；基于动态实体属性关系库和训练模型，从所述文本数据中动态抽取实体与属性的各项特征。

【技术特征摘要】
1.一种实体与属性关系的动态抽取方法，其特征在于，所述方法包括步骤：获取文本数据；基于动态实体属性关系库和训练模型，从所述文本数据中动态抽取实体与属性的各项特征。2.根据权利要求1所述的实体与属性关系的动态抽取方法，其特征在于，在获取文本数据之前，所述方法还包括：抓取多个样本数据；根据所述多个样本数据，构建实体属性关系库。3.根据权利要求2所述的实体与属性关系的动态抽取方法，其特征在于，所述方法还包括：按照预设的特征规则，对所述实体属性关系库进行扩充。4.根据权利要求3所述的实体与属性关系的动态抽取方法，其特征在于，按照预设的特征规则，对所述实体属性关系库进行扩充，包括：接收字符串语句；判断所述字符串语句中是否包括实体属性关系库中预设的关键字；若是，则将所述字符串语句分割成一个或者多个子字符串语句；判断每个子字符串语句与所述实体属性关系库中预设的关键字的匹配度是否达到预设的阈值；若否，则将所述子字符串语句扩充至所述实体属性关系库。5.根据权利要求1所述的实体与属性关系的动态抽取方法，其特征在于，在获取文本数据之后，所述方法还包括：根据所述实体属...

【专利技术属性】
技术研发人员：陈虹，董振江，王宇，龚乐君，李涛，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人