文本链接嵌入方法技术

技术编号：20485199 阅读：37 留言：0更新日期：2019-03-02 19:06

本发明专利技术涉及互联网文本分析技术领域，具体涉及一种文本链接嵌入方法，所述方法是根据预设的字符级特征向量进行向量拼接得出待检测文本的目标词条和知识实体库中实体的特征向量，然后计算实体和目标词条的特征向量相似度以找到与目标词条对应的相似实体，最后将所述相似实体对应的实体链接信息嵌入对应的目标词条以完成文本链接嵌入。本发明专利技术的文本链接嵌入方法通过将实体和目标词条转换成能够保留语义特征的特征向量，根据目标词条和实体的特征向量相似度判断目标词条与实体之间词义是否相似。这样一来，即使是在同义不同词的情况下，也能做到目标词条与实体的精准匹配，从而有效地避免出现实体漏检情况。

全部详细技术资料下载

【技术实现步骤摘要】
文本链接嵌入方法
本专利技术涉及互联网文本分析
，具体涉及一种文本链接嵌入方法。
技术介绍
随着知识图谱相关技术的发展，各类知识库、百科类应用层出不穷，为用户提供了很多高质量的内容。但目前对于此类内容多以用户主动搜索为主，使用频率较低。由于超链接是互联网页面的常见展示形式，因此现阶段通常会在文本中嵌入超链接以解决上述问题。超链接嵌入方法是通过获取文章中的文本与实体知识库中实体的关联关系，然后在文本内容中增加对应的实体链接入口。当用户点击已经链接的文本后，链接目标将显示在浏览器上。通过这种方式可以显著提升知识获取的便利性与用户体验。现有技术的超链接嵌入方法通常是以关键词匹配方法为基础，对文章文本内容提取关键词，并将关键词与实体知识库中的实体进行匹配，通过获取关键词对应的实体的超链接锚点，从而完成替换以实现超链接的嵌入。但是由于该方法强烈依赖于实体知识库构建的词典的词汇的覆盖率，在关键词为实体知识库中未收录的词汇的情况下，便不能实现关键词的配对；并且针对不同文本内容，不同作者对于同一概念的理解常常存在分歧，因此会出现同一对象具有不同的名称，此时，文本中的关键词不能准确与实体知识库中的实体对应，从而经常造成文档中大量实体漏检。相应地，本领域需要一种新的文本链接嵌入方法来解决上述问题。
技术实现思路
为了解决现有技术中的上述问题，即当前使用关键词匹配策略进行超链接替换时存在的实体漏检缺陷的问题，本专利技术提供了一种文本链接嵌入方法，所述方法包括：对待检测文本进行分词得到目标词条，对所述目标词条进行字符级切分，得到所述目标词条对应的字符级目标词条；根据所述字符级目...

【技术保护点】
1.一种文本链接嵌入方法，其特征在于，所述方法包括：对待检测文本进行分词得到目标词条，对所述目标词条进行字符级切分，得到所述目标词条对应的字符级目标词条；根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量；计算所述目标词条与预设实体知识库中实体之间的特征向量相似度，并且根据所述特征向量相似度获取所述目标词条对应的相似实体；将所述相似实体对应的实体链接信息嵌入对应的目标词条；其中，所述实体知识库是基于知识图谱结构构建的知识库。

【技术特征摘要】
1.一种文本链接嵌入方法，其特征在于，所述方法包括：对待检测文本进行分词得到目标词条，对所述目标词条进行字符级切分，得到所述目标词条对应的字符级目标词条；根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量；计算所述目标词条与预设实体知识库中实体之间的特征向量相似度，并且根据所述特征向量相似度获取所述目标词条对应的相似实体；将所述相似实体对应的实体链接信息嵌入对应的目标词条；其中，所述实体知识库是基于知识图谱结构构建的知识库。2.根据权利要求1所述的文本链接嵌入方法，其特征在于，在“根据所述字符级目标词条与预设的字符级特征向量进行向量拼接得出所述目标词条的特征向量”的步骤之前，所述方法还包括：对预设的文本训练集进行分词得到训练目标词条，根据预设的字符级分词粒度对所述训练目标词条进行切分，得到字符级训练目标词条；利用机器学习算法获取所述字符级训练目标词条的字符级特征向量。3.根据权利要求2所述的文本链接嵌入方法，其特征在于，在“计算所述目标词条与预设实体知识库中实体之间的特征向量相似度，并且根据所述特征向量相似度获取所述目标词条对应的相似实体”的步骤之前，所述方法还包括：根据预设的字符级分词粒度对所述实体知识库中的实体进行切分，得到所述实体对应的字符级实体；根据所述字符级实体与预设的字符级特征向量拼接出所述实体的特征向量。4.根据权利要求2所述的文本链接嵌入方法，其特征在于，“利用机器学习算法获取所述字符级训练目标词条的字符级特征向量”的步骤具体包括：按照下式所示的目标函数L并且利用所述机器学习算法获取所述训练目标词条的字符级向量：其中，所述T是所述文本训练集中训练目标词条的总数，所述Ux是所述训练文本对应的训练目标词条的集合，所述wt是集合Ux中第t个训练目标词条，所述Ct是wt的上下文的训练目标词条的集合，wc是集合Ct中的第c个训练目标词条；所述wv是集合Ux中的第v个词条，所述α是预设的影响因子，所述Q是预设的同义词约束系数；所述Gt是根据所述字符级分词粒度对wt进行分词后得到的字符级目标词条的集合；gi是集合Gt中第i个字符级词条；是gi的字符级特征向量；是利用集合Gt中每个字符级训练目标词条拼接得到的训练目标词条wt的特征向...

【专利技术属性】
技术研发人员：徐常胜，方全，李泳锡，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人