加入收藏 | 设为首页 | 会员中心 | 我要投稿周口站长网（https://www.0394zz.cn/）- 数据采集、智能营销、经验、云计算、专属主机!

当前位置：首页 > 大数据 > 正文

害怕GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

发布时间：2021-06-05 15:18:23 所属栏目：大数据来源：互联网

导读：在担心大语言模型啥都吃，结果被用假信息训练了？放在以前，这确实是训练NLP模型时值得担心的一个难题。现在，谷歌从根本上解决了这个问题。他们做了个名为TEKGEN的AI模型，直接将知识图谱用人话再描述一遍，生成语料库，再喂给NLP模型训练。担心GPT-3被

在担心大语言模型“啥都吃”，结果被用假信息训练了？

放在以前，这确实是训练NLP模型时值得担心的一个难题。

现在，谷歌从根本上解决了这个问题。

他们做了个名为TEKGEN的AI模型，直接将知识图谱用“人话”再描述一遍，生成语料库，再喂给NLP模型训练。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

这是因为，知识图谱的信息来源往往准确靠谱，而且还会经过人工筛选、审核，质量有保障。

目前，这项研究已经被NAACL 2021接收。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

如何让AI用“人话”描述知识图谱？

谷歌用来描述知识图谱的TEKGEN模型，全名Text from KG Generator（知识图谱文本生成器）。

它会读取一个知识图谱中的所有词语，捋清它们之间的关系，再用“人话”说出来。

从下图中来看，转换语句分为2步：

首先，将关系图谱中的词语，按逻辑进行排列；然后，再添加一些词语、并调整语句间的逻辑关系，将它们变成一段完整的话。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

为了实现这个功能，TEKGEN包含4个部分：

三元组（包含主语、宾语、关系词）生成器。将维基百科的知识图谱、和维基百科文本描述进行对应，生成训练数据集。

T5的文本-文本生成器，用于将三元组转换成文本信息。

实体子图创建器。用于将三元组中的文本信息转换成语句。

语义质量滤波器。这部分用来处理低质量的输出，保证生成的语句质量。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

整体来看，用TEKGEN生成语句的流程是这样的：

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

生成后的语句，就能用来放心地训练大语言模型了。

这份生成的语料库，由4500万个三元组生成，组合起来的句子有1600万句。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

那么，用这个语料库训练的NLP模型，是否真能取得更好的效果呢？

“满分5分，人类给它4.3分”

先来看几个连词成句的实例效果。

从输入的词语来看，只有主语、宾语，以及这两个词语之间的关系。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

但TEKGEN似乎“悟”出了什么，很快就将这些句子组合成了一段正常的语句。

不仅时间、地点、从属关系等分得非常清楚，逻辑上也符合我们平时说话的语序。

那么，满分5分的话，人类对于AI的“图文转换”能力给出几分呢？

谷歌找了些志愿者来进行测评，从结果来看，TEKGEN在“语义”和“流畅度”两方面，均取得了4.3分以上的好成绩。

担心GPT-3被喂假消息？谷歌新研究，将知识图谱转“人话”来训练

当然，这里面也用LAMA（LAnguage Model Analysis） probe，来对用这个语料库训练的模型进行了评估。

在Google-RE和TREx两个数据集上，经过预训练的模型，在各项任务上均取得了非常好的效果。

（编辑：周口站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

相关内容

推荐文章

站长推荐

热点阅读