加入收藏 | 设为首页 | 会员中心 | 我要投稿 周口站长网 (https://www.0394zz.cn/)- 数据采集、智能营销、经验、云计算、专属主机!
当前位置: 首页 > 大数据 > 正文

害怕GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练

发布时间:2021-06-05 15:18:23 所属栏目:大数据 来源:互联网
导读:在担心大语言模型啥都吃,结果被用假信息训练了? 放在以前,这确实是训练NLP模型时值得担心的一个难题。 现在,谷歌从根本上解决了这个问题。 他们做了个名为TEKGEN的AI模型,直接将知识图谱用人话再描述一遍,生成语料库,再喂给NLP模型训练。 担心GPT-3被
在担心大语言模型“啥都吃”,结果被用假信息训练了?
放在以前,这确实是训练NLP模型时值得担心的一个难题。
现在,谷歌从根本上解决了这个问题。
他们做了个名为TEKGEN的AI模型,直接将知识图谱用“人话”再描述一遍,生成语料库,再喂给NLP模型训练。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
这是因为,知识图谱的信息来源往往准确靠谱,而且还会经过人工筛选、审核,质量有保障。
目前,这项研究已经被NAACL 2021接收。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
如何让AI用“人话”描述知识图谱?
谷歌用来描述知识图谱的TEKGEN模型,全名Text from KG Generator(知识图谱文本生成器)。
它会读取一个知识图谱中的所有词语,捋清它们之间的关系,再用“人话”说出来。
从下图中来看,转换语句分为2步:
首先,将关系图谱中的词语,按逻辑进行排列;然后,再添加一些词语、并调整语句间的逻辑关系,将它们变成一段完整的话。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
为了实现这个功能,TEKGEN包含4个部分:
三元组(包含主语、宾语、关系词)生成器。将维基百科的知识图谱、和维基百科文本描述进行对应,生成训练数据集。
T5的文本-文本生成器,用于将三元组转换成文本信息。
实体子图创建器。用于将三元组中的文本信息转换成语句。
语义质量滤波器。这部分用来处理低质量的输出,保证生成的语句质量。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
整体来看,用TEKGEN生成语句的流程是这样的:
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
生成后的语句,就能用来放心地训练大语言模型了。
这份生成的语料库,由4500万个三元组生成,组合起来的句子有1600万句。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
那么,用这个语料库训练的NLP模型,是否真能取得更好的效果呢?
“满分5分,人类给它4.3分”
先来看几个连词成句的实例效果。
从输入的词语来看,只有主语、宾语,以及这两个词语之间的关系。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
但TEKGEN似乎“悟”出了什么,很快就将这些句子组合成了一段正常的语句。
不仅时间、地点、从属关系等分得非常清楚,逻辑上也符合我们平时说话的语序。
那么,满分5分的话,人类对于AI的“图文转换”能力给出几分呢?
谷歌找了些志愿者来进行测评,从结果来看,TEKGEN在“语义”和“流畅度”两方面,均取得了4.3分以上的好成绩。
担心GPT-3被喂假消息?谷歌新研究,将知识图谱转“人话”来训练
当然,这里面也用LAMA(LAnguage Model Analysis) probe,来对用这个语料库训练的模型进行了评估。
在Google-RE和TREx两个数据集上,经过预训练的模型,在各项任务上均取得了非常好的效果。

(编辑:周口站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读