和其他同时期的数据集的预期是,我们会有大量的图像,但我们需要人类对每张图像进行标注。而我们训练的所有数据,都是由人类标注员逐一查看并标注的。 而算法的重大突破在于,我们现在知道如何在不依赖人类标注的数据上进行训练。对于一个没有 背景的普通人来说
似乎如果你在
训练人类数据,人类实际上已经进行 了标注,只是这种标 英国电邮清单 注并不是显式的。 是的,哲学上来说,这是一个非常重要的问题,但这个问题在语言领域比在图像领域更为真实。是的,但我确实认为这是一个重要的区别。CLIP 确实是由人类标注的。
我认为自注意力
机制是人类已经理解了事物之间的关系,然后你 没有向您全部解释的情况下对此 通过这些关系进行学习。 所以它仍然是由人类标注的,只不过这种标注是隐式的,而不是显式的。区别在于,在监督学习时代,我们的学习任务受到更多限制。我们必须设计出一套我们想要发现的概念本体论。
比如在 I 中
和她的学生们花了很多时间思考 挑战赛 逐 AFB 目录 中的一千个类别应该是什么。而在同时期的其他数据集,如用于目标检测的 数据集,他们也花了很多心思去决定放入哪些80个类别。 那么让我们谈谈生成式 。当我攻读博士学位的时候,在你们出现之前,我上过 的机器学习课程,还学过 Daphne Koller 非常复杂的贝叶斯课程,对我来说这些都很复杂。 当时的很多内容都是预测建模。我还记得你解锁了整个视觉领域的东西,但是生成式 大约是在过去四年中才出现的。这对我来说是一个完全不同的领域——你不再是识别物体,也不是在预测什么,而是在生成新的东西。 所以也许我们可以谈谈是什么关键因素让生成式 得以实现,它和之前的不同之处,以及我们是否应该以不同的方式去看待它,它是否是一个连续发展的部分还是另一个全新的领域 这非常有趣,即使在我研究生时代,生成模型就已经存在了。我们当时就想做生成,只不过没人记得了,即使是用字母和数