在我读博期间, 在公众视野里正处于寒冬,但在我眼中并非如此。这更像是春天前的冬眠期,机器学习和生成模型正在蓄积力量。我认为我是机器学习领域的“本地人”,而 的那一代是深度学习的“原住民”。 机器学习是深度学习的前身
我们当时实
验了各种模型。但在我博士结束时以及 台湾邮箱列表 担任助理教授期间,我的学生和我实验室意识到,有一个被忽视的 元素在驱动着泛化能力,这个领域当时并未深入思考,那就是数据。我们当时专注于贝叶斯模型等复杂模型,而忽略了让数据驱动模型的重要性。 这是我们押注 的原因之一。当时所有领域的数据集规模都很小,计算机视觉和自然语言处理的标准数据集都是几
千或几万条数据
但我们意识到需要提升到互 将无名指放在第三品的 联网规模。幸运的是,互联网时代也正在崛起,我们乘上了这股浪潮,也正是在这个时候我来到了斯坦福。 这些时代就像我们经常谈论的那些,比如 t 显然是推动或至少是让计算机视觉在生成式 领域中流行并具备可行性的重要时代。我们通常会提到两个关键的突破:一个是 的论文,即“注意力机制” 另一个是较少谈到的“稳定扩散 。
用这种方式来理
解这两个来自学术界(尤其是谷歌)的算法突破 AFB 目录 是否合理?或者说这更是一个有意为之的过程?亦或是还有其他一些不常被提及的重大突破也推动了我们走到今天? 是的,我认为最大的突破在于计算能力。我知道 的故事往往也是计算能力的故事,但即便人们经常提到它,我认为它的影响还是被低估了。 过去十年我们在计算能力上看到的增长是惊人的。被认为是深度学习在计算机视觉领域突破性时刻的第一篇论文是 ,这是一篇 0 年的论文,深度神经网络在 t 挑战赛中表现出色,远超其他当时的算法。 在研究生期间你可能会接触到的那些算法,和 相比相形见绌。