作者 | Anthony Alford译者 | 平川利用合成数据,Uber将其神经结构搜索(NAS)深度学习优化过程提升了9倍。

Uber 人工智能实验室 开发了一种名为 生成式教学网络(GTN)的算法,该算法为神经网络生成合成训练数据,使得神经网络的训练速度比使用真实数据时更快。利用这些合成数据,Uber 将其 神经结构搜索(NAS)深度学习优化过程提升了 9 倍。

在 arXiv 上发表的一篇论文中,该团队描述了 这个系统和一系列的实验。GTN 的动机来自神经结构搜索(NAS)问题,它训练许多不同的深度学习模型结构,并针对一组测试数据选择表现最好的一个。虽然一种典型的方法是在完整的数据集上通过多次迭代(或 epoch)训练每个模型,但这既耗时又昂贵。不过,模型可以在 GTN 的合成数据上进行训练,耗时更短,并且可以对其在真实训练数据上的真实表现进行估计;这样可以快速地对模型进行评估,缩短了搜索时间。据研究人员称:

GTN- 神经结构搜索(GTN-NAS)堪比目前最先进的 NAS 方法,这些方法的表现最好,并且计算量比典型的 NAS 方法少几个数量级。

神经结构搜索是自动机器学习(AutoML)中一个活跃的研究领域。NAS 有一个缺点,它需要训练许多深度学习模型来确定哪个模型表现得最好。该研究主要侧重于 高效探索搜索空间,这意味着该系统将训练更少的模型。Uber 的系统生成了一个新数据集,使得每个模型迭代训练的次数更少,这样,系统就可以在相同的时间内试验更多的模型。

通过较少的迭代训练模型存在的问题是,在非常早期的训练阶段,大多数模型的性能都很差,需要多次迭代来确定模型的真实性能。不过,研究表明,并不是所有的训练样本都这样,仔细选择输入样本可以加快训练速度。Uber 的想法是使用元学习来生成训练样本。与生成对抗网络(GAN)类似,Uber 的 GTN 会训练一个生成器神经网络,为学习者网络生成训练样本。学习者根据真实的测试数据进行评估,生成“元损失”,并用元损失的梯度更新生成器。利用这项技术,Uber 创建了一个生成器,生成用于训练计算机视觉(CV)系统识别 MNIST 数据集 中的数字的样本。CV 系统只需 32 个训练步骤就能达到 98.9% 的准确率。Uber 表示,在 CIFAR10 数据集上的一个类似实验中,他们使用合成数据通过 128 步就可以预测模型性能,而使用真实数据需要 1200 步,速度提高了 9 倍。

论文的共同作者 Jeff Clune 在推特上发了一张由该系统生成的合成图像数据的 图片,并将其描述为“另类的、不现实的”。他还说:

在神经结构搜索中,GTN 生成的数据完全可以替代真实数据,这样可以极大地加快任何 NAS 算法的速度。到目前为止,我们只展示了随机搜索 -NAS(加上一些花哨的功能),但是我们希望看到其他人尝试下其他更高级的 NAS 方法!


©著作权归作者所有:来自51CTO博客作者mb5fdb0a1b25659的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 美国质疑海外版抖音数据回传中国;华为补助武汉研发人员每人每天20
  2. 我,大厂离职,拿着千万美元融资搞了个近乎全是程序员的公司
  3. 从事python机器学习,这些三方库很重要!
  4. 将S3设置为类SFTP服务用于数据上传
  5. 在开源的公链上实现隐私保护?静看NA公链 NAC公链创新之路应如何蜕
  6. Phoenix兼容 | 深入探索Lindorm兼容PhoenixSQL背后的故事
  7. HBase方案 | 基于Lindorm的大数据用户画像解决方案
  8. 时序数据库丨DolphinDB流计算引擎如何实现传感器数据异常检测
  9. PHP Mysql教程 PHP初中级开发者必学的MySQL教程

随机推荐

  1. C#用来做什么的
  2. C中printf、sprintf和fprintf的区别(代码
  3. .net的错误处理机制是什么
  4. 如何用C++读取ini文件中的Section节名
  5. asp是什么语言
  6. C#中的ArrayList是什么?
  7. C++笔试题之实现简单记录错误功能
  8. C#中var和dynamic之间的区别是什么?
  9. Perl中如何对混合字符串进行排序?(代码示例
  10. C语言入门自学书籍推荐