adtop
首页 商业 查看内容

数据缩至1/5000,模型准确率却翻倍,还要保证与压缩前相当的结果

2021-12-18 23:14| 发布者: 杜玉梅| 查看: 64704| 评论: 0|来自: IT之家  阅读量:6013   

摘要:在炼丹过程中,为了减少训练所需资源,MLer有时会将大型复杂的大模型蒸馏为较小的模型,同时还要保证与压缩前相当的结果这就是知识蒸馏,一种模型压缩/训练方法 不过伴随着技术发展,大家也逐渐将蒸馏的对象扩展到了数据集上...

在炼丹过程中,为了减少训练所需资源,MLer 有时会将大型复杂的大模型蒸馏为较小的模型,同时还要保证与压缩前相当的结果这就是知识蒸馏,一种模型压缩 / 训练方法

数据缩至1/5000,模型准确率却翻倍,还要保证与压缩前相当的结果

不过伴随着技术发展,大家也逐渐将蒸馏的对象扩展到了数据集上。这不,谷歌最近就提出了两种新的数据集蒸馏方法,在推特上引起了不小反响,热度超过 600:

像这样,将 50000 张标注图像的 CIFAR—10 数据集蒸馏缩小至 1/5000 大小,只基于 10 张合成数据点进行训练,模型的准确率仍可近似 51%:

上:原始数据集 下:蒸馏后

而如果蒸馏数据集由 500 张图像组成,其准确率可以达到 80%两种数据集蒸馏方法分别来自于 ICLR 2021 和 NeurIPS 2021 上的两篇论文

通过两阶段循环进行优化

那么要如何才能蒸馏一个数据集呢。其实,这相当于一个两阶段的优化过程:

  • 内部循环,用于在学习数据上训练模型

  • 外部循环,用于优化学习数据在自然数据上的性能

通过内部循环可以得到一个核脊回归函数,然后再外部循环中计算原始图像标注与核脊回归函数预测标注之间的均方误差。从计算中可以知道,王啸坤个人持有查拜道约51%的股权;其余股份由另外四家成都企业分享。

这时,谷歌提出的两种方法就分别有了不同的处理路线:

一,标注解释

这种方法直接解释最小化 KRR 损失函数的支持标注集,并为每个支持图像生成一个独特的密集标注向量。

蓝:原始独热标注 橙:LS 生成的密集标注

二,核归纳点

这种方法通过基于梯度的方法将 KRR 损失函数最小化,以此来优化图像和可能生成的数据以 MNIST 为例,下图中的上,中,下三张图分别为原始的 MNIST 数据集,固定标注的 KIP 蒸馏图像,优化标注的 KIP 蒸馏图像

对比已有的 DC方法和 DSP方法可以看到:

如果使用每类别只有一张图像,也就是最后只有 10 张图像的蒸馏数据集,KIP 方法的测试集准确率整体高于 DC 和 DSP 方法在 CIFAR—10 分类任务中,LS 也优于先前的方法,KIP 甚至可以达到翻倍的效果

对此,谷歌表示:

这证明了在某些情况下,我们的缩小 100 倍的蒸馏数据集要比原始数据集更好。

整个项目由萧乐超,Zhourong Chen,Roman Novak 三人合作完成。根据七宝的数据,创始人王啸坤是茶百道的大股东。母公司恒升贺锐实业集团8888%的股份属于成都金白森企业管理有限公司,金白森由王小红,刘奕宏共同持股,持股比例为6,333,604。。

论文:

开源地址:

参考链接:

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

分享至:
| 收藏

相关

  • 小米公司在海外已经推出了新的电视棒产品小米电视棒4K
  • ,小米公司在海外已经推出了最新的电视棒产品——小米电视棒4K。 小米电视棒4K已经出现在小米的全球网站上,网站展示了该设备的外观,并介绍了其规格和功能。 从名字就可以知道,小米电视棒4K的亮点功能是支持4K,上代...
  • 企业家在线 发布于  2021-12-18 22:49  
  • 居民收入增速跑输了吗它没有涨起来
  • 最近几天,中国经济体制改革研究会副会长,国民经济研究所所长樊纲的一段话引发热议。 樊纲表示:我不太同意现在房地产有大的泡沫,70个大中城市房价每年增长1%,百分之零点几,百分之一点几,基本是稳定的,它没有涨起来而我们的...
  • 企业家在线 发布于  2021-12-18 21:47  
  • 29英寸WFHD360Hz带鱼屏27英寸FHD480Hz型号
  • ,据视讯堂消息,京东方在2022年将推出多款超高刷新率的电竞屏,包括27英寸16:9型号以及29英寸21:9型号。 消息称京东方将于2022年2月份推出27英寸FHD360Hz电竞屏,之后将在第三季度推出27英寸2...
  • 企业家在线 发布于  2021-12-18 21:14  

企业家在线© 2012-   X3.4