11月30日,全球第一所人工智能大學(xué)——穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI),在 arXiv 預(yù)印平臺發(fā)布了題為《大數(shù)據(jù)時代的數(shù)據(jù)集蒸餾》(Dataset Distillation in Large Data Era)的文章。
數(shù)據(jù)蒸餾應(yīng)用及當(dāng)前挑戰(zhàn)
數(shù)據(jù)集蒸餾(Dataset distillation)引起了計算機視覺和自然語言處理各個領(lǐng)域的廣泛關(guān)注。
數(shù)據(jù)集蒸餾的目的是從大型數(shù)據(jù)集中生成較小但具有代表性的子集,從而可以有效地訓(xùn)練模型,同時評估原始測試數(shù)據(jù)分布以實現(xiàn)良好的性能。
隨著數(shù)據(jù)和模型規(guī)模的不斷增長,這種數(shù)據(jù)集蒸餾概念在大數(shù)據(jù)時代變得更加重要,因為數(shù)據(jù)集通常非常龐大,帶來存儲、計算和處理方面的挑戰(zhàn)。
一般來說,數(shù)據(jù)集蒸餾可以提供公平的競爭環(huán)境,使計算和存儲資源有限的研究人員能夠參與最先進的基礎(chǔ)模型訓(xùn)練和應(yīng)用程序開發(fā),例如在當(dāng)前的大數(shù)據(jù)和大模型政權(quán)中負擔(dān)得起的 ChatGPT 和 Stable Diffusion。此外,通過使用蒸餾數(shù)據(jù)集,有可能減輕一些數(shù)據(jù)隱私問題,因為原始的、個人可識別的數(shù)據(jù)點可能會被排除在蒸餾版本之外。
最近,在各個研究和應(yīng)用領(lǐng)域采用大型模型和大數(shù)據(jù)已成為顯著趨勢。然而,許多先前的數(shù)據(jù)集蒸餾方法主要針對 CIFAR、Tiny-ImageNet 和下采樣 ImageNet-1K 等數(shù)據(jù)集,發(fā)現(xiàn)將其框架擴展到更大的數(shù)據(jù)集(例如完整的 ImageNet-1K)具有挑戰(zhàn)性。這表明這些方法尚未完全按照當(dāng)代的進步和主流方法論發(fā)展。
提取各種大規(guī)模數(shù)據(jù)集,優(yōu)于所有先前方法
許多先前的工作旨在與原始數(shù)據(jù)集的各個方面保持一致,例如匹配訓(xùn)練權(quán)重軌跡、梯度、特征/BatchNorm 分布等。
在該研究中,研究人員展示了如何提取各種大規(guī)模數(shù)據(jù)集,以實現(xiàn)優(yōu)于所有先前方法的最佳精度。
在此,MBZUAI 研究人員將注意力擴展到 ImageNet-1K 數(shù)據(jù)集之外,以 224×224 的傳統(tǒng)分辨率進入完整 ImageNet-21K 的未知領(lǐng)域。這標志著在處理如此龐大的數(shù)據(jù)集以進行數(shù)據(jù)集蒸餾任務(wù)方面的開創(chuàng)性努力。其方法利用簡單而有效的課程學(xué)習(xí)框架。精心解決每個方面,并制定強大的策略來有效地訓(xùn)練完整的 ImageNet-21K,確保捕獲全面的知識。
具體來說,根據(jù)先前的研究,該方法最初訓(xùn)練一個模型,將原始數(shù)據(jù)集中的知識封裝在其密集參數(shù)中。然而,研究人員引入了一個精煉的訓(xùn)練方案,超越了 Ridnik 等人在 ImageNet-21K 上的結(jié)果。
在數(shù)據(jù)恢復(fù)/合成階段,研究人員采用一種策略學(xué)習(xí)方案,根據(jù)區(qū)域的難度順序更新部分圖像裁剪:從簡單過渡到困難,反之亦然。通過在不同的訓(xùn)練迭代中調(diào)整 RandomReiszedCrop 數(shù)據(jù)增強的下限和上限來調(diào)節(jié)這一進程。
在數(shù)據(jù)合成過程中引入了一種簡單而有效的課程數(shù)據(jù)增強(Curriculum Data Augmentation,CDA),它在大規(guī)模 ImageNet-1K 和 21K 上獲得了在 IPC(每類圖像)50 下的準確率 63.2% 和在 IPC 20 下的 36.1% 的準確率。
值得注意的是,研究人員觀察到這種簡單的學(xué)習(xí)方法極大地提高了合成數(shù)據(jù)的質(zhì)量。在論文中,研究人員深入研究了與課程學(xué)習(xí)框架相關(guān)的數(shù)據(jù)合成的三種學(xué)習(xí)范式。首先是標準課程學(xué)習(xí),其次是其替代方法,逆向課程學(xué)習(xí)。最后,還考慮了基本的和以前使用的不斷學(xué)習(xí)的方法。
最后,研究表明,通過將所有增強功能集成在一起,所提出的模型在 ImageNet-1K/21K 上的 Top-1 準確率比當(dāng)前最先進的模型高出 4% 以上,并且首次縮小了差距 與其全數(shù)據(jù)訓(xùn)練對應(yīng)物相比,絕對值不到 15%。
此外,該研究代表了標準 224×224 分辨率下大規(guī)模 ImageNet-21K 數(shù)據(jù)集蒸餾的首次成功。
其代碼和 20 個 IPC、2K 恢復(fù)預(yù)算的精煉 ImageNet-21K 數(shù)據(jù)集可在 GitHub中找到。