AI先驅Andrew Ng正在呼吁全球向更加以數(shù)據(jù)為中心的機器學方法轉變。他舉辦了首屆以數(shù)據(jù)為中心的AI數(shù)據(jù)質量競賽。許多人認為數(shù)據(jù)質量占AI工作的80%。
Andrew Ng在他的新聞通訊文章The Batch中寫道:“我相信AI社區(qū)很快就會像對待構建模型一樣,對系統(tǒng)地改善數(shù)據(jù)產(chǎn)生興趣。”
通過合成數(shù)據(jù)采取以數(shù)據(jù)為中心的方法來開發(fā)模型是一個迭代的流程。工程師對完成訓練的模型進行評估并確定數(shù)據(jù)集的改進,然后他們將生成新的數(shù)據(jù)集并啟動新的訓練周期。
這個產(chǎn)生數(shù)據(jù)、訓練模型、評估模型并產(chǎn)生更多數(shù)據(jù)的流程會一直持續(xù)到模型符合要求為止。
由于每次迭代中的數(shù)據(jù)都是在模擬中生成,而不是在現(xiàn)實世界中收集然后標記,因此加快了模型訓練的速度。
這些可以大規(guī)模生成的數(shù)據(jù)集以訓練工具可以直接使用的格式輸出。此功能無需再對數(shù)據(jù)進行額外的預處理。




