介紹
一個改變一切的舊觀念是自動化。我們以某種方式創造的每一種工具和方法都涉及某種程度的自動化。一個被稱為自動化機器學習或 AutoML 的新興領域自動化了創建機器學習模型以對數據建模的過程。借助適用于 ML 項目的最佳 AutoML,機器學習項目現在非常容易完成。新手和專家都可以隨時從機器學習應用程序的 AutoML 庫中受益匪淺,而不會出現錯誤。這些庫以提供資源來自動識別涉及預測建模的任務的頂級機器學習計劃而聞名。讓我們探索一下最近在研究人員中流行的機器學習項目的十大 AutoML 庫中的一些。
什么是自動機器學習?
術語“AutoML”是指部分或全部機器學習模型構建過程的自動化,包括特征選擇和配置、性能指標調整、特征選擇和構建、訓練多個模型、評估模型性能和選擇最佳模型.
在具有多個預處理步驟(缺失值插補、縮放、PCA、特征選擇等)的管道中,所有模型和預處理步驟的超參數,以及在管道內集成或堆疊算法的各種方法。
AutoML 考慮了各種機器學習算法(隨機森林、線性模型、SVM 等)。
采用 AutoML 的好處是它可以自動化機器學習過程中參與度最低且最耗時的組件。它允許數據科學家專注于更具創造性和戰略性的任務,而不是浪費時間自動化費力但計算要求高的建模階段。
使用 AutoML 的缺點是自動化的特征工程和預處理可能會使判斷模型是否過度擬合變得困難。此外,強大的性能不一定來自自動化模型訓練。
為什么 AutoML 是未來的需要?
從應用的角度來看,過去幾年對機器學習系統的需求急劇增長。許多不同的應用程序都結合了機器學習。盡管已經證明機器學習可以改善對某些企業的支持,但許多企業仍然難以部署 ML 模型。
替代某些人類勞動是人工智能的理論目標之一。特別是,采用適當的算法可以幫助完成 AI 的很大一部分設計工作。以參數調整為例,通過利用增加的計算能力,貝葉斯、NAS 和進化編程等算法可以在參數調整過程中替代人工。
一個組織首先需要一個經驗豐富的數據科學家團隊,他們在部署 AI 模型之前需要高薪。即使企業擁有一流的員工,選擇最適合企業的模型通常也需要比 AI 專業知識更多的經驗。由于機器學習在一系列應用中的成功,機器學習系統的需求不斷增長,即使對于非專家來說也是如此。在最少的人為干預下,Automl 傾向于盡可能多地自動化 ML 管道步驟,同時保持較高的模型性能。
使用 AutoML 的三個主要好處是:
自動運行重復性雜務以提高工作效率。因此,數據科學家現在可以更多地關注問題而不是模型。
自動化 ML 管道還有助于防止體力勞動帶來的潛在錯誤。
AutoML 使任何人都可以使用 ML 功能,這是邁向機器學習民主化的重要一步。
各種 AutoML 平臺
1.自動Sklearn
創建了一個名為 Auto-Sklearn 的開源 Python 包來自動化機器學習 (AutoML) 過程。它為一系列分類器、回歸和聚類技術自動進行模型選擇和超參數調整,這是機器學習中最耗時但最不令人興奮的部分。Auto-sklearn 實現了支持向量機 (SVM)、隨機森林、梯度提升機 (GBM)、k-means 和其他 ML 技術。
2.AutoKeras
通過一系列高級 Python API,AutoKeras 自動化預處理過程,包括特征提取和縮放。使用 AutoKeras 的好處是可以自動執行所有困難的機器學習活動,包括數據處理、模型選擇和參數調整。
3. 超級選擇
用于大規模 AutoML 的開源庫稱為 HyperOpt。流行的 Scikit-Learn 機器學習庫由 HyperOpt-Sklearn 支持,它是 HyperOpt 的包裝器。這包括收集數據準備技術以及分類和回歸方法。
4.數據塊
您可以使用 Databricks AutoML 輕松創建基線模型和筆記本。通過使用其 MLlib 庫(自動執行特征提取和縮放等預處理任務),它實現了機器學習的自動化。使用 Databricks AutoML 的好處是可以自動執行所有困難的機器學習活動,包括數據處理、模型選擇和參數調整。
5.變形金剛
TransmogrifAI 是一個著名的用于機器學習項目的 AutoML 包,它在 Scala 中構建并在 Apache Spark 之上運行。通過機器學習自動化和 API,它旨在提高機器學習開發人員在 ML 項目中的生產力。它有助于高效構建模塊化和緊密類型的機器學習工作流,以及通過較少的手動修改來訓練高質量的機器學習模型。
6. 盒子
MLBox 具有快速讀取、分布式數據準備或格式化、非常強大的特征選擇和泄漏檢測、精確的超參數優化以及模型解釋預測等功能,是用于機器學習項目的著名 AutoML 包。它專注于超參數優化、實體嵌入和漂移識別。
7. H20 自動機器學習
用于機器學習應用程序的最佳 AutoML 庫之一是 H20 AutoML,它可以自動執行迭代建模、超參數調整、特征生成和算法選擇。它有助于機器學習模型的無差錯訓練和評估。它有望減少對機器學習知識的需求,從而提高項目績效。
8. 自膠子
AutoGluon 是一個易于使用且易于擴展的 AutoML 庫,適用于機器學習項目。它有助于自動化堆棧集成、深度學習以及跨文本和圖像的真實應用程序。它允許使用幾行代碼快速構建深度學習和機器學習模型的原型,并利用自動超參數調整。
9. TPOT
TPOT 是一個著名的 AutoML 包,用于自動為需要預測建模的工作尋找一流的機器學習模型。它是一個帶有機器學習模型和 scikit-learn 數據準備框架的開源庫。它是一個用于基因修改機器學習過程的 Python AutoML 工具。從數以千計的潛在管道中選出最合適的管道用于自動化重復和繁瑣的流程。
10. 自動 ViML
在龐大的 AutoML 庫中,機器學習任務是使用 Auto-ViML 完成的。其目的是使用更少的變量創建高效、可解釋的模型。只需一行代碼,即可自動構建多個機器學習項目。這個 AutoML 包具有吸引人的特性,包括 SMOTE、Auto NLP、數據時間變量和特征工程。
11.路德維希
借助直接且適應性強的數據驅動配置機制,聲明式機器學習框架 Ludwig 使機器學習管道的設計變得簡單。Linux Foundation AI and Data host Ludwig,可用于廣泛的 AI 活動。
輸入和輸出功能以及適當的數據類型在配置中聲明。用戶可以指定額外的參數來預處理、編碼和解碼特征,從預訓練模型加載數據,構建內部模型架構,調整訓練參數,或執行超參數優化。
Ludwig 將使用配置的顯式參數自動創建端到端的機器學習管道,同時將那些不是的設置恢復為智能默認值。
12.亞馬遜轉錄
通過使用一種稱為自動語音識別 (ASR) 的深度學習方法,Amazon Transcribe 使開發人員可以輕松地將語音轉文本功能添加到他們的應用程序中。
此外,AWS 還提供 Amazon Transcribe Medical,它使臨床文檔應用程序能夠將醫療語音轉換為文本。
AutoGluon 專注于自動堆棧集成、深度學習和涵蓋文本、圖像和表格數據的實際應用,提供易于使用和易于擴展的 AutoML。
Amazon Transcribe 的主要優勢包括:
創建易于閱讀的轉錄
過濾特定字詞
通過自定義轉錄提高準確性
Amazon Transcribe 的一些示例用例是:
客戶體驗
通話后分析
臨床談話文件
字幕和字幕工作流程
編目音頻檔案
13.數據機器人
對于預測模型,DataRobot 按需提供自動化機器學習。它使用所有可用數據,自動執行特征工程、模型選擇和超參數優化,無需重新訓練模型。
14. 亞馬遜 Sagemaker 自動駕駛儀
Amazon Sagemaker AutoPilot 提供機器學習模型訓練和擴展的無服務器和分布式自動化。使用這個完全托管的解決方案,可以在 Amazon ECM 或 Amazon SageMaker 上以任何規模部署機器學習模型。
15. 谷歌云自動機器學習
AutoML 由 Google Cloud 作為云服務提供。它針對機器學習問題自動化模型構建和超參數調整,包括情感分析、自然語言處理 (NLP)、圖片分類等。
16. SMAC
SMAC(基于順序模型的算法配置)是一個用 Python 編寫的 Automl 庫,它可以自動訓練大量模型(網格搜索)和使用各種行業標準評估對分類或回歸問題模型的性能進行評估指標,例如準確性。
17. Azure 自動機器學習
Microsoft Azure 的 AutoML 通過使用其獨特的算法來使用最有效的機器學習算法來配置、訓練和評分模型,從而實現機器學習的自動化。
18.PyCaret
PyCaret 是一個著名的 Python 機器學習框架,它使用低代碼并且是開源的,用于自動化機器學習模型。它是一種廣受歡迎、實用且成功的模型管理和端到端機器學習解決方案,可提高生產力。這種自動化機器學習應用程序具有許多不同的功能,例如數據準備、模型訓練、超參數調整、分析和可解釋性。
19. 汽車維卡
這個數據挖掘軟件的名稱是 AutoWeka。Weka 機器學習軟件是其基礎。由于其卓越的可用性和強大的功能,它適合新手和專家。該工具支持使用兩種機器學習技術(即支持向量機和人工神經網絡)快速構建預測數據挖掘模型。
20. 斯普倫克
Splunk 的主要賣點是實時處理。您肯定注意到,雖然存儲和 CPU 技術隨著時間的推移而進步,但數據傳輸卻沒有。所以,Splunk 會解決這個問題。該平臺使您能夠為運營智能創建知識對象,在機器狀態開始時接收警報/事件,并準確預測基礎設施擴展所需的資源。
21.亞馬遜萊克斯
這使您可以開發具有基于語音或文本的用戶界面并由支持 Amazon Alexa 的相同技術提供支持的程序。為了在應用程序中設計、構建、測試和部署對話界面,完全托管的人工智能 (AI) 服務 Amazon Lex 使用高級自然語言模型。
22. 大機器學習
BigML 是 AutoML 最著名的解決方案之一,它使公司可以輕松利用一系列機器學習模型和平臺來推進其運營。這個自動化機器學習軟件提供了一個完整的平臺、快速訪問、易于理解和導出的模型、協作、自動化、適應性部署以及許多其他功能。
23. 自動機器學習 JADBio
JADBio AutoML 是一個著名的 AutoML 系統,無需腳本即可提供用戶友好的機器學習。使用此工具,AutoML、研究人員、數據科學家和其他用戶可以成功地與機器學習模型進行交互。準備數據進行分析、進行預測分析、學習新信息、分析結果以及部署經過訓練的機器學習模型是使用 AutoML 所需的僅有的五個過程。
24. 阿基奧
Akkio 是一個用戶友好的可視化平臺,您可以使用它來增強銷售、營銷和財務運營。在不到五分鐘的時間內,AI 模型就可以訓練好并投入使用。不是顧問。無需安裝任何軟件。沒有與銷售相關的對話。以前的 AI 經驗不是必需的。
25. MLJAR
它是與 Mercury 交換 Python Notebooks 并使用 MLJAR AutoML 獲得最佳結果的最佳 AutoML 工具之一。對于表格數據,可以使用最復雜的自動化機器學習算法。由于其全面的特征工程、算法選擇和修改、自動文檔和 ML 解釋,它使構建廣泛的機器學習管道變得更加容易。MLJAR AutoML 框架眾所周知,因為它有四種內置模式。
26. 踏子愛
Tazi.ai 是一個著名的可用于實時數據的連續機器學習 AutoML 產品。允許業務領域專家應用機器學習以生成預測是有利的。AutoML 應用程序使用監督、非監督和半監督機器學習模型。
27.增強器
Enhencer 是一個 AutoML 平臺,非常強調可用性和開放性。其尖端的用戶界面使快速開發機器學習模型成為可能。Enhencer 提供透明的性能指標,便于評估和微調模型性能。此外,Enhencer 接口允許隨著時間的推移跟蹤模型性能。
28.艾布爾
Aible 以直接、快速和安全的方式開發對業務具有明顯影響的人工智能。當 AI 針對業務效果而非準確性進行訓練時,商業人士會根據他們實際的成本效益權衡和資源限制來構建 AI。Aible 處理剩下的事情,從數據到影響,只需要回答三個業務問題。
29. 點數據
在機器學習公司中獨一無二的 dotData 建立在一個大膽的理念之上,即如果數據科學可以盡可能簡單,任何人都可以從中獲益。DotData 是在著名數據科學家、NEC 119 年歷史上最年輕的研究員 Ryohei Fujimaki 博士的指導下建立的。企業尊重客戶并努力為他們提供自動化機器學習 (AutoML) 的最佳價值。DotData 是第一家使用機器學習為企業提供完整的數據科學自動化的公司。通過自動化加速、民主化和操作整個數據科學流程,其數據科學自動化平臺縮短了實現價值的時間。
30. 機器人
基于 Python 的魯棒貝葉斯優化系統。Robo 的基本構建塊是一個模塊化架構,可以輕松添加和更換貝葉斯優化組件,如各種采集函數或回歸模型。
它包括一系列不同的獲取函數,例如預測改進、改進可能性、置信下限或信息增益,以及各種回歸模型,例如高斯過程、隨機森林或貝葉斯神經網絡。
31. 自動對開
選擇最佳選擇策略及其超參數允許 AutoFolio 最大化算法選擇系統的性能。
算法選擇 (AS) 策略需要從預期最有效地解決特定問題實例的算法組中選擇算法,在解決許多眾所周知的 AI 挑戰方面顯著推進了最新技術水平。
32. 活頁夾
Flexfolio 是一種基于投資組合的模塊化和開放式求解器架構,其中包含多種基于投資組合的算法選擇方法和策略。它提供了一個特殊的框架,用于將幾種基于投資組合的算法選擇方法和方法進行對比并將其集成到一個單一的、有凝聚力的框架中。
33. 數據庫
Dataiku 是一個將數據和人工智能的使用系統化的平臺。它的目標是整合人工智能和數據,使其成為日常運營不可或缺的一部分。他們專門針對企業、技術專業人員(如分析師)和業務專家(如工程師、架構師和數據科學家)。缺乏數據科學經驗的用戶可能不是 Dataiku 的最佳人選,因為成功使用該平臺的功能可能需要相當多的技術專長。
34. 創建ML
Apple 提供了一種名為 CreateML 的無代碼機器學習工具,可讓您直接在 Mac 上開發、訓練和部署模型。用戶可以通過使用 CreateML 顯著減少訓練和部署 ML 模型所需的時間,并在很短的時間內完成。由于該工具的拖放功能,模型構建現在變得更加簡單和方便。用戶可以開發和使用模型來執行任務,包括從文本中提取含義、識別噪聲、識別視頻中的活動以及識別圖像。
35.Prevision.io
Prevision.io 是一個人工智能 (AI) 平臺,旨在幫助數據科學家和開發人員快速輕松地構建、部署、監控和管理模型,以便更多的數據科學項目可以快速投入生產。由于其功能和清晰的用戶界面,用戶可以在幾分鐘內設置平臺。該平臺可在 Google Cloud Marketplace 上使用,并采用即用即付許可模式。
36.顯然.ai
明顯地。AI 是一種無代碼 AutoML 工具,可以輕松創建和維護預測性機器學習模型。由于該工具的無代碼功能,企業用戶、公民數據科學家和基本上任何其他人都可以在不編寫一行代碼的情況下開始進行預測。數據科學技能匱乏的問題已通過 Obviously.ai 的解決方案得到解決。即使公司沒有重要的數據科學團隊,他們仍然可以使用 ML 進行預測分析。
37. 人工智能和分析引擎
它是一個端到端的無代碼 AutoML 平臺,稱為 AI 和分析引擎。該引擎無需花費數天或數周時間,而是加快了從原始數據到消費者模型部署的過程。通過在每個階段提供簡單的 AI 指導建議,該平臺使任何用戶,無論其機器學習能力如何,都能夠構建和部署模型。該引擎面向范圍廣泛的用戶,從個人和團體到企業。因此,有訂閱定價計劃來適應每個級別的使用。
38.食譜
另一個構建在 Scikit-Learn 之上的有趣的 AutoML 工具是 RECIPE 或 REsilient ClassifIcation Pipeline Evolution。它從其他進化框架中脫穎而出,因為它可以避免產生無效的個體,并將大量可能有用的數據預處理和分類技術組織成一個語法。RECIPE 使用遺傳編程來發展具有上下文無關語法定義的管道,可以實現更高水平的靈活性。
39. 自動目標
一個名為 AutoGOAL 的 Python 包可以自動確定完成任務的最有效方法。它主要是為 AutoML 創建的,用于開發人員有多種選擇來完成任務的各種情況。它已經有幾個低級機器學習算法,可以自動組合到管道中以解決各種問題。
它用作程序綜合的框架,程序綜合是選擇最佳程序來解決特定問題的過程。用戶必須能夠指定所有潛在程序的空間才能運行。ML 程序員會喜歡這個額外的 AutoML 工具箱,因為它提供了此類工具通常不具備的多功能性。
40. 快速礦工
RapidMiner 的機器學習技術可以顯著減少為任何不關心部門、資產或估計的協會或組織開發預測模型所需的時間和工作。
使用自動模型,可以在大約五分鐘內生成預測模型。它不需要任何特定的專業知識。客戶可以輕松傳輸他們的數據并確定他們需要的結果。
屆時,Auto Model 將產生高評價的體驗。計算機化的數據科學可以用 RapidMiner Auto Model 完成。分析和顯示數據是其中的一部分。
41.改變
通過一系列軟件解決方案,Alteryx 提供數據科學和機器學習功能。該自助服務平臺擁有 260 多個拖放式構建組件,其中最突出的特點是 Alteryx Designer。Alteryx Designer 可自動執行數據準備、數據混合、報告、預測分析和數據科學。Alteryx 的用戶可以輕松地選擇和比較各種算法的性能,并立即看到變量關系和分布。該軟件可以在托管環境、云中、您自己的防火墻后面或兩者中設置,無需任何編碼知識。
42. IBM 沃森工作室
用戶可以使用 IBM Watson Studio 在任何云上大規模創建、運行和管理 AI 模型。該項目是 IBM Cloud Pak for Data 的一個組件,IBM Cloud Pak for Data 是該組織的 AI 和數據核心平臺。該解決方案使您能夠管理和保護開源筆記本、通過一鍵集成部署和執行模型、可視化地準備和構建模型、通過可解釋的 AI 管理和監控模型以及自動化 AI 生命周期管理。由于軟件提供的靈活架構,IBM Watson Studio 的用戶可以使用 PyTorch、TensorFlow 和 sci-kit-learn 等開源框架。
43. 尼姆
用于數據科學開發的開源平臺是 KNIME Analytics。它提供了一個圖形化的拖放界面,無需腳本即可構建可視化工作流。為了設計工作流、為分析的每個階段建模、調節數據流并保證工作是最新的,用戶可以從 2000 多個節點中進行選擇。為了生成統計數據、清理數據以及提取和選擇特征,KNIME 可以組合來自任何來源的數據。該軟件使用人工智能和機器學習,使用傳統圖表和前沿圖表可視化數據。
44. MathWorks 軟件
MathWorks MATLAB 將原生表達矩陣和數組數學的編程語言與針對迭代分析和設計過程優化的桌面環境相結合。為了在可執行筆記本中編寫混合代碼、輸出和格式化文本的腳本,它附帶了實時編輯器。專業創建、全面審查和測試的 MATLAB 工具箱。您還可以使用 MATLAB 程序使用您的數據測試各種算法。
45.TIBCO
對于現代 BI、描述性和預測性分析、流分析和數據科學,TIBCO 提供了廣泛的產品。用戶可以使用 TIBCO Data Science 準備數據、構建模型、部署這些模型并監控它們。此外,它還嵌入了 Jupyter 筆記本,用于共享可重復使用的模塊、拖放式工作流和 AutoML。用戶可以在 TIBCO 的 Spotfire Analytics 上運行工作流程時,使用 TensorFlow、SageMaker、Rekognition 和 Cognitive Services 編排開源。
46. 螺旋鉆
俄歇。最精確的 AutoML 平臺是 AI。通過 Auger 專有的基于貝葉斯優化的算法/超參數組合搜索,可以更快地開發預測模型。得益于開源 A2ML 項目(Auger、Google Cloud AutoML 或 Microsoft Azure AutoML),開發人員可以利用任何基于云的 AutoML 提供商創建預測模型。Auger 的機器學習審查和監控 (MLRAM) 工具可確保在 Auger 或任何其他機器學習平臺上開發的訓練有素的預測模型的持續準確性。
47.亞馬遜波莉
它是一種從文本中模擬語音的服務。利用深度學習的力量有助于創建新的語音商品類別,并有助于開發會說話的應用程序。此外,它代表了為殘障人士創建包容性應用程序方面的重大進步。
在其他語言中,Polly 主要支持英語、普通話、巴西葡萄牙語、丹麥語、法語、日語、韓語和丹麥語。
Polly 的神經文本轉語音 (TTS) 支持兩種說話時態-
新聞閱讀器風格的新聞敘述用例。
電話和會話風格等雙向應用的理想選擇。
此外,它還提供 Amazon Polly Brand,使企業能夠設計自己的聲音。
FICO、今日美國、ProQuest、CBSi、Whooshkaa、MapBox 等公司使用 Amazon Polly Brand。
48.對話流
使用 Dialogflow(一個用于創建語言和視覺機器人的平臺),可以設計對話用戶界面并將其集成到移動應用程序、Web 應用程序和交互式語音響應系統中。該技術可以分析各種輸入,包括文本和音頻數據。
下面列出的術語用于 Dialogflow 環境:
代理:管理與最終用戶通信的虛擬代理稱為代理。
意圖:最終目標用戶的交流反映在他們的意圖中。每個代理可能有許多意圖,這些意圖組合起來形成對話。Dialogflow 意圖執行意圖分類任務,將最終用戶表達與定義的代理的最佳感覺相匹配。
父意圖自動接收上下文,后續意圖接收具有相同名稱的輸入上下文。
實體:每個意圖參數都存在一個名為 Entity 的類型,它提取最終用戶表達式。
上下文:對話流可以由 Dialogflow 中的上下文管理。
后續意圖:后續意圖是它所連接的父級意圖的子級。建立后續意圖時,會自動將具有相同名稱的輸入上下文添加到父意圖,并且將具有相同名稱的輸出上下文添加到后續意圖。
對話流控制臺:用于管理 Dialogflow 代理的基于 Web 的用戶界面是 Dialogflow 控制臺。
Dialogflow 的示例用例:
聊天機器人——可以配置為接收請求、設置約會、訪問訂單和響應查詢的界面。
物聯網 (IoT) —它可用于提高對上下文的理解和 IoT 設備響應的準確性。
49. 亞馬遜識別
在照片和視頻中,Amazon Rekognition 可能有助于識別物體、人物、場景、文本和活動,并標記任何令人反感的內容。此外,它還提供精確的面部分析和搜索功能,以查找、檢查和對比面部以進行用戶身份驗證工作。
使用 Amazon Rekognition 有幾個優勢:
它提供標簽來區分自行車、電話、建筑物等物體以及停車場、海灘和城市等風景。
自定義標簽增加了可以檢測到的事物的數量。
內容審查
文字識別
人臉識別與評估
人臉驗證和搜索
Amazon Rekognition 被一些大公司使用,包括 NFL、CBS、國家地理、Marinus Analytics 和 SkyNews。
50.亞馬遜理解
為了揭示文本中的模式和聯系,Amazon Comprehend 使用機器學習進行自然語言處理 (NLP)。
這些技術利用機器學習來揭示非結構化數據中的模式和聯系。該服務識別句子的語言并提取重要的單詞、短語、名稱、組織或事件。
為了發現醫學問題、藥物和藥物開發,Amazon Comprehend Medical 經常被用來提取醫學語料庫信息。
Amazon Comprehend 的一些用例:
呼叫中心分析
索引和搜索產品評論
網站上的個性化內容
客戶支持工單處理
臨床試驗招募
LexisNexis、TeraDACT、FINRA 和 Vidmob 等公司使用 Amazon Comprehend。
AutoML 會取代數據科學家嗎?
不,是答案。
盡管 AutoML 擅長創建模型,但它們仍然無法處理數據科學家的大部分任務。要定義業務關注點,仍然需要數據科學家。為了創建更有用的功能,數據科學家仍然需要運用他們的主題專業知識。如今,autoML 只能處理一小部分問題,例如分類和回歸問題。他們目前無法創建推薦和排名模型。最重要的是,單獨使用 AutoML 不會從數據中產生有用的見解;仍然需要數據科學家。
盡管如此,AutoML 仍然是數據科學家為其利益相關者創造價值的有效工具。因此,下一個邏輯查詢是:
我們應該如何以及何時使用 AutoML?
數據科學家什么時候可以利用 AutoML 平臺發揮自己的優勢?
在這里,我想列出一些可能值得的實例。
性能優先于可解釋性:在其他情況下,利益相關者可能只對模型的準確性感興趣,而可解釋性可能不是最重要的因素。根據我們的測試,AutoML 與適當的特征工程相結合時似乎可以產生令人滿意的性能。然而,我們案例中的可解釋性僅適用于對兩個平臺都至關重要的功能。換句話說,如果特征重要性足以滿足您的情況,AutoML 可能是提高精度的最佳選擇。
快速部署到生產中:您可以使用 Google 和 Azure 輕松地將模型部署到生產中。例如,批量預測和在線預測都可以通過谷歌云輕松訪問。您還可以使用他們的 API 將您的模型部署到您的網站。這些特性可以幫助數據科學家更快、更省力地完成工作。
更好的時間管理:數據科學家面臨著無數可能令人筋疲力盡的職責。作為數據科學家,時間可能是您最有限的資源。你的日子充滿了與利益相關者(產品經理、業務部門的員工和客戶)的幾次會議、當前模型的維護、數據的收集和清理、為下次會議做準備等等。AutoML 可以成為一個非常棒的省時工具,因為它只需點擊幾下并花費幾美元來訓練一個性能良好的模型。因此,您可以專注于最有益的活動(有時,花時間創建出色的演示文稿比將模型的準確性提高 1% 更有價值)。
結論
我希望您通過本文對 AutoML 背后的概念有所了解。AutoML 的主要目標是釋放數據科學家的時間,以便他們可以通過自動化重復性任務(如管道創建和超參數調整)來專注于實際業務問題。此外,AutoML 使每個人,而不僅僅是少數人,都能使用機器學習技術。使用 AutoML 構建極其有效的機器學習的數據科學家可以加速 ML 的開發。
成功或失敗將取決于 AutoML 的使用方式以及機器學習領域的發展方式。然而,AutoML 無疑將在機器學習的未來發揮重要作用。