精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

如何在機(jī)器學(xué)習(xí)中使用數(shù)據(jù)集編程

先進(jìn)的機(jī)器學(xué)習(xí)算法所取得的結(jié)果在外人看來(lái)可能令人難以置信的神秘,但仔細(xì)的數(shù)據(jù)集編程使它們成為可能。它們涉及諸如了解完成的算法如何在理想情況下工作,獲取適當(dāng)?shù)男畔ⅲ?zhǔn)備它以消除錯(cuò)誤。以下是創(chuàng)建數(shù)據(jù)集以編寫有效的機(jī)器學(xué)習(xí)算法時(shí)要采取的一些關(guān)鍵步驟。

如何在機(jī)器學(xué)習(xí)中使用數(shù)據(jù)集編程

1.花時(shí)間理解和定義問(wèn)題或問(wèn)題

人們通常開發(fā)機(jī)器學(xué)習(xí)算法,因?yàn)樗麄冃枰鉀Q一個(gè)問(wèn)題或回答一個(gè)緊迫的問(wèn)題。考慮一個(gè)電子商務(wù)零售商想知道哪些產(chǎn)品最有可能促使購(gòu)物者重新購(gòu)買商品的示例。在這種情況下,機(jī)器算法可能會(huì)包含有關(guān)消費(fèi)者過(guò)去購(gòu)買和任何其他顯著購(gòu)買趨勢(shì)的數(shù)據(jù)。

從事數(shù)據(jù)集編程的人最終不會(huì)使用機(jī)器學(xué)習(xí)算法。從醫(yī)學(xué)到教育的行業(yè)以多種方式使用人工智能(AI)。程序員和數(shù)據(jù)科學(xué)家不一定需要在這些領(lǐng)域工作的第一手經(jīng)驗(yàn)來(lái)構(gòu)建出色的算法。但是,理想情況下,他們應(yīng)該花時(shí)間與使用它的人交談。

這是因?yàn)闄C(jī)器學(xué)習(xí)問(wèn)題定義通常是一個(gè)迭代過(guò)程,隨著人們提供更多細(xì)節(jié)而得到改進(jìn)。與最終用戶的信息訪談對(duì)于更多地了解人們?nèi)绾误w驗(yàn)問(wèn)題或需要機(jī)器學(xué)習(xí)為他們回答問(wèn)題非常有價(jià)值。您從他們那里獲得的見(jiàn)解越多,就越容易理解他們的立場(chǎng)并創(chuàng)建數(shù)據(jù)集,使機(jī)器學(xué)習(xí)算法能夠按照每個(gè)人的期望工作。

了解用戶需求后,您可以開始思考機(jī)器學(xué)習(xí)算法的不同功能以及如何應(yīng)用它們。

2.開始收集數(shù)據(jù)

數(shù)據(jù)集編程的成功需要有足夠的信息供機(jī)器學(xué)習(xí)算法使用。在此過(guò)程的早期需要決定的是,您將在多大程度上依賴您的公司或客戶的信息,而不是公開可用的數(shù)據(jù)集中包含的信息。

幸運(yùn)的是,您會(huì)找到大量后者的資源。美國(guó)政府還維護(hù)了一個(gè)網(wǎng)站,其中包含可供考慮的開放數(shù)據(jù)集。

此步驟中的另一個(gè)考慮因素是哪種數(shù)據(jù)最有用。在為相對(duì)廣泛的行業(yè)(例如醫(yī)療保健或交通運(yùn)輸)開發(fā)算法時(shí),問(wèn)問(wèn)自己哪種信息與您使用機(jī)器學(xué)習(xí)最相關(guān)。確定您是否依賴上一步的學(xué)習(xí)會(huì)容易得多,上一步要求您與將使用或直接受益于您完成的算法的人交談。

算法做出正確預(yù)測(cè)的能力取決于它對(duì)訓(xùn)練數(shù)據(jù)中過(guò)去結(jié)果的訪問(wèn)。這意味著它需要大量的信息。一個(gè)常用的統(tǒng)計(jì)數(shù)據(jù)是,您需要的訓(xùn)練數(shù)據(jù)示例數(shù)量大約是您的模型自由度的10倍。

但是,這些數(shù)量可能會(huì)因個(gè)人用例而異。相反,幾乎不可能建議最少的信息量仍然可以讓您的算法運(yùn)行良好。通常,如果您的訓(xùn)練數(shù)據(jù)包括圖片或視頻,則您需要比其他類型的信息更大的數(shù)據(jù)集。

3.清理數(shù)據(jù)

這個(gè)階段并不是機(jī)器學(xué)習(xí)數(shù)據(jù)集編程中最迷人的部分,但大多數(shù)數(shù)據(jù)科學(xué)家在它上面花費(fèi)了大量時(shí)間。這是因?yàn)閿?shù)據(jù)清理的徹底性將極大地影響結(jié)果算法的工作準(zhǔn)確度以及它是否回答了您想要和期望的問(wèn)題。

首先刪除數(shù)據(jù)集中不需要的或重復(fù)的觀察結(jié)果。消除重復(fù)尤其重要,因?yàn)樗鼈兛赡軙?huì)引入偏見(jiàn)并影響您得出錯(cuò)誤的結(jié)論。

接下來(lái),查找格式錯(cuò)誤——尤其是那些與數(shù)據(jù)類別相關(guān)的錯(cuò)誤。您可能會(huì)看到您正在使用的每個(gè)類別的標(biāo)題都有一個(gè)大寫字母,除了一個(gè)。在這種情況下,您需要修復(fù)它以使其具有與其余部分相同的結(jié)構(gòu)。主要原因是名稱相同但大小寫不同的類別可能被視為單獨(dú)的實(shí)例,影響準(zhǔn)確性。

如果有正當(dāng)理由,從數(shù)據(jù)中刪除異常值也很重要。不過(guò)要小心,不要太倉(cāng)促。假設(shè)它不正確,您可能會(huì)在數(shù)據(jù)集中看到大量數(shù)字。但是,最好進(jìn)行進(jìn)一步調(diào)查以確認(rèn)是否是這種情況。

最后,正確處理丟失的數(shù)據(jù)是清理數(shù)據(jù)的關(guān)鍵步驟。但是,這并不意味著做出假設(shè)并使用您的最佳猜測(cè)來(lái)輸入缺失的內(nèi)容。它也不涉及消除部分缺乏價(jià)值的信息。相反,解決這個(gè)常見(jiàn)問(wèn)題的最佳方法是將該方面標(biāo)記為“缺失”。如果它是一個(gè)數(shù)字,首先將其標(biāo)記為缺失,然后用零填充它。

4.參與特征工程和選擇

使用數(shù)據(jù)集編程進(jìn)行機(jī)器學(xué)習(xí)的最后一個(gè)主要步驟是特征工程和選擇。它們總體上相似但與眾不同。當(dāng)您為機(jī)器學(xué)習(xí)模型添加或創(chuàng)建新變量以改進(jìn)其輸出時(shí),就會(huì)發(fā)生特征工程。這是數(shù)據(jù)科學(xué)家所做的主要工作。

例如,他們可能通過(guò)將變量分解為單獨(dú)的特征或使用概率分布來(lái)轉(zhuǎn)換元素來(lái)改變數(shù)據(jù)集的組成。這些變化有助于增強(qiáng)模型的輸出。

當(dāng)數(shù)據(jù)科學(xué)家檢查模型以查看最相關(guān)的內(nèi)容并消除不必要的內(nèi)容時(shí),就會(huì)進(jìn)行特征選擇。這是必不可少的一步,因?yàn)樗鼓P瓦^(guò)度訓(xùn)練不太可能發(fā)生。

您將如何使用數(shù)據(jù)集編程?

數(shù)據(jù)集編程是機(jī)器學(xué)習(xí)的重要組成部分,因?yàn)樗餐瑤椭惴ǔ浞职l(fā)揮其潛力。數(shù)據(jù)科學(xué)家和相關(guān)專業(yè)人員在采取這些步驟時(shí)所采取的護(hù)理措施將對(duì)使用它們或以其他方式與之交互的人產(chǎn)生深遠(yuǎn)的影響。

猜你喜歡