博客專欄

EEPW首頁 > 博客 > 5 分鐘了解機器學習的特征工程

5 分鐘了解機器學習的特征工程

發(fā)布人:數(shù)據(jù)派THU 時間:2021-08-20 來源:工程師 發(fā)布文章

來源:DeepHub IMBA

介紹

在我們進一步研究之前,我們需要定義機器學習中的特征。

如果您不熟悉機器學習,那么特征就是機器學習算法模型的輸入。

1.png

什么是特征工程?

特征工程使用數(shù)學、統(tǒng)計學和領域知識從原始數(shù)據(jù)中提取有用的特征的方法。

例如,如果兩個數(shù)字特征的比率對分類實例很重要,那么計算該比率并將其作為特征包含可能會提高模型質量。

例如有兩個特征:平方米和公寓價格。您可能需要通過獲取每平方米價格來創(chuàng)建特征以改進您的模型。

2.png

如何做特征工程?

讓我們看看特征工程的不同策略。在本文中,我們不會看到所有方法,而是最流行的方法。添加和刪除特征:

假設我們確實具有以下特征:

3.png

如果我們想預測公寓的價格,植物的數(shù)量可能無關緊要。在這種情況下,我們需要從機器學習模型中刪除此功能,以免添加額外的噪音。

這種噪音被稱為維度災難。這意味著隨著數(shù)據(jù)中特征數(shù)量的增加,構建良好模型所需的數(shù)據(jù)點數(shù)量呈指數(shù)增長。

我們需要選擇哪些特征與我們的模型最相關。

將多個特征組合成一個特征:

4.png

在上面的例子中,我們可以看到平方米和平方英尺實際上是相同的數(shù)據(jù),但不是相同的單位。如果我們將其提供給我們的算法,它將必須了解平方米和平方英尺是相關的并且實際上是相同的特征。

這就是為什么我們需要決定采用哪種測量并只保留一個。

我們也可以有兩個特征,狗的數(shù)量和貓的數(shù)量,并在動物數(shù)量下將它們組合起來。

5.png

盡管如此,結合這些功能并不是每次都是一個好主意。例如,在日期特征的情況下,可能是星期幾很重要。

你需要記住質量勝于數(shù)量。

清理現(xiàn)有特征:

您需要保留您認為與模型相關的特征,以獲取數(shù)據(jù)中的正確信號。

為此,您可以:

估算缺失值。

刪除不嘗試使用不具有代表性的數(shù)據(jù)點進行訓練的異常值。

擺脫比例尺,例如,如果您有以厘米為單位的要素而其他一些以米為單位的要素,請嘗試將所有要素都以厘米為單位進行轉換。這稱為規(guī)范化。

由于更容易的分布,轉換傾斜的數(shù)據(jù)以使其更適合我們的模型。

分箱:

分箱是指您進行數(shù)值測量并將其轉換為類別。

以下是房屋銷售的示例:

6.png

在那個例子中,我們可以假設銷售價格取決于有游泳池的事實。

然后我們可以通過預處理數(shù)據(jù)并用布爾未來替換游泳池長度來簡化我們的模型。

7.png

獨熱(One-hot)編碼:

獨熱編碼是一種以機器學習算法能夠理解的方式表示分類數(shù)據(jù)的方式。

我們的模型理解數(shù)字但不理解字符串,這就是我們需要將字符串轉換為數(shù)字的原因。但是,我們不能為我們的字符串分配隨機數(shù),因為我們的模型可能比小數(shù)字更重視大數(shù)字。這就是為什么我們要使用 one-hot 編碼的原因。

以下是有關房屋銷售的示例:

8.png

One-hot 編碼對于用機器學習模型能夠理解的簡單數(shù)字數(shù)據(jù)替換分類數(shù)據(jù)很有用。

總結

特征工程將幫助您:

借助適當?shù)奶卣鳎鉀Q適當?shù)臉I(yè)務案例問題。

提高機器學習算法的性能。

*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

物聯(lián)網(wǎng)相關文章:物聯(lián)網(wǎng)是什么




關鍵詞: AI

相關推薦

技術專區(qū)

關閉