對于一個1000 × 1000的輸入圖像而言,假設采用上一節所講述的每個神經網絡都和前面一層的所有神經元相連的前饋神經網絡(全連接神經網絡),如果下一個隱藏層的神經元數目為10^6個,則輸入層和隱含層之間的權值參數有1000 × 1000 × 10^6 = 10^12之多,如此數目巨大的參數幾乎難以訓練。在卷積神經網絡中,為了減少權值參數的個數,提出了局部感受野(local field)這一概念。一般認為,人對外界的認知是從局部到全局的,圖像的空間聯系也是局部的像素聯系較為緊密,而距離較遠的像素相關性則較弱。因而,每個神經元其實沒有必要對全局圖像進行感知,只需要對局部進行感知(也就是說,神經元沒有必要和下一層的所有神經元相連,只需和下一層的部分神經元相連),然后在更高層將局部的信息綜合得到全局信息。如果采用局部連接,假設隱藏層的每個神經元僅與圖像中10 × 10的局部圖像相連接,那么此時輸入層和隱含層之間權值參數數量為10 × 10 × 10^6 = 10^8,與傳統的前饋神經網絡相比,參數個數直接減少4個數量級。
卷積操作可以看成是提取特征的方式,不同的卷積核能夠得到圖像的不同映射下的特征,稱之為特征映射(Feature Map)。如果把一個卷積核看成提取一種特征,那么我們可以通過使用多個不同的卷積核來達到提取多個特征的目的。如果有64個卷積核,那么就可以提取64種特征,兩層之間的權值參數也僅為100×64= 6400個。
圖像識別能夠解決的問題,也是從一開始只能識別一些簡單的圖像,到現在能夠識別較復雜的場景,但是離人類對圖像內容的全面理解還有很長的一段距離。
2025-04-09 12:40
2025-04-08 08:51
2025-04-07 12:08
2025-04-07 12:07
2025-04-07 12:06
2025-04-07 09:52
2025-04-07 09:49
2025-04-07 09:43
2025-04-03 09:11
2025-04-03 08:56