最近要提升手上模型分類的準確度,
所以在讀各種各樣的論文(#
這篇主要發想來自 Geoffrey E. Hinton 大師覺得 BP 根本太荒謬了,
人腦不會有 BP 這種架構,他想把神經網路更優化、更趨近於人腦所做的 Capsule 計畫。
(避免誤會,這篇是左岸同胞的延伸論文,並不是 Geoffrey E. Hinton 大師手筆。)
CapsuleNet 架構最主要想解決的問題是:
1.傳統 CNN 需要大量資料學習
2.提升 Permutation invariance
(廢話xD 一堆論文都在做這東西)
這篇論文與 CapsuleNet 架構最大的不同就是:
把空間特徵塞進去膠囊裡面
簡單用一張圖解釋:
人腦辨識左邊是R的過程是把圖型旋轉過來,但是 CNN 是需要看過很多不同狀態的R。
像是轉了30度、60度、90度 的 R 都拿下去訓練,最後把這些結果分給 R 這個 Label,
CNN 才知道:噢?這個是R?
大師覺得要解決這種問題,就要從圖型的內部結構下手。
像是人臉的眼睛會在鼻子的上面、鼻子在嘴巴的上面、嘴巴會在下巴的上面。
只要獲得這一連串的內部對應關係,神經網路就不用每個角度再造一次車輪。
這篇怎麼做的?
首先用 GMM (Gaussian Mixture Model – Free Mind) + MSG (Multi-Scale Grouping)
抓相鄰點特徵。
作者說因為計算量會比較小所以用 GMM 而不是 K-Means。
這點我認為是完全唬爛,
GMM的計算量、變數量都比 K-Means 要來得大。
經過 MSG抓特徵的影響 |
經過 MSG 抓特徵後會有特徵太相似的困擾,
設想一個狀況,上圖是 MSG 抓兩層特徵 ( K=2 ) 的狀況下的圖示。
外面那圈重疊的面積比裡面那圈大很多,對吧?
面積在這裡可以換成機率,所以對於相鄰點來說:
外面那圈的大尺度抓到的特徵有很大的機率會很像。
Multi-Scale Shuffling
洗牌!(T代表抓取的尺度,C代表通道維度) |
所以我們做一個洗牌的動作(文字癌),把大小尺度的特徵混在一起增強特徵。