国产爆乳一区二区三区91,精东成人精品内射口爆,色哟哟哟精品一区二区三区

一、深度學習：理論和關注機制的進展（Yoshua Bengio）

二、深度語義學習（Xiaodong He）

三、深度神經網絡和GPU（Julie Bernauer）

四、深度視覺Keynote（Rahul Sukthankar）

五、學習和理解視覺表示（Andrea Vedaldi）

六、用于目標檢測的可變深度卷積神經網絡（Xiaogang Wang）

一直自稱研究方向是“機器視覺、機器學習和深度學習”，然而除了做過幾個相關的項目以外，感覺自己對這個領域并沒有足夠深入的認識和理解。趁著這個假期我要好好補補課了。今天先來看一些high level的內容，看看深度學習近期的最近進展以及其在機器視覺問題中的應用。學習資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides，介紹了理論、應用、實現等方面的內容，應該是干貨滿滿的。對于每一個talk，我會把內容框架記錄下來（可以check一下對這些點是否有一定了解？），并記下一些個人覺得有趣的點。

一、深度學習：理論和關注機制的進展（Yoshua Bengio）

顧名思義，Bengio的talk主要講了兩個部分：理論進展和attention mechanism。理論進展介紹了：

分布式表示的“指數級”優(yōu)點

深度的“指數級”優(yōu)點

非凸優(yōu)化和局部最小值

自編碼器的概率解釋

Attention 機制則介紹了在機器翻譯、語音、圖像、視頻和記憶單元中的應用。

分布式表示和深度的優(yōu)點Bengio之前的talk里已經講過不少次了。簡單的說，雖然類似local partition的方法可以得到有用的表示，淺層（2層）的神經網絡也可近似任意的函數，但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊（compact），達到exponentially more statistically efficient的效果。

接下來提到了在深度學習中凸性質（convexity）可能并不是必要的。因為在高維空間中，鞍點（saddle point）的存在是主要問題，而局部最小值通常都會很接近全局最小值了。這部分的內容比較陌生，有興趣可以看看最近的論文。

Attention 機制方面，講了很多最新的進展。有很多相關的paper都非常有趣，我要找個時間好好看看這個系列了。一個基本的思路是：我們給每一層引入一個額外的輸入，這個輸入反應的是之前的一個加權，來表示它們的關注程度。在所謂的soft-attention中，這個加權的值可以直接通過BP訓練得到。記下幾句有趣的話：
- They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them tocapture multiple time scales
- They could be used to help deal withlong-term dependencies, allowing some states to last for arbitrarily long

二、深度語義學習（Xiaodong He）

來自微軟研究院的報告，主要內容：

學習文本的語義性（semantic）表示

知識庫和問答系統(tǒng)

多模態(tài)（圖片——文本）語義模型

講座開始引入了一點有趣的motivation：一般我們測試機器是否能夠理解圖片（其實就是訓練對了），方法是給圖片標記標簽然后計算其錯誤率。然而對于含有豐富內容的復雜場景來說，很難定義所有fine-grained的類別。因此，用自然語言的描述來測試對圖片的理解是比較好的方式。

從 Word2Vec 到 Sent2Vec：Deep Structured Semantic Model (DSSM)，雖然我們不知道該如何標記一個句子的語義，但我們知道哪些句子的語義是比較接近的，因此文章通過優(yōu)化一個基于相似性的目標函數來訓練模型，使具有相近語義的句子產生距離相近的向量。接著還介紹了很多模型的細節(jié)和變種（卷積DSSM、遞歸DSSM），在此就不贅述了。

Deep Multimodal Similarity Model (DMSM)：將目標函數中兩個句子的相似性改成句子和圖片的相似性，便可以將DSSM擴展為一個多模態(tài)的模型。

MSR系統(tǒng)解決圖片–>語言問題：

圖片詞語檢測（Image word detection）

句子生成（Language generation）

全局語義性重排序（Global semantic re-ranking）

其中圖片詞語檢測用了CNN＋MIL（Multiple Instance Learning）的方法，個人對此比較感興趣，文章在此。

三、深度神經網絡和GPU（Julie Bernauer）

換個口味，我們來看看NVIDIA關于深度學習和GPU的結合。總的來說，內容上跟NVIDIA官網上介紹深度學習的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛，還有一些支持GPU的庫和工具。

一張比較好的圖：

有用的工具：

Lasagne：基于theano上的開源庫，能方便搭建一個深度網絡。（Keras用得不太爽，可以試試這個）

四、深度視覺Keynote（Rahul Sukthankar）

來看看來自google的報告。這個talk里面的內容都不太熟悉，但是看起來都非常有意思。主要內容有：

用Peer Presssure方法來找high value mistake

結合深度學習和其他機器學習方法來更好解決視覺問題

首先來看看Peer Pressure。這是Rahul組最近的一個工作：The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”，指的是那些我們認為訓練好的模型可以準確預測的樣本，結果它卻“犯傻”了。因此這些樣本也叫做“hard positive”，難以答對的樣子。

從頭說起，深度神經網絡雖然有很多成功的應用，但同時也被發(fā)現很容易犯愚蠢的錯誤（比如上述的high-value mistake）。因此作者提出了Peer Pressure：集成＋對抗訓練（emsembles＋adversarial training）的方法，來找到這些錯誤。簡單來說就是，有一組訓練于同樣數據但是初始化或者結構不同的NN分類器（稱作peers），如果一個樣本出現其中一個NN輸出與其它都不一致的情況（其它NN淡然都是一致的了），那么它應該就是high-value mistake。尋找這類錯誤當然是有價值的啦：（1）它可以用在發(fā)掘無標簽的數據中（2）可以用來合成新的hard positive樣本。

接下來提到將上述的方法應用到視頻當中，找出anchor frame附近的hard positive 幀，用來訓練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思，可惜沒找到相應的paper，那就上張圖吧。