線上教材：Python 程式設計

一維輸入對一個 Neuron (神經元): y = f(x*w+b)

x: input

w: weight

b: bias

f: activation function

y: output

多維輸入對一個 Neuron: y = f(x^Tw+b)

x 和 w 是向量

多維輸入對多個 Neuron: y = f(x^TW+b)

W 是矩陣，x, b 和 y 是向量

Deep Neural Network: 一層不夠，你有沒有用多層？

不一定要幾層才算是深

影像處理常常是幾十層或一百層起跳，音訊處理通常用個十多層就很了不起了

往前算，很簡單: 給 x 和中間所有的 W, b，可以算出對應的 y

Loss function: 評估網路算出來的 y 和標準答案的 y' 之間差多少

常見的 loss functions: mean squared error, cross entropy, ...

Loss 算出來以後呢？~~這是很好的研究題目，你有興趣讀博士班嗎？~~

微分！

很難嗎？就相信 libary 會幫你算吧~

基本概念: 梯度下降法(Gradient Descent)

常用的最佳化方法(optmizer)名稱: SGD (stochastic gradient descent), Momentum, AdaGrad, RMSProp, Adam