神经网络与机器学习第3版学习笔记 

     -初学者的笔记,记录花时间思考的各种疑惑

第一章 Rosenblatt感知器

1、第32页

1.1 为什么如果第n次迭代时的内积存在符号错误,第n+1次迭代内积的符号就会正确?

    已知 $\eta \left( n \right) X^T\left( n \right) X\left( n \right) >\left| W^T\left( n \right) X\left( n \right) \right|$ ······················································①

    (1)假设$X\left( n \right) \in \varphi \left( 1 \right) $,即正确的内积结果大于0:$W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) >0$ 。

    $\because $第n次迭代时的内积存在符号错误

    $\therefore W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) <0$

    $\because X\left( n \right) \in \varphi \left( 1 \right) \,\,\land W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) <0$

    $\therefore W\left( n+1 \right) =W\left( n \right) +\eta \left( n \right) X\left( n \right) $ //加上一个正数,使下次内积增大(P30的式1.6)

    $\therefore W^T\left( n+1 \right) =W^T\left( n \right) +\eta \left( n \right) X^T\left( n \right) $

    $\therefore W^T\left( n+1 \right) X\left( n \right) =W^T\left( n \right) X\left( n \right) +\eta \left( n \right) X^T\left( n \right) X\left( n \right) $

    又$\because ①\Rightarrow \eta \left( n \right) X^T\left( n \right) X\left( n \right) >-W^T\left( n \right) X\left( n \right) $

    $\therefore W^T\left( n+1 \right) X\left( n \right) >0$

    即:第n+1次迭代内积的符号正确。

    (2)同理可证当“$X\left( n \right) \in \varphi \left( 2 \right) \land W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) >0$”时,第n+1次迭代内积的符号正确。

2、第33页

2.1 关于“Cij

    Cij的通俗解释:$x\in \varphi \left( i \right) $ 却错误分类到$\varphi \left( j \right) $的风险。

3、第34页

3.1 为什么C11<C21&C22<C12?

    因为错误分类的风险更大。

3.2 最优分类策略的由来。

    要使分类策略最优,即:实现风险最小。

    所以,最优分类为,使得$\int_{\mathscr{X}1}{A\left( x \right) dx}$最小的A(A为1.27中的代数式)。

    那么,把所有使得$A\left( x \right) <0$的x都分配给$\mathscr{X}1$,可使得上式最小。

4、第35页

4.1 式1.33的简化过程

     $-\frac{1}{2}\left( X-\mu _1 \right) ^TC^{-1}\left( X-\mu _1 \right) +\frac{1}{2}\left( X-\mu _2 \right) ^TC^{-1}\left( X-\mu _2 \right) $

    = $-\frac{1}{2}X^TC^{-1}X+\frac{1}{2}X^TC^{-1}\mu _1+\frac{1}{2}\mu _1^TC^{-1}X-\frac{1}{2}\mu _1^TC^{-1}\mu _1$

       $\,\,+\frac{1}{2}X^TC^{-1}X-\frac{1}{2}X^TC^{-1}\mu _2-\frac{1}{2}\mu _2^TC^{-1}X+\frac{1}{2}\mu _2^TC^{-1}\mu _2$

    = $\,\,\frac{1}{2}X^TC^{-1}\left( \mu _1-\mu _2 \right) +\frac{1}{2}\left( \mu _1^T-\mu _2^T \right) C^{-1}X$

       $+\frac{1}{2}\left( \,\,\mu _2^TC^{-1}\mu _2-\mu _1^TC^{-1}\mu _1 \right) $

    = $\,\,\frac{1}{2}X^TC^{-1}\left( \mu _1-\mu _2 \right) +\frac{1}{2}\left( \mu _1-\mu _2 \right) ^TC^{-1}X$

       $+\frac{1}{2}\left( \,\,\mu _2^TC^{-1}\mu _2-\mu _1^TC^{-1}\mu _1 \right) $

    $\because X,C,\mu _1,\mu _2$都是一维向量,且 一维向量X一维向量=常数

    $\therefore X^TC^{-1}\left( \mu _1-\mu _2 \right) =\left( \mu _1-\mu _2 \right) ^TC^{-1}X$

    $\therefore $原式=$\,\,\left( \mu _1-\mu _2 \right) ^TC^{-1}X+\frac{1}{2}\left( \,\,\mu _2^TC^{-1}\mu _2-\mu _1^TC^{-1}\mu _1 \right) $

5、第37页

5.1 实验所需要的感知器参数中:$\beta =50$ ?

    因为区域A的输入向量的最大欧几里得范数应该为大圆半径10,

    所以 $\beta =10^2=100$。

5.2 中文版中对于“权向量大小m=20”的描述,在原版中不存在,可忽略。

6、双月模型的计算机实验

   见以下开源代码:

   (作者3步迭代就收敛,可我的代码大约需要几百步才能收敛,

由于是随机产生的输入向量,可能收敛步数得看脸,好在都能瞬间完成

并生成可分析数据)

   https://gitee.com/none_of_useless/nnalm

   思路:

   ①创建感知器。接受输入向量及初始权值,输出收敛后的权值。

   ②创建双月模型,生成训练与验证数据。

  

版权声明:本文为smple-to-bottom原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/smple-to-bottom/p/11716987.html