神经网络与机器学习第一讲绪论

神经网络与机器学习

本讲稿材料都是来源各种书籍和网站，只是有些问题用matlab（后期计划用Python）程序进行了形象解释，大家可以自由传播但不可商用和引起版权纠纷。

参考文献

M.T. Hagan等著，章毅译，《神经网络设计》，机械工业出版社，2017
M. Nielsen著，朱小虎译，《神经网络与深度学习》，人民邮电出版社，2020
S. Haykin著，申富饶等译，《神经网络与机器学习》，机械工业出版社，2011
邱锡鹏著，《神经网络与机器学习》，机械工业出版社，2020
龙良曲著，《TensorFlow深度学习》，清华大学出版社，2020
李航著，《统计学习方法》，清华大学出版社，2017
P. Harrington著，李锐等译，《机器学习实战》，人民邮电出版社，2013
S. Boyd, L. Vandenberghe, Convex Optimization, Cambridge University Press, 2004
B. Widrow, S. D. Stearns, Adaptive Signal Processing, Prentice-Hall,1985

J. Nocedal, S. J. Wright, Numerical Optimization, Springer, 2006

第1章机器学习绪论

§1.1 基本概念

神经网络这里指的是人工神经网络，生物大脑的神经网络是以化学递质传递信息，大脑中约有1000亿个神经元，人类至今仍在探索人脑的工作原理。而人们通过对生物神经元的研究和理解，构建了一个模拟人脑的计算模型：人工神经网络。

神经网络可以说是一个计算架构，利用神经网络进行机器学习，则让计算机不再只是执行命令的机器，而是具有了一定程度上分析判断的能力，这个能力是由海量的数据和高超的计算能力为基础的。

机器学习就是从有限的数据中学习一般规律，利用规律进行”思考”，是人工智能的核心，。1956年，几个计算机科学家相聚在达特茅斯会议，提出了”人工智能”的概念，梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。

深度学习本来并不是一种独立的学习方法，其本身也会用到有监督和无监督的学习方法来训练深度神经网络。但由于近几年该领域发展迅猛，一些特有的学习手段相继被提出（如残差网络），因此越来越多的人将其单独看作一种学习的方法。

§1.2发展节点

1950年英国著名密码学者、计算机Alan Turing在其论文《Computing Machinery Intelligence》中提出了图灵测试：要求一个人和一台拥有智能的机器设备在互不相知的情况下，进行随机的提问交流，如果超过3成的测试者没有发现对方是机器设备，那就代表了这台设备拥有”人类智能”，而目前还没有任何人工智能通过测试，有些测试声称通过，存在争议，科学界人为需要新的图灵测试定义。

人工智能是1956年达特茅斯（在波士顿附近的一个很偏僻的小镇上，也是常青藤的学校之一）举行的一个夏季会议上提出的。当时有五个人参加，MIT的John McCarthy和Marvin Minsky，CMU的Allen Newell和Herbert Simon以及IBM的Arthur Samuel，这五个人就是AI的开山鼻祖。这五个人除了Arthur Samuel以外，全部拿了图灵奖。其中，Herbert Simon 在中国也很有名，他同时拿了图灵奖和诺贝尔经济学奖。他和Allen Newell 两个人创立了卡内基梅隆大学（CMU）。

1974年哈佛大学Paul Werbos发明了反向传播算法Backpropagation，直到80年代，Rumeelhart在并行分布式计算，LeCun1989年将其引用卷积神经网络，重新掀起神经网络学习算法的高潮。

2006年Hinton利用深度学习训练深度信念网络，以及GPU硬件设备的兴起，在自然语言和图像处理领域发展非常成功，机器学习的规模越来越大，应用范围越来越广，对于人类的生活改变越来越深，如今各个公司、每个国家都制定《国家人工智能研究与发展战略计划》，神经网络为基本模型载体的机器学习理论和技术发展越来越迅速。

学习框架：深度学习中参数非常多，不可能再人工写代码，所以现在流行深度学习框架，可以自动进行梯度计算，自动学习，在CPU和GPU之间进行无缝切换，比较流行的是Theano（Python）加拿大蒙特利尔大学；Caffe加州大学伯克利分校，TensorFlow谷歌，PyTorch推特、脸书，Paddle百度，MxNet亚马逊、卡内基梅隆大学，Keras（Theano+TensorFlow）

§1.3机器学习的现在

1、国内各行各业都面临转型

2、各个公司都面临自己的布局

3、 2016年深度残差网络已经突破了人类的一个极限：利用残差学习模块，成功训练了152层的网络，一举拿下当年ILSVRC比赛的冠军。

网站：http://image-net.org/

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过15亿的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别。

何凯明利用152层的深度残差网络在ILSVRC竞赛（ImageNet Large Scale Visual Recognition Challenge）中分辨错误率达到了3.57% <人类的辨别错误率5%！

4 、《Nature》在2020年12月23日发表了DeepMind研究组发表的MuZero算法。新算法MuZero在Atari基准上取得了新SOTA（state-of-the-art）效果。AlphaGo在2016年的围棋比赛中以4-1击败了围棋世界冠军李世石；AlphaGo Zero，可以从零通过自我对弈训练，仅在知道基本游戏规则的情况下，第二年在性能上超过了AlphaGo；AlphaZero于2017年通过对AlphaGo Zero进行一般化，可以将其应用于其他游戏，包括国际象棋和日本将棋。MuZero通过DQN算法，仅使用像素和游戏分数作为输入就可以在Atari视频游戏中达到人类的水平。相对于围棋、国际象棋、日本将棋，Atari游戏的规则与动态变化未知且复杂。

MuZero算法学习可迭代模型，该模型能够产生与规划相关的预测，包括动作选择策略、价值函数和奖励。在57种不同的Atari游戏上进行评估时，MuZero算法获得了最先进的性能。Atari游戏是用于测试人工智能技术的规范视频游戏环境，其中，此前基于模型的规划方法均无效。而在围棋、国际象棋和日本将棋（用于评估高性能计划的典型环境）上进行评估时，MuZero算法在无需任何游戏动态的相关知识，就能与游戏规则完全匹配。

5、2020年7月《Science》美国芝加哥大学Rama Ranganathan，法国索邦大学Martin Weigt等研究人员合作利用进化模型实现了分支酸变位酶的设计。蛋白质对于细胞生命，执行复杂任务和催化化学反应至关重要。长期以来，科学家和工程师一直在寻求通过设计可以执行新任务的人造蛋白质来利用这种力量的方法，但是许多设计此类蛋白质的过程缓慢而复杂，且失败率很高。这项可能对医疗、农业和能源领域产生重大影响的突破是由芝加哥大学普利兹克分子工程学院的研究人员领导的一个团队开发的一种以人工智能为主导的流程，该流程利用大数据来设计新的蛋白质。通过开发可以回顾从基因组数据库中选出的蛋白质信息的机器学习模型，研究人员发现了用于构建人工蛋白质的相对简单的设计规则。当团队在实验室中构建这些人造蛋白质时，他们发现它们的化学反应非常出色，可以与自然界中的蛋白质媲美。

6 机器学习与我们的生活

■ 在手机上：你可以使用口头指令要求手机执行搜索、通话等任务，这些功能就依赖于机器学习技术的支持。Siri、Alexa、Cortana以及Google Assistant等虚拟个人助理都能够遵循口头指令，因为它们能够识别语音。它们可以处理人类自然语言，并以越来越自然的方式将其与期望指令和响应进行匹配。这些智能助理可以不同的方式学习大量对话。它们可被询问具体信息，比如如何读取你的名字，或分辨房间中声音的主人。所用用户的大量对话都成为它们的样本数据，帮助智能助理识别不同发音的词汇，或如何创建自然讨论。

拍照中各个品牌都有自己的机器学习技术，比如谷歌在 Pixel 3 上，则是对双像素进行了进一步的优化，加入了机器学习，让它能由 R、G、B 三色的左右输入直接算出深度图来，而不用传统对比同一像素在左右两张图间的距离的方式，计算距离。利用「像素移位」的原理，将多张略微偏移的照片叠合，试图找出不同照片中可以还原的细节。这一点点的偏移可以靠握持手机时的抖动来达成，如果是架在三脚架上的话，Pixel 3 还会晃动自己的防抖机构，来自已制造偏移呢。在噪点误判的方面，Google 用的是「寻找边缘」的方法，先将边缘定下来后，在其附近减少降噪，确保边缘的锐利，其他地方就能用较激进的方式去做柔化，来减小噪点造成的冲突。而在移动中物体的部份，则是要靠 AI 来找到画面中的「特征物」，将不同画格中相同的特征物对齐，而不是全画面的对齐，以求达到更锐利的效果。Pixel 3 新推出的夜视模式（Night Sight）试图用 AI 的辅助，来强化软件夜拍的方案。Google 还有最后的大绝招「AI」可以使用，为夜拍的照片带来更自然的白平衡，以及更适当的光照曲线。白平衡向来是夜间拍摄的一个极为头痛的问题，特别是在频率单一的光线之下，很多物体根本分辨不出颜色来。Google 的 AI 会通过机器学习尽量削除掉一些人造光的影响，试图还原一些物体本来的颜色。

■ 购物：我们许多人都已经熟悉购物推荐功能，比如超市提醒你在网上商店中添加奶酪，或亚马逊为你推荐你可能喜欢的书籍。机器学习允许亚马逊对个人购物者提供推荐服务，这种技术能通过所谓的推荐系统提供建议。通过分析用户此前的购物数据，以及各种偏好表达，推荐系统可以记录用户采购历史模式。它们利用这种模式预测你可能会买什么。

■在银行中通过分析大量数据账号，机器学习可帮助人类分析师发现无法看到的异常模式或活动。这种能力最常见的应用就是打击信用卡和借记卡诈骗。机器学习系统可被训练识别特定的开支模式以及交易特点，比如位置、数量以及时间等，令欺诈变得更难。当交易看起来不正常时，系统就会发出警报，并向用户发送信息。

■ 医生刚刚开始考虑利用机器学习帮助更好地做出诊断，比如诊断癌症和眼疾。眼科医院的患者通常需要进行视网膜拍照才能发现问题，而通过了解医生标记的图片，计算机可以分析病人的新视网膜图片，包括皮肤斑点或显微镜下的细胞图片。它们可以找到显示病人眼部问题的视觉线索。这种图像识别系统在医疗诊断中变得越来越重要。

■ 微信交流：人工智能，除了大家首先想到的是图像识别、语音识别、机器翻译、机器人这些技术，人工智能所涉及的应用场景和商业价值却远不止此。在日常的经营和管理中，任何一个企业都会维护客户关系，都有销售数据需要分析，都会在生产，销售和运营的各个环节中面对不同的决策问题，新一代的商业智能技术就是利用现在飞速发展的机器学习和数据分析技术对企业商业化过程中面临的各种问题给出自动化的智能解决方案，从而驱动业务快速增长。

机器学习是一种基于算法的人工智能技术，它让机器”学会思考”。无论你承不承认，机器学习已经影响到我们生活的方方面面，如经济、医疗、保健、自动化、科学研究、网购等等。机器学习可以提高自动化技术的水平，如极大依赖于机器学习的机器人。而在医疗领域，机器学习可用于辅助诊断、管理患者数据、有效预测患者病情等。因此，即使你从未听说过机器学习，但请相信，它迟早会触及你的生活。无论是劳动力以及劳动场所的变化、自动驾驶技术的惊人进展，还是人工智能应用于诈骗检测、预防犯罪、医疗诊断等，都预示着无论我们是否喜欢，人工智能势必将影响我们的生活。