您的位置首页生物质能

ppt下载Andrej Karpathy 最新：计算机视觉深度学习技术与趋势 (

来源：互联网
|
2016-10-27
|
0 条评论
|
T小字　 T大字

Mnih和Hinton2010年做的卫星图像分析

第二层（池化层）：3x3的滤波器以步长2滑动

使用4台GPU（每台价格约1000美元）训练

池化层使用MAX操作，对输入数据体的每一个深度切片进行操作，改变它的空间尺寸。最常见的形式是汇聚层使用尺寸2x2的滤波器，以步长为2来对每个深度切片进行降采样，将其中75%的激活信息都丢掉。

谷歌大脑Vinyals等人2015年自动生成图说

ConvNetJSCIFAR-10demo可以让你在服务器上实时地调试卷积神经网络的结构，观察计算结果。

Twitter人工智能负责人HugoLarochelle介绍前馈神经网络的PPT也在里面哦~

一个简单的卷积神经网络是由各种层按照顺序排列组成，网络中的每个层使用一个可以微分的函数将激活数据从一个层传递到另一个层。

但是，基本运算的参数却多达上10M

ImageNet创立，ImageNet挑战赛开始举办

7大院长齐聚新智元智库院长圆桌论坛

卷积神经网络模仿人类视觉中枢神经元的活动卷。积层中，神经元与输入层中的一个局部区域相连，每个神经元都计算自己与输入层相连的小区域与自己权重的内积。

输出图像为[55x55x96]

卷积神经网络详解

2016世界人工智能大会技术分论坛特设“新智元智库院长圆桌会议”，重量级研究院院长7剑下天山，带来最前沿的AI研究动态、剖析技术发展趋势。

滤波器的宽永远是与图像一样的，因为都是颜色通道

假设还有6个5x5滤波器，就会得到6个不同的激活映射，将这些叠在一起，就得到了一个28x28x6的“新图像”

(5*5*3)*6=450参数

卷积神经网络应用中的实际问题

1959年提出猫的初级视皮层中单个神经元的感受野

【新智元导读】这两天在斯坦福有场深度学习盛宴，YoshuaBengio、吴恩达等人从不同角度深度学习的前沿技术和挑战。本文是共12场中的两场。一是OpenAI研究员AndrejKarpathy讲计算机视觉里的深度学习；亮点在答疑部分，Karpathy就如何选择算法、如何调参等实际应用问题给出了靠谱的回答。本文后附Twitter人工智能负责人HugoLarochelle介绍前馈神经网络的PPT。在新智元后台回复“0925”下载全部PPT。后续会持续更新~

模型重点考虑了内存和能量消耗。使用一个奠基模块，显著地减少网络中参数的数量（AlexNet有60M，该网络中只有4M）。论文中没有使用卷积神经网络顶部使用全连接层，而是使用了一个平均池化，把大量不是很重要的参数都去除掉了。GoogLeNet最新版是InceptionV4。

卷积神经网络应用：分布式训练

2014年的ILSVRC2014上凭借6.7%的错误率进入Top5。

ResNet的一些变体

LeCun等人在1998年将基于梯度的学习算法应用与文件识别

在构建卷积神经网络结构时，最大的瓶颈是内存瓶颈。大部分现代GPU的内存是3/4/6GB，最好的GPU大约有12GB的内存。

最后还有在线课程CS231n

池化层

ZFNet是ILSVRC2013的冠军，错误率11.2%。作者MatthewZeiler、RobFergus通过修改结构中的超参数对AlexNet进行改良，具体说来就是增加了中间卷积层的尺寸，让第一层的步长和滤波器尺寸更小。

第一层（卷积层）：96个11x11的滤波器以步长4滑动

购票链接

ResNet是ILSVRC2015的冠军，使用了特殊的跳跃链接，大量使用了批量归一化（batchnormalization）。这个结构同样在最后没有使用全连接层。更多可以查看何恺明的的，他在后来又对ResNet做了优化（PPT）。ResNet是当前最好的卷积神经网络模型。

全连接层中，神经元对于前一层中的所有激活数据都全部连接，与常规神经网络一样。全连接层和卷积层神经元都是计算点积，所以它们的函数形式是一样的。不同的是，卷积层中的神经元只与输入数据中的一个局部区域连接，并且在卷积列中的神经元共享参数。

来源：

Dielman等人2015年Galaxy挑战赛

那么这一层的参数为多少呢？

扫描二维码购票：

我们将[32x32x3]的图像转存为[28x28x6]，如果不这样做，而是改为使用一个全连接的层，需要多少参数呢？

新智元编译

0！

卷积神经网络主要由三种类型的层构成：卷积层，池化层和全连接层。通过将这些层叠加起来，就可以构建一个完整的卷积神经网络。

ZFNet模型更像是AlexNet架构的微调优化版，但还是提出了有关优化性能的一些关键想法。

如今卷积神经网络得到各种应用，比如谷歌照片搜索和无人车

2016世界人工智能大会技术分论坛议程

Kaggle竞赛识别鲸鱼

这一层的输出为多少？27x27x96

卷积层中，在前向的时候，让每个滤波器都在输入数据的宽度和高度上滑动（也就是做卷积），然后计算整个滤波器和输入数据任一处的内积

输入为227x227x3的图像

每个MAX操作是从4个数字中取最大值（也就是在深度切片中某个2x2的区域）。深度保持不变。

这一层的参数总共有多少？

目前对输入向量假设很少，但在实际生活中，输入是有“结构”的，可以是光谱图，可以是照片，也可以是文字

卷积神经网络应用：预加载线程

卷积神经网络历史简要回顾：标志性事件

卷积神经网络在教计算机玩游戏的过程中发挥了重要作用，从经典的ATARI游戏、围棋，到星际争霸

谷歌DeepMindvandenOord等人2016年提出的WaveNet

而我们将[32x32x3]的图像转存为[28x28x6]的图像，这时候需要多少个参数呢？

全连接层

英伟达的GPU出现

卷积神经网络：代表模型

Krizhevsky等人在2012年获得ImageNet竞赛第一名，远远超过其他对手的算法。

VGGNet不好的一点是耗费更多计算资源，并且使用了更多的参数，导致更多的内存占用（140M）。其中，绝大多数的参数都是来自于第一个全连接层。后来发现这些全连接层即使被去除，对于性能也没有什么影响，这样就显著降低了参数数量。

Fukushima在上世纪80年代提出了神经认知

在新智元后台回复“0925”下载AndrejKarpathy的PPT，

卷积神经网络介绍

在每个卷积层上，我们会有一整个集合的滤波器（比如32个），每个都会生成一个不同的二维激活映射。将这些激活映射在深度方向上层叠起来就生成了输出数据。

AlexNet由AlexKrizhevsky，IlyaSutskever和GeoffHinton实现。AlexNet在2012年的ImageNetILSVRC竞赛中夺冠，性能远远超出第二名（16%的top5错误率，第二名是26%的top5错误率）。这个网络的结构和LeNet非常类似，但是更深更大，并且使用了层叠的卷积层来获取特征（之前通常是只用一个卷积层并且在其后马上跟着一个池化层）。

一个32x32x3的图像，用一个5x5x3的滤波器做卷积处理（宽高都是5像素，深度在这里即为颜色通道，所以是3）。卷积也可以理解为“滑动”。

整个过程只涉及两个基本运算

拓展阅读及资源

参数为(32*32*2)*(28*28*6)=1.45M

七位人工智能界“高手”现场过招，思想的激烈碰撞会给目前的人工智能发展带来哪些洞见？七位院长对行业的发展会有哪些前瞻揭秘？10月18日下午，2016世界人工智能大会技术分论坛，答案将逐层揭晓。

1962年提出猫的视觉中枢里有感受野、双目视觉和其他功能结构

其中，具有代表性的技术突破包括：

2016年10月18日，世界人工智能大会技术分论坛，特设“新智元智库院长圆桌会议”，重量级研究院院长7剑下天山，汇集了中国人工智能产学研三界最豪华院长阵容：美团技术学院院长刘江担任主持人，微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel中国研究院院长宋继强、新华网融未来研究院院长杨溟联袂出席。

在连续的卷积层之间一般会周期性地插入一个池化层，用于逐渐降低数据的空间尺寸，从而减少参数的数量，使得计算资源耗费变少，也能有效控制过拟合。

豪华嘉宾阵容，共飨AI盛宴

新智元智库院长圆桌汇集了中国人工智能产学研三界最豪华院长阵容：美团技术学院院长刘江担任主持人，微软亚洲研究院常务副院长芮勇、360人工智能研究院院长颜水成、理工大学计算机学院副院长黄华、联想集团副总裁黄莹、Intel中国研究院院长宋继强、新华网融未来研究院院长杨溟联袂出席。

VGG不到2周到3周的时间，ResNet101使用2到3周

当滤波器沿着输入数据的宽度和高度滑过后，会生成一个二维的激活映射，激活映射给出了在每个空间处滤波器的反应。直观说，网络会让滤波器学习在它看到某些类型的视觉特征时就激活，可以是某些方位上的边界，或者在第一层上某些颜色的斑点，甚至可以是网络更高层上的蜂巢状或者车轮状图案。

1.用什么硬件？

参数为(11*11*3)*96=35K

ILSVRC2014的第二名，由KarenSimonyan和AndrewZisserman提出。VGGNet主要的贡献是展示出网络的深度是算法优良性能的关键部分。网络的结构非常一致，从头到尾全部使用的是3x3的卷积和2x2的池化。

卷积神经网络的激活输出例子。左边的输入层存有原始图像像素，右边的输出层存有类别分类评分。在处理流程中，每个激活数据体铺成一列展示，因为对三维数据作图比较困难，我们就把每个数据体切成层，然后铺成一列显示。最后一层装的是针对不同类别的分类得分，这里只显示了得分最高的5个评分值和对应的类别。

：王楠

根据接触的事物多少或者说经历有多贫乏，人类图像分类准确率为2~5%

Hubel和Wiesel