脚本宝典收集整理的这篇文章主要介绍了第一次作业:深度学习基础,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
人工智能(Artificial Intelligence),使一部机器相认一样进行感知、认知、决策、执行的人工程序或系统。
1956 达特茅斯会议标志ai诞生
1957 罗森布拉特发明感知机
1960 通用问题求解系统GPS系统
1968 DENDRAL专家系统问世
1969 M.Minsky和S.PaPErt指出感知机的局限性+本身技术条件的限制联结主义陷入谷底
1983 J.Jhop field解决NP难问题,使得连结主义重新受到人们关注
20世纪80年代 符号足以的代表方法是决策树和基于逻辑的学习
1986 D.E.Rumel-hart等人发明了BP算法
20世纪90年代 统计学习登场,并迅速占领了历史舞台,代表性技术是SVM
2006 Hlnton提出了深度学习的神经网络
计算智能:能存能算
感知智能:能听会说、能看会认
认知智能:能理解,会思考
知识工程/专家系统 根据专家定义的知识和经验,进行推理和判断,从而模拟人类专家的决策过程来解决问题
机器学习 机器自动训练
最常用定义:计算机系统能够利用经验提高自身的性能
可操作定义:机器学习本质是一个基于经验数据的函数估计问题
统计学定义:提取重要模式、趋势,并理解数据,即从数据中学习
模型:对要学习问题映射的假设(问题建模,确定假设空间)
策略:从假设空间中学习/选择最优模型的准则(确定目标函数)
算法:根据目标函数求解最优模型的具体计算方法(求解模型参数)
无监督学习从数据中学习模式,适用于描述数据
监督学习从数据中学习标记分界面(输入-输出的映射函数),适用于预测数据标记
半监督学习:部分数据标记已知,监督学习和无监督学习的混合
强化学习:数据标记未知,但知道与输出目标相关的反馈,决策类问题
参数模型:对数据进行假设,待求解的数据模式/映射可以用一组有限且固定数目的参数进行刻画
例:线性回归、逻辑回归、感知机、k均值聚类
非参数模型:不对数据分布进行假设,数据的所有统计特征都来源于数据本身
例:k近邻模型、SVM、决策树、随机森林
tips:
非参≠无参,“参数”指数据分布的参数,而不是模型的参数。非参数模型的时空复杂度一般比参数模型大得多
参数模型的模型参数固定,非参数模型是自适应数据的,模型参数随样本的变化而变化
生成模型:对输入X和输出Y的联合分布P(X, Y)建模
例:朴素贝叶斯、隐马尔科夫、马尔科夫随机场
优点:
缺点:
判别模型:对已知输入X的条件下输出Y的条件分布P(Y|X)建模
例:SVM、逻辑回归、条件随机场、决策树
神经元继续传递信息、产生新连接的概率(超过阈值被激活,但不一定传递)
没有激活函数相当于矩阵相乘,多层和一层一样,只能拟合线性函数
例:
线性函数
(f(x) = k * x + c)
斜面函数
(f(x) = begin{cases} &T, & x ge c \ &k*x, &|x|leq c \ &-t, &x lt -c \ end{cases})
阈值函数(e.g.阶跃函数)
(f(x)=begin{cases} &1, &x ge c \ &0, &x lt c \ end{cases})
符号函数
(y = F(x) = begin{cases}&1, &x gt 0 \ &2, &x le 0end{cases})
Sigmoid函数
(sigma(z) = frac {1}{1+e^{-z}})
(sigma(z)^{'} = sigma(z)(1-sigma(z)))
tanh函数
(displaystyle tanh(x)=2sigmoid(2x)-1=frac {e^z-e^{-z}} {e^z+e^{-z}})
(g(z)^{'}=1-g(z)^2)
ReLU
(relu(z) = max(0,z))
Leaky ReLU
(leakyrelu(z)=max(0.01z, z))
M-P神经元的权重预先设置,无法学习
单层感知器是首个可以学习的人工神经网络
解决了单层感知机不能解决非线性可分问题的问题
如果一个隐层包含足够多的神经元,三层前馈神经网络(输入-隐层-输出)能以任意精度逼近任意预定的连续函数
当隐层足够宽时,双隐层感知器(输入-隐层1-隐层2-输出)可以逼近任意非连续函数:可以解决任何复杂的分类问题。
在神经元总数相当的情况下,增加网络深度可以比增加宽度带来更强的网络表示能力:产生更多的线性区域
深度和宽度对函数复杂度的贡献是不同的,深度的贡献是指数增长的,而宽度的贡献是线性的。
(fc=PRodlimITs ^d_{l=1}(alpha · theta)^{beta_l})
其中(alpha)表示参数每层对函数复杂度的贡献,(theta)表示参数数量,(beta)表示深度对函数复杂度的贡献,(alpha)和(beta)都是一个区间即相同的参数在不同数值下仍然有不同的复杂度。(d)表示最大深度,(l)表示第(l)层。
多层神经网络可看成一个复合的非线性多元函数(F(·):Xto Y)
(F(x)=f_n(...f_3(f_2(f_1(x)*theta_1+b)*theta_2+b)...))
给定训练数据({x^i,y^i}_{i=1:N}),希望损失(sum_iloss(F(x^i),y^i))尽可能小
梯度:
参数沿负梯度方向更新可以使函数值下降
(theta_j=theta_j-alphafrac{partial}{partialtheta_j}J(theta))
复合函数的链式求导
假设输入与输出相同(target=input),是一种尽可能复现输入信号的神经网络
将Input输入一个encoder编码器,就会得到一个code,加一个decoder解码器,输出信息。
通过调整encoder和decoder的参数,使得重构误差最小
没有额外监督信息:无标签数据,误差的来源是直接重构后信息与源输入相比得到
堆叠自编码器(stack autoencoder, SAE)
人工智能是一个广阔的概念,机器学习是其中的一个方面,而深度学习是机器学习的一个方面。
神经网络仿照生物的神经元,由M-P神经元出现开始,到单层感知器(首个可以学习的人工网络),再到多层感知器和激活函数(解决了非线性可分问题),BP方法调整参数可以使loss函数向极小值靠近,再到ReLU函数改善梯度下降,直到今天的AlexNet、Inception家族、ResNet及一些变种。中间由于理论或硬件技术等难题经历过几次低谷,随着技术的发展和理论的更新,有过几次爆发。
当今的人工智能还在感知智能的方面发展(视觉、自然语言处理等),仍存在着很多不足和难以解决的问题。
以上是脚本宝典为你收集整理的第一次作业:深度学习基础全部内容,希望文章能够帮你解决第一次作业:深度学习基础所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。