Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

发布时间:2022-06-30 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

Do Deep Neural Networks Learn Facial Action UnITs When Doing ExPression Recognition?阅读笔记

  • 前言@H_304_12@
  • Abstract
  • Introduction
  • Related Work
  • Our ApPRoach
    • Network Architecture
    • Network Training
  • Experiments and Analysis
    • PErformance on Toronto Face Database (TFD)
    • Performance on the Extended Cohn-Kanade Dataset (CK+)
    • Visualization of higher-level neurons
    • Finding Correspondences Between Filter Activations and the Ground Truth Facial Action Units (FAUs)
  • Conclusions

前言

这是第一次写博客(本人还只是个入门小白),主要是自己学习看文章时做的小笔记吧,方便以后自己回顾和整理,如有理解错误的地方,还请指出。文章有少量内容有所省略,如果想要深入学习本篇论文,最好的方法还是去阅读原文,本文只是一个简单的辅助。

简单说一些这篇论文的学习重点F1a;理解CNN在做表情识别时究竟提取了什么样的高级特征,学会可视化的理论及其方法。 这儿给出论文地址:Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?

Abstract

尽管近年来,卷积神经网络(CNN)被选为基于外观的分类器,但研究卷积神经网络(cnn)能在多大程度上提高公认的表情识别数据集上的性能的工作相对较少,更重要的是,研究卷积神经网络实际上学习了什么。 在这项工作中,我们不仅展示了CNN可以实现较强的性能,而且我们还引入了一种方法来破译哪些面部区域影响了CNN的预测 首先,我们在面部表情数据上训练一个zero-bias CNN,据我们所知,在两个表情识别数据集上取得了最先进的性能: 扩展的Cohn-Kanade (CK+)数据集多伦多面部数据集(TFD) 。然后,我们通过 可视化空间模式 来定性分析网络,大致操作就是最大限度地激发了卷积层中的不同神经元,并通过可视化结果展示了它们与 面部动作单元(FAUs) 的相似性。最后,我们使用CK+数据集提供的FAU labels来验证我们在滤波器可视化中观察到的FAU确实与受试者的面部运动一致。

总结来说,该文章证明了CNN可用于表情识别的任务,并且可以取得不错的结果。同时,对深层的卷积特征进行可视化可以发现网络提取到的高级特征与FAU有着对应关系。

Introduction

面部表情为人类向他人传达自己的情绪状态提供了一种自然而简洁的方式。因此,设计准确的面部表情识别算法对人工智能交互计算机系统的发展至关重要。在这一领域的广泛研究发现,只有一小部分区域会随着人类表情的变化而变化,这些区域位于受试者的眼睛、鼻子和嘴巴周围。在1中,Paul Ekman提出了 面部动作编码系统(FACS) ,该系统枚举了这些区域,并描述了每个面部表情如何被描述为多个动作单元(AUs)的组合,每个动作单元对应于面部的特定肌肉群。然而,事实证明,让脑准确地学习面部传达情感的部位并非易事。

面部运动编码系统 (FACS,Facial Action Coding System)从人脸解剖学的角度,定义了44个面部动作单元(Action Unit,简称AU)用于描述人脸局部区域的肌肉运动,如下图所示,AU9表示“皱鼻”,AU12表示“嘴角拉伸”。面部动作单元能够客观、精确、细粒度地描述人脸表情,各种动作单元之间可以自由组合,对应不同的表情。如“AU4(降低眉毛)+AU5(上眼睑上升)+AU24(嘴唇相互按压)”这一组合对应“愤怒”这一情绪状态。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

以往的面部表情识别工作可以分为两大类: 基于AU/基于规则的方法基于外观的方法 。基于AU的方法将明确检测个体AU的存在,然后根据《Emotional facial action coding system》中最初由Friesen和Ekman提出的组合对一个人的情绪进行分类。不幸的是,每个AU探测器都需要精心的手工设计来确保良好的性能。另一方面,基于外貌的方法根据人的一般面部形状和纹理来模拟人的表情。

在过去的几年中,卷积神经网络(CNNs)作为一种基于外观的分类器的兴起,极大地促进了计算机视觉中许多成熟的问题的发展。像物体识别、物体检测和人脸识别这样的任务在几个公认的数据集测试中都有了巨大的性能提升。不幸的是,其他任务,如面部表情识别,并没有获得同样程度的性能提升。关于CNN能在公认的表情识别数据库上提供多大的帮助,目前还没有做什么工作。

在本文中,我们寻求以下问题的答案: CNN能否提高表情识别数据集/基线的性能,以及它们学习了什么? 我们建议在已建立的面部表情数据集上训练CNN,然后通过可视化网络中的各个过滤器来分析它们学习到的内容。在这项工作中,我们应用了Zeiler和Fergus和Springenberg等人提出的 可视化技 ,其中网络中的单个神经元被激发,并使用一个 反卷积网络 在像素空间中显示它们相应的空间模式。当我们将这些有区别的空间模式可视化时,我们发现许多滤波器是由面部对应的面部动作单元(FAUs)激发的。图1显示了这些空间模式的子集。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图1 在扩展Cohn-Kanade (CK+)数据集上训练的网络的第三个卷积层中激活五个选定滤波器的面部区域的可视化。每一行对应于conv3层中的一个滤波器,我们显示前5张图像的空间模式。

因此,本文的主要贡献如下:(即本文重点研究内容,以下内容都是围绕这两点)

  1. 我们发现CNN经过表情识别训练后的识别任务学习特征与Ekman提出的FAUs强烈对应。我们首先通过可视化在我们的网络的卷积层中最大程度激发不同滤波器的空间模式来证明这一结果,然后使用ground truth FAU标签来验证在过滤器可视化中观察到的FAU与受试者的面部运动一致。
  2. 我们还表明,我们的CNN模型基于最初提出的工作,据我们所知,可以在扩展的Cohn-Kanade (CK+)数据集和Toronto Face dataset (TFD)上实现最先进的性能。

Related Work

在大多数面部表情识别系统中,主机器与传统的机器学习管道非常匹配。更具体地说,人脸图像被传递给分类器,该分类器试图将其分类为几个(通常为7)表情类之一:愤怒,2、厌恶,3、恐惧,4、中性的,5、快乐,6、难过的时候,和7、惊喜。在大多数情况下,在传递给分类器之前,人脸图像被预处理并交给特征提取器。直到最近,大多数基于外观的表情识别技术都依赖于手工特征,特别是Gabor小波、Haar特征和LBP特征,以使不同表情类的表示更具甄别性。

一段时间以来,基于手工制作特征的系统能够在公认的表情识别数据集上取得令人印象深刻的结果,如日本女性面部表情(JAFFE)数据库,扩展的Cohn-Kanade (CK+)数据集和Multi-PIe数据集。然而,最近深度神经网络的成功使得许多研究人员开始探索从数据中学习的特征表示。毫不奇怪,几乎所有的方法都使用了某种形式的无监督的前训练/学习来初始化模型。我们假设,这可能是因为标签数据的缺乏,使作者无法训练一个没有严重过拟合的完全监督模型。

在《Facial expression recognition via a boosted deep belief network》中,作者训练了一个多层增强深度置信网络(BDBN),并在CK+和JAFFE数据集上取得了最先进的精度。同时,在《Disentangling factors of VARiation for facial expression recognition》中,作者使用卷积收缩自动编码器(CAE)作为他们的底层无监督模型。然后,他们执行了一种被称为收缩判别分析(CDA)的监督编码功能,以从非监督表示中分离出判别表达式特征。

一些基于无监督深度学习的研究也试图分析FAU和学习特征表示之间的关系。在[15,16]中,作者学习了一种以K-means为低级特征的基于patch的滤波器组。然后利用这些特征选择对应于特定FAU接受域的接受域,并将其传递给多层受限玻尔兹曼机器(RBMs)进行分类。使用图像特征和表达标签之间的互信息准则选择FAU接受域。Susskind等人的早期研究表明,第一层的特征是经过训练生成面部表情图像的深度信念网络,似乎学习了对脸部部分敏感的滤波器。我们进行了类似的分析,除了我们使用CNN作为我们的基础模型,我们可视化的空间模式,刺激网络中的高级神经元。

(中间有省略)

相比之下,我们的工作是对单一图像的表情识别,并将重点分析网络学习到的特征。因此,我们不仅将证明CNN对现有表情分类基线的有效性,而且我们还将定性地表明,该网络能够学习人脸图像中对应于面部动作单元(FAUs)的空间模式。(此段是本文作者所做研究重点,且与上述其他相关研究有所不同)

Our Approach

Network Architecture

在本文的所有实验中,我们使用了一个经典的前馈卷积神经网络。我们使用的网络,如图2所示,由3个卷积层组成,分别带有64、128和256个滤波器,滤波器大小为5x5,然后是ReLU(整流线性单元)激活函数。最大池化层放置在前两个卷积层之后,而 象限池化层2 应用在第三个卷积层之后。象限池化层之后是一个包含300个隐藏单元的全连接层,最后是一个用于分类的softmax层。softmax层包含6-8个输出,对应于训练集中表情的数量。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图2 网络架构——我们的网络由3个卷积层组成,分别包含64、128和256个滤波器,每个滤波器的尺寸为5x5,然后是ReLU(整流线性单元)激活函数。我们在前两个卷积层之后添加2x2最大池化层,在第三个卷积层之后添加象限池化层。3个卷积层之后是一个包含300个隐藏单位的全连接层和一个softmax层。

象限池化层——其实是一种非常简单的池化形式,具体来说,我们将特征图划分为四个大小相等的象限,并计算它们在每个象限中的总和。这将产生每个象限的简化(K维)表示,用于分类的共有4K个特征。

Network Training

在训练我们的网络时,我们从头开始使用随机梯度下降进行训练, batch size为64momentum设置为0.9weight decay为1e-5 。我们使用 0.01的恒定学习率,并且不使用任何形式的退火。每个层的参数都是随机初始化的,通过绘制一个具有零均值和标准差的高斯分布( σ = k N F A N − I N sigma = DFrac{k}{N_{fan-iN}} σ=NFANINk),其中 N F A N − I N N_{FAN-IN} NFANIN 是每层的输入连接数, k k k 从范围 [ 0.2 , 1.2 ] [0.2,1.2] [0.2,1.2] 上均匀取值。

我们还使用 dropout 和各种形式的 数据增强 来规范我们的网络和对抗过拟合。我们将dropout应用到全连接层,其概率为 0.5 (即每个神经元的输出设置为0,其概率为0.5) 。对于数据增强,我们对每个输入图像进行 随机变换,其中包括:平移、水平翻转、旋转、缩放和像素强度增强

Experiments and Analysis

我们在实验中使用了两个面部表情数据集:扩展的Cohn-Kanade数据库(CK+)多伦多面部数据集(TFD) 。CK+数据库包含327个图像序列,每个图像序列被分配到7个表情标签中的一个:愤怒、轻蔑、厌恶、恐惧、高兴、悲伤和惊讶。为了公平比较,我们遵循前人的协议,将每个序列的第一帧作为中性帧,加上最后三帧表情帧,形成我们的数据集。这导致总共有1308个图像和8个类别(还有一个类别应为中性)。然后,我们按照特定的方式将所有帧分割成10个独立的子集,并进行 10折交叉验证

十折交叉验证,英文名叫做10-fold cross-validation,用来测试算法准确性。是常用的测试方法。将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。 每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。

TFD是多个面部表情数据集的融合。它包含4178张图片,标注了7种表情标签中的一种:愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。将标记好的样本分成5折,每折包含一个训练、验证和测试集。我们只使用每折的训练集训练所有的模型,并对每折的测试集进行评估,并对结果进行平均。

在这两个数据集中,图像是 灰度 的,大小为 96x96像素 。在TFD数据集中,人脸已经被检测并归一化,因此所有受试者的眼睛之间的距离相同,具有相同的垂直坐标。同时,对于CK+数据集,我们只需检测640x480图像中的人脸,并将其调整为96x96。我们使用的唯一其他预处理是 patch- wise mean suBTraction和scaling to unit variance。

Performance on Toronto Face Database (TFD)

首先,我们通过评估CNN在TFD数据集上的性能来分析CNN的识别能力。图3显示了从没有其他正则化的随机初始化以及具有dropout (D)、data augmented (a)或两者兼有(AD)的CNN训练zero-bias CNN时获得的识别精度。我们还包括以前方法的识别精度。从图3的结果中,有两个主要的观察结果:

  1. 不出意料,正则化显著提高性能
  2. 数据增强比常规CNN提高性能(10.0%vs.3.5%)

此外,当同时使用dropout和数据增强时,我们的模型在TFD上的性能能够超过以前的最先进的性能4.8%。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图3 多伦多人脸数据集(TFD)的识别精度- 7 classes- A:数据增强,D: Dropout

Performance on the Extended Cohn-Kanade Dataset (CK+)

现在我们在CK+数据集上展示我们的结果。CK+数据集通常包含8个标签(愤怒、轻蔑、厌恶、恐惧、快乐、中性、悲伤和惊讶)。然而,许多研究忽略了被标记为中性或轻蔑的样本,只对六种基本情绪进行评估。因此,为了确保公平比较,我们训练了两个单独的模型。我们在图4中给出了8个类别模型结果,在图5中给出了6个类别模型结果。对于八类模型,我们进行了与TFD相同的研究,我们观察到相当相似的结果。再一次,正则化在获得良好性能方面发挥了重要作用。数据增强可以显著提高性能(14.5%),如果结合dropout,则可提高14.6%。在八类和六类模型中,据我们所知,我们达到了CK+数据集的最先进的精度。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图4 扩展Cohn-Kanade (CK+)数据集的识别精度- 8 classes- A:数据增强,D: Dropout

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图5 扩展Cohn-Kanade (CK+)数据集的识别精度- 6 classes- A:数据增强,D: Dropout

Visualization of higher-level neurons

现在,有了具有高识别度的模型,我们将分析神经网络在进行分类时识别出识别能力最强的面部区域。为此,我们采用了Zeiler和Fergus在3中提出的 可视化技术

对于每个数据集,我们考虑第三卷积层, 对于每个滤波器,我们选择分割的训练集中产生最强的响应值的 N N N 张图像 。然后, 我们将最强的神经元设置为原高激活值,将所有其他激活设置为零,并使用 反卷积网络 在像素空间中重建该区域 。在我们的实验中,我们选择了 N = 10 N=10 N=10 张训练图像。

这儿简单说一下可视化的大致过程,我们图像通过多个卷积层提取到了高级特征,然后我们在特征图中选择激活值最高的一个通道,其他通道全部置零,然后激活值最高的通道的最高激活值区域保留,其余同样置零。将新的特征图送入反卷积网络中,便可以得到重新构建的可视化结果,借此便可以观察理解每层的CNN究竟学习到了什么特征。 反卷积网络可以说是卷积网络的“逆过程”,但两者并不是完全“可逆的”关系。反卷积网络大致要经过:反池化——激活——反卷积这样一个过程。

我们使用Springenberg等人提出的一种名为“Guided Backpropagation”的技术来进一步完善我们的重建。“Guided backpropagation”的目的是改善重构的空间模式,不仅依赖于反卷积过程中上层信号给出的屏蔽激活,而且还结合了在前向传播过程中那些激活被抑制的信息。因此,每一层在反卷积阶段的输出被屏蔽两次:

  1. 被反卷积层的ReLU屏蔽一次
  2. 被该层的卷积层的ReLU在前向传播中生成的屏蔽再次屏蔽一次

首先,我们将分析在Toronto Face Dataset (TFD)中发现的模式。在图6中,我们在第三卷积层中选择256个滤波器中的10个,对于每个滤波器,我们给出训练集中前10名图像的空间模式。从这些图像中,读者可以看到,有几个滤波器似乎对与几个面部动作单元对齐的区域非常敏感,例如:AU12:唇角拉紧器(第1行),AU4:下眉器(第4行),AU15:唇角压下器(第9行)。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图6 空间模式的可视化,激活我们在多伦多人脸数据集(TFD)上训练的网络的conv3层中选定的10个滤波器。每一行对应于conv3层中的一个过滤器。我们展示了获得最大幅值响应的前10张图片。注意,空间模式似乎与一些面部动作单元相对应。

接下来,我们显示在CK+数据集中发现的模式。在图7中,我们再次在第三卷积层中选择256个滤波器中的10个,对于每个滤波器,我们给出训练集中排名前10的图像的空间模式。读者会注意到,CK+区分空间模式的定义非常清晰,并与面部动作单元(如AU12:唇角拉起器(第2、6和9行),AU9:鼻子皱起器(第3行)和AU27:嘴伸展(第8行)非常一致。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图7 在Cohn-Kanade (CK+)数据集上训练的我们的网络的conv3层中激活10个选定滤波器的空间模式可视化。每一行对应于conv3层中的一个滤波器。再一次,我们展示了获得最大幅值响应的前10张图片。注意,这些空间模式似乎与一些面部动作单元有非常清晰的对应关系。

Finding Correspondences Between Filter Activations and the Ground Truth Facial Action Units (FAUs)

除了分类标签(愤怒,厌恶等),CK+数据集还包含标签表示每个图像序列中存在哪些FAU。利用这些标签,我们现在提出了一个初步实验,以验证CNN学习到的滤波器激活/空间模式确实与图像中受试者显示的真实FAU匹配。我们的实验旨在回答以下问题:在一个包含FAUj样本集中,对于一个特定的滤波器,样品的最强烈激活值与不含FAUj的样本集中的最强烈激活值具有最大的不同,那个FAU是否与最大激发滤波器 i i i 的视觉空间模式准确对应?

给定 M M M 幅图像(X)及其对应的FAU标签(Y)的训练集,Fℓi(X) 为滤波器在 ℓ ℓ 层对样本 X X X 的激活。由于我们正在研究网络中的第三层卷积层,因此我们设置 ℓ = 3 ℓ= 3 =3。然后,对于图7中显示的10个过滤器,我们分别执行以下操作:

  1. 我们考虑一个特定的FAUj,并将包含FAUj的样本x放在集合S中,其中:   S = { x m ∣ j ∈ y m } , ∀ m ∈ { 1 , ⋯   , M }   . S= {x_mmid jin y_m},forall min{1,cdots,M},.  S={xmjym},m{1,,M}.
  2. 然后,我们建立一个含有FAUj的样本集的最大激活值柱状图:   Q i j ( x ) = P ( F 3 i ( x ) ∣ S ) , ∀ ( x , y ) ∈ ( X , Y )   . Q_{ij}(x)=P(F_{3i}(x)mid S),forall (x,y)in(X,Y) ,.  Qij(x)=P(F3i(x)S),(x,y)(X,Y).
  3. 然后,类似地,我们在不包含FAUj的样本集的最大激活上构建一个分布:   R i j ( x ) = P ( F 3 i ( x ) ∣ S c ) , ∀ ( x , y ) ∈ ( X , Y )   . R_{ij}(x)=P(F_{3i}(x)mid S^c),forall (x,y)in(X,Y) ,.  Rij(x)=P(F3i(x)Sc),(x,y)(X,Y).
  4. 我们计算 Q i j ( x ) Q_{ij}(x) Qij(x) R i j ( x ) R_{ij}(x) Rij(x)之间的KL发散度, D K L ( Q i j ∣ ∣ R i j ) D_{KL}(Q_{ij}midmid R_{ij}) DKL(QijRij),并对所有其他FAU重复这个过程。

这儿简单描述一下是如何寻找两者间联系的:首先我们正对一种特定的FAUj,然后把整个训练集 X X X 分为两部分,一部分是包含FAUj标签的集合 S S S,另一部分是不包含FAUj标签的集合 S c S^c Sc 。我们分别把两个集合送入网络,那么再争对第三层中某个滤波器 i i i ,我们分别可以得到 x x x 个特征图,每个样本对应一个最大激活 F ( x ) F(x) F(x) ,那么便转化得到两个个最大激活值的分布。最后使用KL散度计算这两个分布的差异性,便可以这个FAUj对于滤波器 i i i 的响应/影响是不是很大。(图8便是最后争对不同滤波器和不同FAU得到的结果)

图8显示了为图7中显示的10个滤波器中的每个FAU计算的KL散度的柱状图。对于每个滤波器,KL散度值最大的FAU用红色表示,其对应的名称见图9。从这些结果中,我们可以看到,在大多数情况下,图9中列出的FAU与图7中显示的面部区域相匹配。这意味着,似乎强烈影响这些特定滤波器的激活的样本,实际上是那些拥有相应滤波器可视化显示的FAU的样本。因此,我们表明,当给予一个相对“松散”的监督信号(即情绪类型:愤怒、高兴、悲伤等)时,神经网络中的某些神经元会隐式地学习检测人脸图像中的特定FAU。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图8 柱状图显示哪些FAU导致CNN中特定滤波器的激活分布发生最强的变化。对于图7中显示的10个滤波器中的每一个,我们构建了包含特定FAUj的训练样本的激活和不包含FAUj的样本的激活的直方图。然后我们计算两个分布之间的KL散度,并将它们绘制在上面的每个FAU上。KL发散度最大的FAU用红色表示,对应的名称见图9。

Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记

图9 图7所示的CK+可视化图与激活分布的FAU对应KL发散值最高。每个滤波器计算的所有FAU的KL发散值如图8所示。

最令人鼓舞的是,这些结果似乎证实了我们对CNN如何作为基于外观的分类器工作的直觉。例如,滤波器2、6和9似乎对对应于FAU 12的模式非常敏感。这并不奇怪,因为FAU 12(唇角拉出器)几乎总是与微笑联系在一起,从图7的可视化显示,一个对象在微笑时经常展示他们的牙齿,一个非常独特的外观线索。同样地,对于滤波器8来说,FAU 25(嘴唇部分)和FAU 27(嘴部伸展)的激活分布差异最大也就不足为奇了,因为滤波器的空间模式对应于另一个视觉上显著的线索——惊讶脸的嘴部区域形成的“O”形。

Conclusions

在这项工作中,我们从定性和定量两方面证明,经过训练证明表情识别的CNN确实能够模拟与FAUs强烈对应的高级特征。定性地说,我们通过可视化空间模式,展示了面部的哪些部分产生了最具甄别性的信息,这些空间模式最大程度地激发了我们所学网络的卷积层中的不同滤波器。同时,定量地,我们使用CK+数据集中给出的FAU标签,将可视化滤波器的数值激活与受试者的实际面部运动关联起来。最后,我们演示了zero-bias CNN如何在扩展的Cohn-Kanade (CK+)数据集和多伦多人脸数据集(TFD)上实现最先进的识别精度。


  1. 面部动作编码系统 (FACS) P . Ekman and W. V . Friesen. Facial action coding system.1977. ↩︎

  2. 象限池化层 A. Coates, A. Y . Ng, and H. Lee. An analysis of single-layer networks in unsupervised feature learning. InInter-national conference on artificial Intelligence and @R_126_2358@istics, pages 215–223, 2011. ↩︎

  3. 可视化技术 M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. InComputer Vision–ECCV 2014, pages 818–833. Springer, 2014. ↩︎

脚本宝典总结

以上是脚本宝典为你收集整理的Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记全部内容,希望文章能够帮你解决Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?阅读笔记所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。