机器学习与深度学习：方法与应用洞察

03-15 1074阅读 0评论

【文章解读】：2023 Machine Learning and Deep Learning: A Review of Methods and Applications

机器学习(ML)和深度学习(DL)概念的区别和联系表格

	机器学习	深度学习
基本表述	简述：通过使用算法从数据中学习，目标是提高预测或决策的准确性。特点：能够以一种自动化的方式从数据中学习，而不需要显式编程。关系：深度学习是机器学习的一个子集。
使用统计方法从数据中学习。在处理结构化数据时特别有用，如在金融或营销分析中。	使用神经网络从大型数据库中学习。在处理图像、语音或文本等非结构化数据方面潜力巨大。
主要工作	一、开发可以无需显式编程就能从数据中自动学习的算法。（为问题设计模型）二、特征工程	开发利用神经网络来模拟人脑的算法，自动提取特征。（为人脑设计模型）。
代表模型		NLP：RNN、Transformer CV：CNN、GANS
数据	大量数据（高质量、多样性）的可用对两者成功至关重要。人工数据增广技术（如图像或文本合成）可以帮助减轻有限数据可用性的影响。
当下重要研究领域	一、研究可解释AI（XAI）的方法，提高模型的透明度和可解释性。二、与区块链、物联网和云计算等其他技术集成。
	GANs生成式对抗网络：图像和视频生成、风格传递、人脸生成等。 RL强化学习：教智能体基于奖惩做出决策，用于机器人、游戏和金融等领域。
成果	图像识别、NLP、预测建模	更复杂任务：对象识别、图像生成、语音识别，自动驾驶，自然语言处理及推荐推荐系统。

【文章解读】: Review of deep learning: concepts, CNN architectures, challenges, applications, future directions 2021

深度学习（DL）计算范式被认为是机器学习（ML）社区的黄金标准。而且，它已经逐渐成为ML领域中应用最广泛的计算方法。DL的好处之一是能够学习海量数据。在过去几年中，DL领域发展迅速，它已被广泛用于成功地解决了广泛的传统应用。更重要的是，DL在许多领域都超越了知名的ML技术，例如，网络安全、自然语言处理、生物信息学、机器人和控制以及医疗信息处理等。

通常，ML算法的有效性高度依赖于输入数据表示的完整性。已经表明，与较差的数据表示相比，合适的数据表示提供了更好的性能。因此，多年来ML的一个重要研究趋势是特征工程，它为众多的研究提供了信息。这种方法的目的是从原始数据中构造特征。此外，它是极其特定的领域，经常需要相当大的人力努力。相对而言，特征提取在整个DL算法中都是以自动的方式实现的。这鼓励研究人员使用尽可能少的人力和领域知识来提取判别特征。18]。这些算法具有多层数据表示架构，其中第一层提取低级特征，而最后一层提取高级特征。请注意，人工智能（AI）最初启发了这种类型的架构，它模拟了人脑中核心感觉区域中发生的过程。使用不同的场景，人脑可以自动提取数据表示。更具体地说，这个过程的输出是分类后的对象，而接收到的场景信息代表输入。这个过程模拟了人脑的工作方法。因此，它强调了DL的主要优势。

DL源自于传统的神经网络，但性能大大优于其前辈。此外，DL同时使用变换和图技术来构建多层学习模型。卷积神经网络(CNN)是DL网络中最流行和使用最多的一种。由于CNN的存在，DL现在非常流行。与前辈相比，CNN的主要优势在于它可以自动检测显著特征，而无需任何人类监督，这使得它成为最常用的。

本文统计时采用的关键词如下：The most keywords used for search criteria for this review paper are (“Deep Learning”), (“Machine Learning”), (“Convolution Neural Network”), (“Deep Learning” AND “Architectures”), ((“Deep Learning”) AND (“Image”) AND (“detection” OR “classification” OR “segmentation” OR “Localization”)), (“Deep Learning” AND “detection” OR “classification” OR “segmentation” OR “Localization”), (“Deep Learning” AND “CPU” OR “GPU” OR “FPGA”), (“Deep Learning” AND “Transfer Learning”), (“Deep Learning” AND “Imbalanced Data”), (“Deep Learning” AND “Interpretability of data”), (“Deep Learning” AND “Overfitting”), (“Deep Learning” AND “Underspecification”).

学ML时为何DL技术优先？

	传统ML	DL
工作步骤	预处理、特征提取、智能特征选择、学习和分类。此外，特征选择对ML技术的性能有很大影响。偏倚的特征选择可能导致类之间的错误区分。	为多个任务自动学习特征集。使学习和分类一步实现。简化了许多学习领域的改进，如图像超分辨率[34】、物体检测，以及图像识别。最近，在图像分类等任务上，DL的性能已经超过了人类的性能.
应用领域	人类专家不可用的情况。人类无法解释利用其专业知识（语言理解、医疗决策和语音识别）做出的决策的情况。问题解决方案随时间更新的情况（价格预测、股票偏好、天气预测和跟踪）。需要根据具体案例（个性化、生物识别）调整解决方案的案例。问题的规模非常大，超过了我们不足的推理能力（情感分析、将广告匹配到Facebook、计算网页排名）的情况。
为何优先DL方法	1.通用学习方法：由于DL具有在几乎所有应用程序域中执行的能力，因此它有时被称为通用学习。 2.鲁棒性：一般来说，在DL技术中不需要精确设计的功能。相反，优化后的特征是以与所考虑的任务相关的自动方式学习的。因此，获得了对输入数据通常变化的鲁棒性。 3.泛化：不同的数据类型或不同的应用程序可以使用相同的DL技术，这种方法通常被称为迁移学习（TL），在后一节中解释。此外，在数据不足的问题中，它是一种有用的方法。 4.可扩展性：DL具有高度的可扩展性。ResNet【37是由微软发明的，包含1202层，经常在超级计算规模上应用。劳伦斯利弗莫尔国家实验室（LLNL）是一家致力于网络演进框架的大型企业，也采用了类似的方法，在这种方法中，可以实现数千个节点。

DL方法介绍

		代表技术		特点
分类	unsupervised无监督	生成网络、降维、聚类技术	无标签数据集	这种技术使得在没有可用的标签数据（即不需要标签）的情况下实现学习过程成为可能。在这里，智能体学习发现输入数据中的未识别结构或关系所需的显著特征或内部表示。无监督学习的主要缺点是无法提供关于数据排序的准确信息，计算复杂。最流行的无监督学习方法之一是聚类
semi-supervised半监督	GANs、DRL、RNN（GRU、LSTM）	半标签数据集	这种技术的优点之一是最小化所需的标记数据量。另一方面，该技术的一个缺点是不相关的输入特征存在训练数据可能会提供错误的决策。文本文档分类器是半监督学习应用最流行的例子之一。由于难以获得大量带标签的文本文档，半监督学习非常适合文本文档分类任务。
supervised有监督	RNN（GRU、LSTM）、CNN、DNN	有标签的数据	主要优点是能够从先验知识收集数据或生成数据输出。然而，这种技术的缺点是，当训练集没有本应在类中的样本时，决策边界可能会过训练。总的来说，这种技术在学习方式上比其他技术更简单，性能很高。
DRL深度强化学习	强化学习在与环境的交互上运行，而以上三种监督学习在提供的样本数据上运行。对于解决一个任务，需要执行的强化学习类型的选择基于问题的空间或范围。例如，对于需要优化的参数较多的问题，DRL是最好的方法。相比之下，无导数强化学习是一种对于参数有限的问题表现良好的技术。强化学习的一些应用是商业战略规划和工业自动化的机器人。强化学习的主要缺点是参数可能会影响学习的速度。以下是使用强化学习的主要动机：帮助确定哪个操作在较长时间内产生最高奖励。帮助发现哪些情况需要采取行动。找出实现大额回报的最佳方法。强化学习还为学习智能体提供了一个奖励函数。强化学习不能在所有情况下使用，例如：如果有足够的数据可以使用监督学习技术解决这个问题。强化学习是计算量大且耗时的。特别是当工作空间很大的时候。

最著名的DL网络类型介绍：

	网络结构	擅长领域
RvNN	递归自动联想记忆（RAAM）是RvNN开发的主要灵感	在分层结构中实现预测，还可以利用组合向量对输出进行分类。Socher等[59]引入了RvNN架构，设计用于处理来自各种模态的输入。这些作者演示了两种对自然语言句子进行分类的应用：将每个句子拆分为单词和自然图像的情况，以及将每个图像拆分为不同感兴趣部分的情况。
RNNs递归神经网络	与传统网络不同，RNN使用网络中的顺序数据。由于数据序列中的嵌入结构提供了有价值的信息，因此该特性对于一系列不同的应用程序是基础的。	RNN主要应用在语音处理和NLP上下文领域。LSTM提供了到网络中的内存块的循环连接。每个内存块包含许多存储单元，这些存储单元具有存储网络的时间状态的能力。但是，后续CNN被认为比RNN更强大。与CNN相比，RNN包含更少的特征兼容性。
CNN	在DL领域，CNN是最著名也是最常用的算法。与前辈相比，CNN的主要优势在于它可以自动识别相关特征，无需任何人类监督。CNNs的结构灵感来自于人类和动物大脑中的神经元，类似于传统的神经网络。	在计算机视觉环境中，使用CNNs相对于其他传统神经网络的优势如下所示。 1.考虑CNN的主要原因是权重共享特性，它减少了可训练网络参数的数量，进而帮助网络增强泛化能力，避免过拟合。 2.同时学习特征提取层和分类层会使模型输出既高度组织，又高度依赖于提取的特征。 3.与其他神经网络相比，使用CNN实现大规模网络要容易得多。

详细介绍CNN的卷积原理（略）

本论文有数页篇幅介绍，此处略。和《pytorch深度学习与实践》里分步讲的卷积层、池化层、全连接层、正则化、优化器选择类似。原文还介绍了如何提高CNN性能的方法等。如新手可看该论文原文，增强交叉理解。

常用CNN架构（疑似重要、原paper有表格，可按图索骥，疑似为AI人员需构建的选模能力）

在过去10年中，已经提出了十几种CNN架构，如AlexNet、GoogLeNet、ResNet、DenseNet、HR等。研究这些架构的特征（如输入大小、深度和鲁棒性）是帮助研究人员为目标选择合适的架构的关键。

Model	Main finding	Depth	Dataset	Error rate	Input size	Year
AlexNet	Utilizes Dropout and ReLU	8	ImageNet	16.4	227×227×3	2012
NIN	New layer, called ‘mlpconv’, utilizes GAP	3	CIFAR-10, CIFAR-100, MNIST	10.41, 35.68, 0.45	32×32×3	2013
ZfNet	Visualization idea of middle layers	8	ImageNet	11.7	224×224×3	2014
VGG	Increased depth, small filter size	16, 19	ImageNet	7.3	224×224×3	2014
GoogLeNet	Increased depth,block concept, different filter size, concatenation concept	22	ImageNet	6.7	224×224×3	2015
Inception-V3	Utilizes small filtersize, better feature representation	48	ImageNet	3.5	229×229×3	2015
Highway	Presented the multipath concept	19, 32	CIFAR-10	7.76	32×32×3	2015
Inception-V4	Divided transform and integration concepts	70	ImageNet	3.08	229×229×3	2016
ResNet	Robust against overfitting due to symmetry mapping-based skip links	152	ImageNet	3.57	224×224×3	2016
Inception-ResNet-v2	Introduced the concept of residual links	164	ImageNet	3.52	229×229×3	2016
FractalNet	Introduced the concept of Drop-Path as regularization	40,80	CIFAR-10	4.60	32×32×3	2016
CIFAR-100	18.85
WideResNet	Decreased the depth and increased the width	28	CIFAR-10	3.89	32×32×3	2016
CIFAR-100	18.85
Xception	A depthwise convolutionfollowed by a pointwise convolution	71	ImageNet	0.055	229×229×3	2017
Residual attention neural network	Presented the attention technique	452	CIFAR-10, CIFAR-100	3.90, 20.4	40×40×3	2017
Squeeze-and-excitation networks	Modeled interdependencies between channels	152	ImageNet	2.25	229×229×3	2017
224×224×3
320×320×3
DenseNet	Blocks of layers; layers connected to each other	201	CIFAR-10, CIFAR-100,ImageNet	3.46, 17.18, 5.54	224×224×3	2017
Competitive squeeze and excitation network	Both residual and identity mappings utilized to rescale the channel	152	CIFAR-10	3.58	32×32×3	2018
CIFAR-100	18.47
MobileNet-v2	Inverted residual structure	53	ImageNet	–	224×224×3	2018
CapsuleNet	Pays attention to special relationships between features	3	MNIST	0.00855	28×28×1	2018
HRNetV2	High-resolution representations	–	ImageNet	5.4	224×224×3	2020

在该论文中介绍了Alexnet、NIN、ZefNet、VGG、GoogLeNet、HighwayNetwork、ResNet、Inception、DenseNet、ResNext、Pyramidal Net、Xception、RAN、CapsuleNet、HRNet的各自架构特点，每个有接近半页的介绍。

深度学习DL的挑战（局限性）和替代解决方案

挑战	问题	解决方法
训练数据	DL需要大量的数据来实现良好行为的性能模型	有三种建议的方法。 1，迁移学习，在从相似任务中收集它的数据集过来使用。或直接使用相似任务的预训练模型，并基于有限的原始数据对两层甚至一层的结束进行微调。 3，数据增强，包括对原始图像的平移、镜像和旋转，不会改变图像标签。 3，创造模拟器，模拟制造数据。
数据不平衡	生物学数据往往是不平衡的，因为负样本比正样本多得多。当使用不平衡数据训练DL模型时，可能会产生不期望的结果。	以下技术用于解决此问题。一，采用正确的评估损失的标准，以及预测结果。在考虑不平衡数据时，模型应该在小类和大类上表现良好。因此，模型应使用曲线下面积（AUC）作为合成损失以及标准[165 二，使用加权交叉熵损失，这可以确保模型在小类上表现良好。三、如果仍坚持使用交叉熵损失，在模型训练期间，可以对大类进行下采样，也可以对小类进行上采样。最后，使数据平衡。四、可以为每个层次构建模型，因为生物系统通常具有层次标签空间。然而，不平衡数据对DL模型性能的影响已经得到了全面的研究。此外，为了减少这个问题，还对最常用的技术进行了比较。
数据的可解释性	DL技术被分析为充当黑盒。	需要一种解释DL的方法，用于获得网络识别的有价值的基序和模式。为了实现这一点，可以为特定示例的每个部分给出一个重要程度的分数。在这个解决方案中，使用了基于反向传播的技术或基于扰动的方法。169]。在基于扰动的方法中，输入的一部分被改变，并观察到这种改变对模型输出的影响[170，171，172，173]，这个概念的计算复杂度较高，但理解起来比较简单。另一方面，为了检查各种输入部分的重要性，在基于反向传播的技术中，来自输出的信号传播回输入层。这些技术在[174]，在不同的场景下，不同的含义可以代表模型的可解释性。
不确定性缩放	通常，当使用DL技术实现预测时，最终预测标签并不是唯一需要的标签，还需要模型的每个查询的置信度分数。	因为过度自信的预测可能是不同DL模型的输出，所以概率的分数（从direct-DL的softmax输出得到）往往不在正确的尺度[178]。请注意，softmax输出需要后缩放以获得可靠的概率分数。为了以正确的尺度输出概率分数，已经引入了几种技术，包括贝叶斯Binning into Quantiles(Bayesian Binning in Quantiles)179]，等渗回归[180]，直方图分箱[181】，以及传说中的普拉特鳞片【182]。更具体地说，对于DL技术，最近引入了温度缩放，与其他技术相比，它实现了更优的性能。
灾难性的遗忘	不断地收集和更新数据是许多领域（例如生物学）中非常典型的场景。然而学习“新知识”会干扰忘了“旧知识”	方案一（不推荐）：它涉及使用新旧数据从零开始训练一个全新的模型。这种解决方案是耗时和计算密集型的；此外，它导致初始数据的学习表示处于不稳定状态。方案二：有三种不同类型的ML技术，它们没有灾难性的遗忘，以解决建立在神经生理学理论基础上的人脑问题。185， 186]。第一类技术建立在正则化的基础上，如EWC [183]第二类技术采用预演训练技术和动态神经网络架构，如iCaRL [187， 188]。最后，第三类技术建立在双记忆学习系统上[189】
模型压缩	DL模型由于其巨大的复杂性和大量的参数而具有高的内存和计算要求。在很多地方部署困难。	最近引入了许多压缩DL模型的技术，这些技术旨在从起点上减少模型的计算问题。这些技术可以分为四类。一，参数剪枝，是著名的深度压缩方法，减少冗余参数（对模型性能影响不大）[200]。二、知识蒸馏，较大的模型使用其蒸馏的知识来训练一个更紧凑的模型[201， 202]。三、使用紧凑的卷积滤波器来减少参数数量[203]。四、使用低秩因子分解估计信息参数以保留[204]。对于模型压缩，以上四类代表了最具代表性的技术。在[193]，对该主题进行了更全面的讨论。
过拟合	DL模型在训练阶段有很高的可能性导致数据过拟合，因为涉及的参数非常多，这些参数之间的关联方式很复杂。	对缓解过拟合问题的可用DL算法的研究可以将其分为三类。第一类作用于模型架构和模型参数，包括最熟悉的方法，如权重衰减[209]，批量归一化[210]，而dropout [90]。在DL中，默认的技术是权重衰减[209]，它作为通用正则化器被广泛用于几乎所有的ML算法中。第二类工作于模型输入，例如数据损坏和数据增强[150， 211].过拟合问题的一个原因是缺少训练数据，这使得学习到的分布不能反映真实的分布。数据增广会放大训练数据。与之相比，边缘数据损坏的解决方案只限于数据的扩展。最终类在模型输出上工作。第三类是最近提出的一种技术可以惩罚过度自信的输出来正则化模型[178]。这种技术已经证明了对RNN和CNN进行正则化的能力。
消失梯度问题	在每次训练迭代中，神经网络的每个权重都会基于当前权重进行更新，并且与误差函数的偏导数成正比。然而，由于梯度非常小，这种权重更新在某些情况下可能不会发生，在最坏的情况下，这意味着不可能进行额外的训练，神经网络将完全停止。	一、通过使用激活函数可以避免这样的问题。这些函数缺乏挤压特性，即能够将输入空间挤压到很小的空间内。通过将X映射到max,ReLU[91]是最流行的选择，因为它不会产生一个在字段中使用的小导数。二、使用批量归一化层[81]，如前所述，一旦一个大的输入空间被挤入一个小的空间，导致导数消失，问题就会发生。使用批量归一化通过简单地归一化输入（即表达式\|）而降低了这个问题。x\|不会完成sigmoid函数的外部边界。归一化过程使它的最大部分落在绿色区域，这确保导数足够大以进行进一步的操作。三、此外，更快的硬件可以解决前面的问题，例如GPU提供的问题。与识别消失梯度问题所需的时间相比，这使得标准的反向传播可以用于网络的许多更深的层
爆炸梯度问题	在反向传播过程中积累了较大的误差梯度[216，217，218]。后者将导致网络权重的极大更新，这意味着系统变得不稳定。因此，模型将失去有效学习的能力。	在反向传播期间，在网络中向后移动，通过重复乘以梯度，梯度以指数形式增长。因此，权重值可能会变得非常大，并可能溢出成为非数字（NaN）值。一些潜在的解决方案包括： 1.使用不同的权重正则化技术。 2.重新设计网络模型的架构。
规格不足	underspecification 2020年，Google的一个计算机科学家团队发现了一个新的挑战，叫做“规格不足”。219在计算机视觉、医学影像、自然语言处理和医学基因组学等现实应用中测试时，包括DL模型在内的ML模型通常表现出令人惊讶的糟糕行为。业绩疲弱背后的原因是规格不足。已经表明，微小的修改可以迫使模型走向完全不同的解决方案，并导致部署域中的不同预测。	解决规格不足问题有不同的技术。其中之一是设计“压力测试”，以检查模型在真实世界数据上的效果，并找出可能存在的问题。然而，这需要可靠地理解模型可以不准确地工作的过程。该团队指出，“设计与应用要求完全匹配的压力测试，并提供对潜在故障模式的良好‘覆盖’是一个重大挑战”。规范不足给ML预测的可信度带来了重大限制，可能需要对某些应用程序进行一些重新考虑。由于ML通过服务于医疗成像和自动驾驶汽车等多个应用而与人类联系在一起，因此需要适当关注这个问题。

训练数据NOTE：

迁移学习：

TL的机制涉及使用大量数据训练CNN模型。在下一步中，对模型进行微调，以便在小型请求数据集上进行训练。

预训练模型及其数据集

很多CNN模型，例如AlexNet 、GoogleNet，以及ResNet，已经在大型数据集（如ImageNet）上训练，用于图像识别目的。然后，可以使用这些模型来识别不同的任务，而无需从头开始训练。此外，除了一些学习到的特征之外，权重保持不变。在缺乏数据样本的情况下，这些模型非常有用。使用预训练模型的原因有很多。首先，在相当大的数据集上训练大型模型需要高价的计算能力。其次，训练大型模型可能很耗时，需要长达数周的时间。最后，预训练的模型可以帮助网络泛化并加快收敛速度。

问题

如TL使用的源数据类型与目标数据集相比差异过大，如使用包含自然图像的ImageNet数据集训练模型来增强CNN模型的医学图像分类性能。这两种图像完全不同，其结果是从零训练和从预训练模型训练，模型性能差不多。因此，在某些情况下，使用预训练的模型并不是一种经济实惠的解决方案。

一些研究人员使用了同域TL(一种使用看起来与目标数据集相似的图像进行训练的方法,例如，使用不同胸部疾病的X线图像来训练模型，然后在胸部X线图像上对其进行微调和训练)用于COVID-19诊断,得到了不错结果。

数据增强技术：

如果目标是增加可用数据量并避免过拟合问题，则数据增强技术是一种可能的解决方案。

常用数据增强方法

1.翻转：翻转已经在ImageNet和CIFAR-10等数据集上被验证有价值。此外，它的实现非常简单。

2.颜色空间：在通道的颜色空间中实现增强是一种替代技术，这对于实现是非常可行的。例如，分离红色、绿色或蓝色的通道。或者，增加或减少图像亮度是通过使用简单的矩阵操作来轻松操作RGB值来实现的。或者，通过导出描述图像的颜色直方图，并调整直方图中的强度值，也可以实现光照变化等增强。

3.裁剪：可以使用随机裁剪来产生类似于平移。平移和随机裁剪之间的区别在于，平移保留了此图像的空间维度，而随机裁剪减少了输入大小

4.旋转：当围绕轴从0到360度左右旋转图像时，将获得旋转增强。在数字识别任务中，小的旋转（从0度到20度）非常有用。相比之下，当旋转度增加时，数据标签不能在变换后保留。

5.平移：为了避免图像数据中的位置偏差，一个非常有用的变换是将图像上移、下移、左移或右移。例如，通常将整个数据集图像居中；此外，测试数据集应该完全由居中图像组成，以测试模型。请注意，当在特定方向上平移初始图像时，残差空间应填充高斯或随机噪声，或一个常量值，如255 或0。使用此填充保留图像后增强的空间维度。

6.噪声注入：此方法涉及注入任意值的矩阵。这样的矩阵通常由高斯分布获得。Moreno-Barea等[160]使用了九个数据集来测试噪声注入。这些数据集取自UCI存储库[161.在图像中注入噪声使CNN能够学习到额外的鲁棒特征。

通过以上几个几何变换，可以获得训练数据中的位置偏差的高度良好的解决方案。但关于何时何地适合应用几何变换并不简单，需要熟练。

Note：以下来自Gemini回答

CNN和Transformer的区别

方面	CNN	Transformer
核心操作	卷积	注意力机制
优势	提取局部特征，平移不变性，处理高维数据	捕捉长距离依赖关系，并行计算能力强，处理任意长度的输入数据
适用领域	图像处理、时间序列分析	自然语言处理、图像处理、机器翻译

drive_spreadsheetExport to Sheets

CNN和Transformer的联系

CNN和Transformer都是深度学习模型，它们都具有以下共同点：

都由多个层组成：CNN和Transformer都由多个层组成，每一层都负责提取特定的特征。
都使用非线性激活函数：CNN和Transformer都使用非线性激活函数来提高模型的表达能力。

都使用反向传播算法进行训练：CNN和Transformer都使用反向传播算法进行训练，不断调整模型参数，提高模型的性能

深度学习的应用

目前，各种DL应用在世界各地都很广泛。这些应用包括医疗保健、社交网络分析、音频和语音处理（如识别和增强）、视觉数据处理方法（如多媒体数据分析和计算机视觉）以及NLP（翻译和句子分类）等。这些应用被分为五类：分类、定位、检测、分割和配准。尽管这些任务中的每一个都有自己的目标，但是这些应用程序的流水线实现中存在着基本的重叠。

		以医学为例
分类	一组数据分类为类的概念	计算机辅助诊断病理图。
定位	定位是用于定位对象的概念，对象被单个边界框包围。	对病人的器官定位。
检测	检测用于在图像中定位感兴趣的对象，同时考虑背景。在检测中，多个对象（可能来自不同的类）被边界框包围。	检测肺炎、皮肤病变、细胞等。解决在医学图像中，标签不足问题。
分割	在分割（语义分割）中，目标对象边缘被轮廓包围，轮廓也会对它们进行标记	在立体CT图中把器官完整分割出来等。
配准	将单个图像（可能是2D或3D）拟合到另一个图像上	将病患2D或3D特征图匹配到医学标准解剖图中，以便辅助分析。

计算方法


CPU	CPU节点的良好性能通常有助于强大的网络连接、存储能力和大内存。尽管CPU节点比FPGA或GPU节点更通用，但它们缺乏在未处理计算设施中匹配它们的能力，因为这需要增加网络能力和更大的内存容量。
GPU	GPU对于一些基本的DL原语非常有效，这些原语包括激活函数、矩阵乘法和卷积等非常并行的运算。GPU性能相对于CPU性能的提升通常为10-20:1，这与密集线性代数运算有关。
FPGA	FPGA被广泛用于各种任务，包括深度学习[199， 247， 331，332，333，334]。推理加速器通常使用FPGA实现。FPGA可以被有效地配置，以减少GPU系统中涉及的不必要或开销功能。与GPU相比，FPGA受限于弱浮点性能和整数推理。FPGA的主要方面是动态重新配置阵列特性（在运行时）的能力，以及通过有效的设计来配置阵列的能力，而开销很少或没有。

以下为在不同角度，CPU、GPU和FPGA的各自长处：

Feature	Assessment	Leader
Development	CPU is the easiest to program, then GPU, then FPGA	CPU
Size	Both FPGA and CPU have smaller volume solutions due to their lower power consumption	FPGA-CPU
Customization	Broader flexibility is provided by FPGA	FPGA
Ease of change	Easier way to vary application functionality is provided by GPU and CPU	GPU-CPU
Backward compatibility	Transferring RTL to novel FPGA requires additional work. Furthermore, GPU has less stable architecture than CPU	CPU
Interfaces	Several varieties of interfaces can be implemented using FPGA	FPGA
Processing/$	FPGA configurability assists utilization in wider acceleration space. Due to the considerable processing abilities, GPU wins	FPGA-GPU
Processing/watt	Customized designs can be optimized	FPGA
Timing latency	Implemented FPGA algorithm offers deterministic timing, which is in turn much faster than GPU	FPGA
Large data analysis	FPGA performs well for inline processing, while CPU supports storage capabilities and largest memory	FPGA-CPU
DCNN inference	FPGA has lower latency and can be customized	FPGA
DCNN training	Greater float-point capabilities provided by GPU	GPU

评估指标


准确率	计算正确预测的类与评估的样本总数的比值（等式）
灵敏度或召回（recall）	用于计算正确分类的正模式的分数（等式）。
特异性：	用于计算正确分类的负模式的分数（等式）。
精度：	用于计算正类中所有预测模式都正确预测的正模式。
F1-Score	计算召回率和准确率之间的调和平均值
J评分	该指标也称为Youdens J统计量。
误报率（FPR）	该指标是指在等式中计算的误报率的可能
ROC曲线下面积	AUC是常见的排名类型指标。它用于进行学习算法之间的比较[336，337，338]，以及构建最优学习模型[339， 340与概率和阈值度量相比，AUC值暴露了整个分类器的排序性能。

框架和数据集

在过去几年中，已经开发了几个DL框架和数据集。为了加快工作速度，也使用了各种框架和库，并取得了良好的结果。通过使用它们，训练过程变得更加容易。框架有Tensorflow、Pytorch等，可根据自己情况选择一个最常用即可。

此外，还有其他几个用于不同DL任务的基准数据集。其中一些列于下：

Dataset	Num. of classes	Applications	Link to dataset
ImageNet	1000	Image classification, object localization, object detection, etc.	ImageNet
CIFAR10/100	10/100	Image classification	https://www.cs.toronto.edu/~kriz/cifar.html
MNIST	10	Classification of handwritten digits	MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
Pascal VOC	20	Image classification, segmentation, object detection	The PASCAL Visual Object Classes Challenge 2012 (VOC2012)
Microsoft COCO	80	Object detection, semantic segmentation	COCO - Common Objects in Context
YFCC100M	8M	Video and image understanding	unikl.de
YouTube-8M	4716	Video classification	https://research.google.com/youtube8m/
UCF-101	101	Human action detection	CRCV \| Center for Research in Computer Vision at the University of Central Florida
Kinetics	400	Human action detection	Google DeepMind
Google Open Images	350	Image classification, segmentation, object detection	Open Images V7
CalTech101	101	Classification	http://www.vision.caltech.edu/Image_Datasets/Caltech101/
Labeled Faces in the Wild	–	Face recognition	http://vis-www.cs.umass.edu/lfw/
MIT-67 scene dataset	67	Indoor scene recognition	http://web.mit.edu/torralba/www/indoor.htm

总结和结论：

最后，通过收集这项广泛研究提供的所有相关数据，必须包含一个简短的讨论。接下来，将进行逐项分析，以便总结我们的回顾并展示未来的方向。

DL在同时对数据的多个复杂形态建模方面已经遇到了困难。在最近的DL开发中，另一种常见的方法是多模态DL。
DL需要大量的数据集（首选有标签的数据）来预测未知的数据并训练模型。当需要实时数据处理或提供的数据集有限时（例如在医疗数据的情况下），这一挑战变得特别困难。为了缓解这个问题，在过去的几年里，人们对TL和数据增强进行了研究。
尽管ML慢慢过渡到半监督和无监督学习来管理实际数据，而不需要人工标注，但当前的许多深度学习模型都使用了监督学习。
CNN的性能受超参数选择的影响很大。超参数值的任何微小变化都会影响CNN的整体性能。因此，仔细选择参数是优化方案制定过程中应该考虑的一个极其重要的问题。
有效的CNN训练需要GPU等强大的硬件资源。此外，它们也是探索在智能和嵌入式系统中使用CNN的效率所必需的。
在CNN背景下，集成学习[342， 343]代表了一个有前景的研究领域。不同和多个架构的集合将通过提取多个层次的语义图像表示来支持模型提高其跨不同图像类别的泛化能力。类似地，新的激活函数、dropout和批处理规范化等思想也值得进一步研究。
在CNN的学习能力方面，深度和不同的结构适应能力得到了显著提升。用块代替传统的层配置会导致CNN性能的显著提高，这在最近的文献中已经显示。目前，开发新的、高效的块架构是CNN架构新研究模型的主要趋势。HRNet只是一个例子，它表明总有改进架构的方法。
预计基于云的平台将在未来计算DL应用的发展中发挥至关重要的作用。利用云计算为处理海量数据提供了解决方案。也有助于提高效率和降低成本。此外，它还提供了训练DL架构的灵活性。
随着计算工具（包括用于神经网络的芯片和移动GPU）的最近发展，我们将在移动设备上看到更多DL应用程序。用户使用DL会更方便。
关于缺乏训练数据的问题，预计将考虑各种迁移学习的技术，例如在大型未标记图像数据集上训练DL模型，然后将知识转移到同一任务的少量已标记图像上训练DL模型。
最后，本概述为对DL领域感兴趣的DL社区提供了一个起点。此外，研究人员将被允许决定更适合的工作方向，以便为该领域提供更准确的替代方案。

todo：待查CNN和Transformer的对比综述性文章，最新的。

【敬请期待】2024 A comprehensive survey on applications of transformers for deep learning tasks

【敬请期待】2023 Artificial intelligence, machine learning and deep learning in advanced robotics, a review

【敬请期待】 2019Deep Learning for Single Image Super-Resolution: A Brief Review 图像的超分辨率