2023深度学习基础知识题库大全.docx

资源描述

《2023深度学习基础知识题库大全.docx》由会员分享，可在线阅读，更多相关《2023深度学习基础知识题库大全.docx（30页珍藏版）》请在课桌文档上搜索。

1、2023深度学习基础知识题库大全1.梯度下降算法的正确步骤是什么？a.计算预测值和真实值之间的误差b.重复迭代，直至得到网络权重的最佳值C,把输入传入网络，得到输出值d.用随机值初始化权重和偏差e.对每一产生误差的神经元，调整相应的（权重）值以减小误差A.abcdeB.edcbaC.cbaedD.dcaeb解析：正确答案D,考查知识点-深度学习。2、已知：- 大脑是有很多个叫做神经元的东西构成，神经网络是对大脑的简单的数学表达。- 每一个神经元都有输入、处理函数和输出。- 神经元组合起来形成了网络，可以拟合任何函数。- 为了得到最佳的神经网络，我们用梯度下降方法不断更新模型给定上述关于神经网络

2、的描述，什么情况下神经网络模型被称为深度学习模型？A.加入更多层，使神经网络的深度增加B.有维度更高的数据C.当这是一个图形识别的问题时D.以上都不正确解析：正确答案A,更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型，目前如果有超过2层的隐层，那么也可以及叫做深度模型。3、训练CNN时，可以对输入进行旋转、平移、缩放（增强数据）等预处理提高模型泛化能力。这么说是对，还是不对？A.对B.不对解析：对。如寒sir所说，训练CNN时，可以进行这些操作。当然也不一定是必须的，只是dataaugmentation扩充数据后，模型有更多数据训练，泛化能力可能会变强。4、下面哪项操作能实现跟神

3、经网络中Dropout的类似效果？A.BoostingB.BaggingC.StackingD.Mapping解析：正确答案BoDropout可以认为是一种极端的Bagging,每一个模型都在单独的数据上训练，同时,通过和其他模型对应参数的共享,从而实现模型参数的高度正则化。5、下列哪一项在神经网络中引入了非线性？A随机梯度下降B,修正线性单元(ReLU)C.卷积函数D.以上都不正确解析：正确答案Bo修正线性单元是非线性的激活函数。6 .深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，现在需要计算三个稠密矩阵AzBzC的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p

4、,p*q,且mnpq,以下计算顺序效率最高的是()As(AB)CB、AC(B)C、A(BC)D、所以效率都相同正确答案是：A首先，根据简单的矩阵知识，因为A*B,A的列数必须和B的行数相等。因此，可以排除B选项，然后，再看A、C选项。在A选项中，m*n的矩阵A和n*p的矩阵B的乘积，得到m*p的矩阵A*B,而A*B的每个元素需要n次乘法和n-1次加法,忽略加法,共需要m*n*p次乘法运算。同样情况分析A*B之后再乘以C时的情况,共需要m*p*q次乘法运算。因此，A选项(AB)C需要的乘法次数是m*n*p+m*p*q。同理分析，C选项A(BC)需要的乘法次数是n*p*q+m*n*q07 .输入图

5、片大小为200200,依次经过一层卷积(kernelsize55,padding1,stride2)zpooling(kernelsize33zpadding0,stride1),又一层卷积(kernelsize33,padding1,stride1)之后，输出特征图大小为A、95B、96U97D、98正确答案是：C首先我们应该知道卷积或者池化后大小的计算公式，其中，padding指的是向外扩展的边缘大小，而stride则是步长，即每次移动的长度。这样一来就容易多了，首先长宽一般大，所以我们只需要计算一个维度即可,这样,经过第一次卷积后的大小为：本题(200-5+2*1)/21为99.5,取9

6、9;经过第一次池化后的大小为：(99-3)/1+197;经过第二次卷积后的大小为：(97-3+2*1)/1+1为978 .神经网络模型(NeuralNetwork)因受人类大脑的启发而得名神经网络由许多神经元(Neuron)组成，每个神经元接受一个输入，对输入进行处理后给出一个输出，如下图所示。请问下列关于神经元的描述中，哪一项是正确的？A、每个神经元可以有一个输入和一个输出B、每个神经元可以有多个输入和一个输出C、每个神经元可以有一个输入和多个输出D、每个神经元可以有多个输入和多个输出E、上述都正确正确答案是：E答案：(E)每个神经元可以有一个或多个输入，和一个或多个输出。9 .如果我们用了

7、一个过大的学习速率会发生什么？A、神经网络会收敛B、不好说C、都不对D、神经网络不会收敛正确答案是：D学习率过大，会使得迭代时，越过最低点。10 .在一个神经网络中，下面哪种方法可以用来处理过拟合？A、DropoutB、分批归一化(BatChNormalization)C、正则化(regularization)D、都可以正确答案是：D解析：都可以。对于选项Cz分批归一化处理过拟合的原理，是因为同一个数据在不同批中被归一化后的值会有差别，相当于做了dataaugmentatioo11 .批规范化(BatChNOrmaliZation)的好处都有啥？A、让每一层的输入的范围都大致固定B、它将权重的

8、归一化平均值和标准差U它是一种非常有效的反向传播(BP)方法D、这些均不是正确答案是：A12 .下列哪个神经网络结构会发生权重共享？A、卷积神经网络B、循环神经网络C、全连接神经网络D、选项A和B正确答案是：D13 .下列哪个函数不可以做激活函数？A、y=tanh(x)B、y=sin(x)C、y=max(xzO)Dsy=2x正确答案是：D解析:线性函数不能作为激活函数。14 .假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法，比如说主成分分析法(PCA)来替代这个隐藏层。那么，这两者的输出效果是一样的吗？A、是B、否正确答案是：B解析

9、：PCA提取的是数据分布方差比较大的方向，隐藏层可以提取有预测能力的特征15 .下图显示了训练过的3层卷积神经网络准确度，与参数数量(特征核的数量)的关系。从图中趋势可见，如果增加神经网络的宽度，精确度会增加到一个特定阈值后，便开始降低。造成这一现象的可能原因是什么？A、即使增加卷积核的数量，只有少部分的核会被用作预测B、当卷积核数量增加时，神经网络的预测能力(Power)会降低C、当卷积核数量增加时，导致过拟合D、以上都不正确正确答案是：C解析：网络规模过大时，就可能学到数据中的噪声，导致过拟合16 .假设你需要调整超参数来最小化代价函数(costfunction),会使用下列哪项技术？A、

10、穷举搜索B、随机搜索C、BayeSian优化D、都可以正确答案是：D17 .在感知机中(Perceptron)的任务顺序是什么？1、随机初始化感知机的权重2、去到数据集的下一批(batch)3、如果预测值和输出不一致，则调整权重4、对一个输入样本，计算输出值A、I12l3z4B、4,3,2,1C、3,L2,4D、L4,3,2正确答案是：D18 .构建一个神经网络，将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接？A、循环神经网络B、卷积神经网络U限制玻尔兹曼机D、都不是正确答案是：A19 .如果增加多层感知机(MultilayerPerceptron)的隐藏层层数，分类误差便会减小。这

11、种陈述正确还是错误？A、正确B、错误正确答案是：B解析：并不总是正确。层数增加可能导致过拟合，从而可能引起错误增加。20 .下列哪项关于模型能力(modelcapacity)的描述是正确的？(指神经网络模型能拟合复杂函数的能力)A、隐藏层层数增加，模型能力增加B、Dropout的比例增加，模型能力增加C、学习率增加，模型能力增加D、都不正确正确答案是：A解析：A是对的，其它选项不确定21 .在训练神经网络时，损失函数(I。SS)在最初的几个epochs时没有下降，可能的原因是？A、学习率(Iearningrate)太低B、正则参数太高C、陷入局部最小值D、以上都有可能正确答案是：D22 .深度

12、学习与机器学习算法之间的区别在于,后者过程中无需进行特征提取工作，也就是说，我们建议在进行深度学习过程之前要首先完成特征提取的工作。这种说法是：A、正确的B、错误的正确答案是：B解析：正好相反，深度学习可以自行完成特征提取过程而机器学习需要人工来处理特征内容。23 .下列哪一项属于特征学习算法(representationlearningalgorithm)?A、K近邻算法B、随机森林U神经网络D、都不属于正确答案是：C解析：神经网络会将数据转化为更适合解决目标问题的形式，我们把这种过程叫做特征学习。24 .提升卷积核(ConVOIUtionalkernel)的大小会显著提升卷积神经网络的性能

13、，这种说法是A、正确的B、错误的正确答案是：B解析：卷积核的大小是一个超参数(hyperparameter),也就意味着改变它既有可能提高亦有可能降低模型的表现。25 .阅读以下文字：假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置。A、除去神经网络中的最后一层，冻结所有层然后重新训练B、对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归层C、使用新的数据

14、集重新训练模型D、所有答案均不对正确答案是：B26 .假设你有5个大小为7x7、边界值为O的卷积核，同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是多少？A、218x218x5Bx217x217x8C、 217x217x3D、 220x220x5正确答案是：A27段iSJfe们有一个使用ReLU激活函数(ReLUactivationfunction)的神经网络，假如我们把ReLU激活替换为线性激活，那么这个神经网络能够模拟出同或函数(XNORfunction)D?A、可以B、不好说U不一定D、不能正确答案是：D解

15、析：使用ReLU激活函数的神经网络是能够模拟出同或函数的。但如果ReLU激活函数被线性函数所替代之后，神经网络将失去模拟非线性函数的能力。28 .下列的哪种方法可以用来降低深度学习模型的过拟合问题？1增加更多的数据2使用数据扩增技术(dataaugmentation)3使用归纳性更好的架构4正规化数据5降低架构的复杂度As145Bx123C、1345D、所有项目都有用正确答案是：D解析：上面所有的技术都会对降低过拟合有所帮助29 .下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的？A、第一隐藏层对应D,

16、第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应AB、第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应DC、第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应DD、第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A正确答案是：A解析：由于反向传播算法进入起始层，学习能力降低，这就是梯度消失。换言之，梯度消失是梯度在前向传播中逐渐减为Oz按照图标题所说，四条曲线是4个隐藏层的学习曲线，那么第一层梯度最高（损失函数曲线下降明显），最后一层梯度几乎为零（损失函数曲线变成平直线）.所以D是第一层,A是最后一层。30 .考虑某个具体问题时，你可

17、能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络？A、把除了最后一层外所有的层都冻结，重新训练最后一层B、对新数据重新训练整个模型C、只对最后几层进行调参（finetune）D、对每一层模型进行评估，选择其中的少数来用正确答案是：C解析：如果有个预先训练好的神经网络，就相当于网络各参数有个很靠谱的先验代替随机初始化.若新的少量数据来自于先前训练数据（或者先前训练数据量很好地描述了数据分布，而新数据采样自完全相同的分布）,则冻结前面所有层而重新训练最后一层即可；但一般情况下,新数据分布跟先前训练集分布有所偏差，所以先

18、验网络不足以完全拟合新数据时,可以冻结大部分前层网络，只对最后几层进行训练调参（这也称之为finetune）o31 .在选择神经网络的深度时，下面哪些参数需要考虑？1神经网络的类型（如MLPzCNN）2输入数据3计算能力（硬件和软件能力决定）4学习速率5映射的输出函数A、124,5B、234,5C、都需要考虑D、1,3,4,5正确答案是：C解析：所有上述因素对于选择神经网络模型的深度都是重要的。特征抽取所需分层越多，输入数据维度越高，映射的输出函数非线性越复杂，所需深度就越深.另外为了达到最佳效果，增加深度所带来的参数量增加，也需要考虑硬件计算能力和学习速率以设计合理的训练时间。32 .当数据

19、过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效？A、随机梯度下降法(StoChaStiCGradientDescent)B、不知道C、整批梯度下降法(FUIlBatchGradientDescent)D、都不是正确答案是：A解析：梯度下降法分随机梯度下降（每次用一个样本）、小批量梯度下降法（每次用一小批样本算出总损失，因而反向传播的梯度折中）、全批量梯度下降法则一次性使用全部样本。这三个方法，对于全体样本的损失函数曲面来说，梯度指向一个比一个准确.但是在工程应用中,受到内存/磁盘I。的吞吐性能制约，若要最小化梯度下降的实际运算时间，需要在梯度方向准确性和数据传输性能之间取得最好的

20、平衡.所以，对于数据过大以至于无法在RAM中同时处理时，RAM每次只能装一个样本，那么只能选随机梯度下降法。33 .当在卷积神经网络中加入RAM（POOlingIayer）时，变换的不变性会被保留，是吗？A、不知道B、看情况C、是D、否正确答案是：C解析:池化算法比如取最大值/取平均值等，都是输入数据旋转后结果不变,所以多层叠加后也有这种不变性。34、基于二次准则函数的HK算法较之于感知器算法的优点是()？A、计算量小B、可以判别问题是否线性可分C、其解完全适用于非线性可分的情况正确答案是：B解析：HK算法思想很朴实,就是在最小均方误差准则下求得权矢量.他相对于感知器算法的优点在于,他适用于线

21、性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。来源：刘炫320,链接：A、搜索每个可能的权重和偏差组合，直到得到最佳值B、赋予一个初始值，然后检查跟最佳值的差值,不断迭代调整权重C、随机赋值，听天由命D、以上都不正确的正确答案是：B解析：答案：（B）选项B是对梯度下降的描述。36、神经网络模型（NeuralNetwork）因受人类大脑的启发而得名神经网络由许多神经元（Neuron）组成，每个神经元接受一个输入，对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中，哪一项是正确的？37 .下图所示的网络用于训练识

22、别字符H和T,如下所示A、B、C、D、可能是A或B,取决于神经网络的权重设置正确答案是：D解析：不知道神经网络的权重和偏差是什么，则无法判定它将会给出什么样的输出。38 .在下面哪种情况下，一阶梯度下降不一定正确工作（可能会卡住）？A、B、c、正确答案是：B解析：这是鞍点(SaddlePoint)的梯度下降的经典例子。另，本题来源于:39 .混沌度(PerPIeXity)是一种常见的应用在使用深度学习处理NLP问题过程中的评估技术，关于混沌度，哪种说法是正确的？A、混沌度没什么影响B、混沌度越低越好C、混沌度越高越好D、混沌度对于结果的影响不一定正确答案是：B40 .线性方程(y=m+c)可以

23、说是一种神经元吗？A无可奉告C是D一派胡言正确答案是：C41 .使用两个简单的输入hl和h2,最终的等式是A.(hlANDNOTh2)OR(NOThlANDh2)B.(hlORNOTh2)AND(NOThlORh2)C.(hlANDh2)OR(hlORh2)D.Noneofthese答案：（八）42 .卷积神经网络可以对一个输入完成不同种类的变换(旋转或缩放)，这个表述正确吗？A正确B错误答案：(B)数据预处理(也就是旋转、缩放)步骤在把数据传入神经网络之前是必要的，神经网络自己不能完成这些变换。43 .训练神经网络过程中，损失函数在一些时期（Epoch）不再减小，原因可能是：1 .学习率（L

24、earningrate）太低2.正则参数太大3.卡在了局部最小值哪些是可能的原因？A.1and2B.2and3C.1and3D.都不是答案：（D）以上原因都可能造成这个结果。44 .训练好的三层卷积神经网络的精确度（Accuracy）vs参数数量（比如特征核的数量）的图示如下；从图中趋势可见，如果增加神经网络的宽度，精确度会增加到一个阈值，然后开始降低。这一现象的可能是什么原因是造成的？A即便核数量（numberofkernels）增加，只有一部分核被用于预测B当核数量增加，神经网络的预测功效（Power）降低C当核数量增加，其相关性增加，导致过拟合D以上都不正确答案：（C）如C选项指出的那样

25、，可能的原因是核之间的相关性。45 .使用降维技术的网络与隐层网络总是有相同的输出吗？答案：（B）因为PCA用于相关特征而隐层用于有预测能力的特征46 .可以用神经网络对函数（y=lx）建模吗？A.是B,否答案：（八）选项A是正确的，因为激活函数可以是互反函数47 .我们不是想要绝对零误差,而是设置一个称为贝叶斯（bayes）误差（我们希望实现的误差）的度量。使用贝叶斯（bayes）误差的原因是什么？A.输入变量可能不包含有关输出变量的完整信息B.系统（创建输入-输出映射）可以是随机的C.有限的训练数据D.所有答案：（D）想在现实中实现准确的预测，是一个神话，所以我们的希望应该放在实现一个可实

26、现的结果上。48 .在监督学习任务中，输出层中的神经元的数量应该与类的数量（其中类的数量大于2）匹配。对或错？A.正确B.错误答案：（B）它取决于输出编码。如果是独热编码（One-hotencoding）则正确。但是你可以有两个输出囊括四个类，并用二进制值表示出来（00,01,10,11）o49 .Y=ax2+bx+c（二次多项式）这个方程可以用具有线性阈值的单个隐层的神经网络表示吗？A.是B.否答案：（B）答案为否。因为简单来说，有一个线性阈值限制神经网络就会使它成为一个相应的线性变换函数。50神经网络中的死神经元(deadunit)是什么？A在训练任何其它相邻单元时，不会更新的单元B.没有

27、完全响应任何训练模式的单元C.产生最大平方误差的单元D.以上均不符合答案：（八）51 .假设在ImageNet数据集(对象识Sll数据集)上训练卷积神经网络。然后给这个训练模型一个完全白色的图像作为输入。这个输入的输出概率对于所有类都是相等的。对或错？A.正确B.错误答案：(B)将存在一些不为白色像素激活的神经元作为输入，所以类不会相等。52 .当数据太大而不能同时在RAM中处理时，哪种梯度技术更有优势？A.全批量梯度下降(FUIlBatchGradientDescent)B随机梯度下降(StOChaStiCGradientDescent)答案:(B)53 .从上往下ABCD,下列哪项正确？A

28、.隐藏层1对应于D,隐藏层2对应于C,隐藏层3对应于B,隐藏层4对应于AB.隐藏层1对应于A,隐藏层2对应于B,隐藏层3对应于C,隐藏层4对应于D答案：（八）这是对消失梯度描述的问题。由于反向传播算法进入起始层，学习能力降低。54 .对于分类任务，我们不是将神经网络中的随机权重初始化,而是将所有权重设为零。下列哪项是正确的？A.没有任可问题，神经网络模型将正常训练B.神经网络模型可以训练，但所有的神经元最终将识别同样的事情C.神经网络模型不会进行训练，因为没有净梯度变化D.这些均不会发生答案：（B）55 .开始时有一个停滞期，这是因为神经网络在进入全局最小值之前陷入局部最小值。为了避免这种情况

29、，下面的哪个策略有效？A.增加参数的数量，因为网络不会卡在局部最小值处B.在开始时把学习率降低10倍，然后使用梯度下降加速算子(momentum)C.抖动学习速率，即改变几个时期的学习速率D.以上均不是答案：(C)选项C可以将陷于局部最小值的神经网络提取出来。56 .假设在训练时，你遇到这个问题。在几次迭代后，错误突然增加。您确定数据一定有问题。您将数据描绘出来,找到了原始数据有点偏离,这可能是导致出现问题的地方。你将如何应对这个挑战？A归一化B.应用PCA然后归一化C.对数据进行对数变换D.以上这些都不符合答案：(B)首先您将相关的健去掉，然后将其置零。57 .影响神经网络的深度选择的因素：

30、神经网络的类型例如多层感知机(MUIti-LayerPerCePtrOns,MLP),卷积神经网络(CC)nvolutionalNeuralNetworks,CNN)o输入数据。计算能力，即硬件和软件能力。学习率。输出函数映射。31增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？否(要考虑数据集)32.感知机的正确顺序1.随机初始化感知机权重2 .进入下一批数据集3 .如果预测与输出不符，则调整权重4 .对于采样输入，计算输出怎样的顺序是正确的？L4,3,232、下面哪个描述可以最好的描述earlystopping?AA在每一个训练epoch后在测试集上模拟网络，当归一化误差(generalizationerror)减小时停止训练B一种更快的后向传播方式，像是“QUiCkPrOP”算法C在权重值更新时上加一个动量项(momentumterm),使训练能够更快地收敛D训练网络知道误差函数出现一个局部最小值

展开阅读全文