深度学习笔试100题

深度学习笔试100题

2023年7月17日发(作者:)

深度学习笔试100题⽂章⽬录⽂章⽬录:这个图⽚不能够显⽰,因为我的图床是在github上的,很烦,所以我把这个⽂档导出成pdf中了,你们可以直接在我上传的⽂档资源中找到,下载1、梯度下降算法的正确步骤是什么?1.计算预测值和真实值之间的误差2.重复迭代,直⾄得到⽹络权重的最佳值3.把输⼊传⼊⽹络,得到输出值4.⽤随机值初始化权重和偏差5.对每⼀个产⽣误差的神经元,调整相应的(权重)值以减⼩误差A、1, 2, 3, 4, 5B、5, 4, 3, 2, 1C、3, 2, 1, 5, 4D、4, 3, 1, 5, 2答案:D解析:2、已知:⼤脑是有很多个叫做神经元的东西构成,神经⽹络是对⼤脑的简单的数学表达。每⼀个神经元都有输⼊、处理函数和输出。神经元组合起来形成了⽹络,可以拟合任何函数。为了得到最佳的神经⽹络,我们⽤梯度下降⽅法不断更新模型给定上述关于神经⽹络的描述,什么情况下神经⽹络模型被称为深度学习模型?A、加⼊更多层,使神经⽹络的深度增加B、有维度更⾼的数据C、当这是⼀个图形识别的问题时D、以上都不正确答案:A解析:更多层意味着⽹络更深。没有严格的定义多少层的模型才叫深度模型,⽬前如果有超过2层的隐层,那么也可以及叫做深度模型。3、训练CNN时,可以对输⼊进⾏旋转、平移、缩放等预处理提⾼模型泛化能⼒。这么说是对,还是不对?A、对B、不对答案:A 这题选错解析:如寒sir所说,训练CNN时,可以进⾏这些操作。当然也不⼀定是必须的,只是data augmentation扩充数据后,模型有更多数据训练,泛化能⼒可能会变强。4、下⾯哪项操作能实现跟神经⽹络中Dropout的类似效果?A、BoostingB、BaggingC、StackingD、Mapping答案:B 这题选错解析:Dropout可以认为是⼀种极端的Bagging,每⼀个模型都在单独的数据上训练,同时,通过和其他模型对应参数的共享,从⽽实现模型参数的⾼度正则化。5、下列哪⼀项在神经⽹络中引⼊了⾮线性?A、随机梯度下降B、修正线性单元(ReLU)C、卷积函数D、以上都不正确答案:B解析:修正线性单元是⾮线性的激活函数。A、学习率(learning rate)太低B、正则参数太⾼C、陷⼊局部最⼩值D、以上都有可能答案:D解析:7、下列哪项关于模型能⼒(model capacity)的描述是正确的?(指神经⽹络模型能拟合复杂函数的能⼒)A、隐藏层层数增加,模型能⼒增加B、Dropout的⽐例增加,模型能⼒增加C、学习率增加,模型能⼒增加D、都不正确答案:A解析:8、如果增加多层感知机(Multilayer Perceptron)的隐藏层层数,分类误差便会减⼩。这种陈述正确还是错误?A、正确B、错误答案:B解析:并不总是正确。层数增加可能导致过拟合,从⽽可能引起错误增加。下列哪⼀种架构有反馈连接?A、循环神经⽹络B、卷积神经⽹络C、限制玻尔兹曼机D、都不是答案:A解析:10、在感知机中(Perceptron)的任务顺序是什么?1 随机初始化感知机的权重2 去到数据集的下⼀批(batch)3 如果预测值和输出不⼀致,则调整权重4 对⼀个输⼊样本,计算输出值A、1, 2, 3, 4B、4, 3, 2, 1C、3, 1, 2, 4D、1, 4, 3, 2答案:D解析:11、假设你需要调整超参数来最⼩化代价函数(cost function),会使⽤下列哪项技术?A、穷举搜索B、随机搜索C、Bayesian优化D、都可以答案:D 这题选错,选了C解析:答案:C解析:⽹络规模过⼤时,就可能学到数据中的噪声,导致过拟合答案: B解析:PCA 提取的是数据分布⽅差⽐较⼤的⽅向,隐藏层可以提取有预测能⼒的特征15、下列哪个函数不可以做激活函数?A、y = tanh(x)B、y = sin(x)C、y = max(x,0)D、y = 2x答案是:D 这题选错啦,选择了 B (激活函数⾮线性)解析:线性函数不能作为激活函数。16、下列哪个神经⽹络结构会发⽣权重共享?A、卷积神经⽹络B、循环神经⽹络C、全连接神经⽹络D、选项A和B答案是:D解析:17、批规范化(Batch Normalization)的好处都有啥?A、让每⼀层的输⼊的范围都⼤致固定B、它将权重的归⼀化平均值和标准差C、它是⼀种⾮常有效的反向传播(BP)⽅法D、这些均不是答案是:A解析:18、在⼀个神经⽹络中,下⾯哪种⽅法可以⽤来处理过拟合?A、DropoutB、分批归⼀化(Batch Normalization)C、正则化(regularization)D、都可以答案是:D解析:对于选项A, Dropout 可以在训练过程中适度地删减某些神经元, 借此可以减⼩过拟合的风险.对于选项B, 分批归⼀化处理过拟合的原理,是因为同⼀个数据在不同批中被归⼀化后的值会有差别,相当于做了data augmentatio。对于选项C,正则化(regularization)的加⼊,本⾝就是为了防⽌过拟合⽽做的操作.因此答案是D19、如果我们⽤了⼀个过⼤的学习速率会发⽣什么?A、神经⽹络会收敛B、不好说C、都不对D、神经⽹络不会收敛答案是:D 这题选错啦,选择了 B解析:可能是我考虑的有些极端啦,⼤部分情况下,会出现其在震荡,梯度长时间不更新,就是因为学习率较⼤导致的答案是:D解析:不知道神经⽹络的权重和偏差是什么,则⽆法判定它将会给出什么样的输出。21、神经⽹络模型(Neural Network)因受⼈类⼤脑的启发⽽得名神经⽹络由许多神经元(Neuron)组成,每个神经元接受⼀个输⼊,对输⼊进⾏处理后给出⼀个输出,如下图所⽰。请问下列关于神经元的描述中,哪⼀项是正确的?A、每个神经元可以有⼀个输⼊和⼀个输出B、每个神经元可以有多个输⼊和⼀个输出C、每个神经元可以有⼀个输⼊和多个输出D、每个神经元可以有多个输⼊和多个输出E、上述都正确正确答案是:E,的选择是: B解析:每个神经元可以有⼀个或多个输⼊,和⼀个或多个输出。22、在⼀个神经⽹络中,知道每⼀个神经元的权重和偏差是最重要的⼀步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?A、搜索每个可能的权重和偏差组合,直到得到最佳值B、赋予⼀个初始值,然后检查跟最佳值的差值,不断迭代调整权重C、随机赋值,听天由命D、以上都不正确的正确答案是: B,您的选择是: B解析:选项B是对梯度下降的描述。23、基于⼆次准则函数的H-K算法较之于感知器算法的优点是()?A、计算量⼩B、可以判别问题是否线性可分C、其解完全适⽤于⾮线性可分的情况正确答案是: B,您的选择是:A解析:24、输⼊图⽚⼤⼩为200×200,依次经过⼀层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size3×3,padding 0,stride 1),⼜⼀层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图⼤⼩为A、95B、96C、97D、98正确答案是:C,您的选择是:C解析:⾸先我们应该知道卷积或者池化后⼤⼩的计算公式,其中,padding指的是向外扩展的边缘⼤⼩,⽽stride则是步长,即每次移动的长度。这样⼀来就容易多了,⾸先长宽⼀般⼤,所以我们只需要计算⼀个维度即可,这样,经过第⼀次卷积后的⼤⼩为: 本题 (200-5+2 *1)/2+1 为99.5,取99,

向下取整经过第⼀次池化后的⼤⼩为: (99-3)/1+1 为97经过第⼆次卷积后的⼤⼩为: (97-3+2 * 1)/1+1 为9725、深度学习是当前很热门的机器学习算法,在深度学习中,涉及到⼤量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺⼨分别为m∗n,n∗p,p∗q,且m < n < p < q,以下计算顺序效率最⾼的是()A、(AB)CB、AC(B)C、A(BC)D、所以效率都相同正确答案是:A,您的选择是:C解析:⾸先,根据简单的矩阵知识,因为 A * B , A 的列数必须和 B 的⾏数相等。因此,可以排除 B 选项,然后,再看 A 、 C 选项。在 A 选项中,m∗n 的矩阵 A 和n∗p的矩阵 B 的乘积,得到 m ∗ p的矩阵 A * B ,⽽ A ∗ B的每个元素需要 n次乘法和 n-1 次加法,忽略加法,共需要 m∗n∗p次乘法运算。同样情况分析 A* B 之后再乘以 C 时的情况,共需要 m ∗ p ∗ q次乘法运算。因此, A 选项 (AB)C 需要的乘法次数是 m ∗ n ∗ p + m ∗ p ∗ q 。同理分析, C 选项 A (BC) 需要的乘法次数是 n ∗ p ∗ q + m∗ n ∗ q。由于m ∗ n ∗ p26、当在卷积神经⽹络中加⼊池化层(pooling layer)时,变换的不变性会被保留,是吗?A、不知道B、看情况C、是D、否正确答案是:C,您的选择是:C解析:池化算法⽐如取最⼤值/取平均值等, 都是输⼊数据旋转后结果不变, 所以多层叠加后也有这种不变性。27、当数据过⼤以⾄于⽆法在RAM中同时处理时,哪种梯度下降⽅法更加有效?A、随机梯度下降法(Stochastic Gradient Descent)B、不知道C、整批梯度下降法(Full Batch Gradient Descent)D、都不是正确答案是:A,您的选择是:A解析:梯度下降法分随机梯度下降(每次⽤⼀个样本)、⼩批量梯度下降法(每次⽤⼀⼩批样本算出总损失, 因⽽反向传播的梯度折中)、全批量梯度下降法则⼀次性使⽤全部样本。这三个⽅法, 对于全体样本的损失函数曲⾯来说, 梯度指向⼀个⽐⼀个准确. 但是在⼯程应⽤中,受到内存/磁盘IO的吞吐性能制约, 若要最⼩化梯度下降的实际运算时间, 需要在梯度⽅向准确性和数据传输性能之间取得最好的平衡. 所以, 对于数据过⼤以⾄于⽆法在RAM中同时处理时, RAM每次只能装⼀个样本, 那么只能选随机梯度下降法。28、在选择神经⽹络的深度时,下⾯哪些参数需要考虑?1 神经⽹络的类型(如MLP,CNN)2 输⼊数据3 计算能⼒(硬件和软件能⼒决定)4 学习速率5 映射的输出函数A、1,2,4,5B、2,3,4,5C、都需要考虑D、1,3,4,5正确答案是:C,您的选择是:C解析:所有上述因素对于选择神经⽹络模型的深度都是重要的。特征抽取所需分层越多, 输⼊数据维度越⾼, 映射的输出函数⾮线性越复杂, 所需深度就越深. 另外为了达到最佳效果, 增加深度所带来的参数量增加, 也需要考虑硬件计算能⼒和学习速率以设计合理的训练时间。29、考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有⼀个类似问题已经预先训练好的神经⽹络。可以⽤下⾯哪种⽅法来利⽤这个预先训练好的⽹络?A、把除了最后⼀层外所有的层都冻结,重新训练最后⼀层B、对新数据重新训练整个模型C、只对最后⼏层进⾏调参(fine tune)D、对每⼀层模型进⾏评估,选择其中的少数来⽤正确答案是:C,您的选择是:C解析:如果有个预先训练好的神经⽹络, 就相当于⽹络各参数有个很靠谱的先验代替随机初始化. 若新的少量数据来⾃于先前训练数据(或者先前训练数据量很好地描述了数据分布, ⽽新数据采样⾃完全相同的分布), 则冻结前⾯所有层⽽重新训练最后⼀层即可; 但⼀般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验⽹络不⾜以完全拟合新数据时, 可以冻结⼤部分前层⽹络, 只对最后⼏层进⾏训练调参(这也称之为finetune)。正确答案是:A,您的选择是:C解析:由于反向传播算法从后向前传播的过程中,学习能⼒降低,这就是梯度消失。换⾔之,梯度消失是梯度在反向传播中逐渐减为 0, 按照图标题所说,四条曲线是 4 个隐藏层的学习曲线,那么最后⼀层梯度最⾼(损失函数曲线下降明显),第⼀层梯度⼏乎为零(损失函数曲线变成平直线)。所以 D 是第⼀层,A 是最后⼀层。31、增加卷积核的⼤⼩对于改进卷积神经⽹络的效果是必要的吗?A没听说过B是C否D不知道正确答案是:C,您的选择是: B解析:增加核函数的⼤⼩不⼀定会提⾼性能。这个问题在很⼤程度上取决于数据集。我以为是卷积核的个数呢,哎!32、假设我们已经在ImageNet数据集(物体识别)上训练好了⼀个卷积神经⽹络。然后给这张卷积神经⽹络输⼊⼀张全⽩的图⽚。对于这个输⼊的输出结果为任何种类的物体的可能性都是⼀样的,对吗?A、对的B、不知道C、看情况D、不对正确答案是:D,您的选择是:D解析:D,已经训练好的卷积神经⽹络, 各个神经元已经精雕细作完⼯, 对于全⽩图⽚的输⼊, 其j层层激活输出给最后的全连接层的值⼏乎不可能恒等, 再经softmax转换之后也不会相等, 所以"输出结果为任何种类的等可能性⼀样"也就是softmax的每项均相等, 这个概率是极低的。33、对于⼀个分类任务,如果开始时神经⽹络的权重不是随机赋值的,⽽是都设成0,下⾯哪个叙述是正确的?A、其他选项都不对B、没啥问题,神经⽹络会正常开始训练C、神经⽹络可以训练,但是所有的神经元最后都会变成识别同样的东西D、神经⽹络不会开始训练,因为没有梯度改变正确答案是:C,您的选择是: B解析:令所有权重都初始化为0这个⼀个听起来还蛮合理的想法也许是⼀个我们假设中最好的⼀个假设了, 但结果是错误的,因为如果神经⽹络计算出来的输出值都⼀个样,那么反向传播算法计算出来的梯度值⼀样,并且参数更新值也⼀样(w=w−α∗dw)。更⼀般地说,如果权重初始化为同⼀个值,⽹络即是对称的, 最终所有的神经元最后都会变成识别同样的东西。正确答案是:A,您的选择是: B解析:选项A可以将陷于局部最⼩值的神经⽹络提取出来。 总感觉题⽬出的有些不太严谨5、对于⼀个图像识别问题(在⼀张照⽚⾥找出⼀只猫),下⾯哪种神经⽹络可以更好地解决这个问题?A、循环神经⽹络B、感知机C、多层感知机D、卷积神经⽹络正确答案是:D,您的选择是:D解析:卷积神经⽹络将更好地适⽤于图像相关问题,因为考虑到图像附近位置变化的固有性质。正确答案是:D,您的选择是:A解析:⾸先您将相关的数据去掉,然后将其置零。具体来说,误差瞬间降低, ⼀般原因是多个数据样本有强相关性且突然被拟合命中, 或者含有较⼤⽅差数据样本突然被拟合命中. 所以对数据作主成分分析(PCA)和归⼀化能够改善这个问题。正确答案是: B,您的选择是: B解析:选项B是正确的,为了减少这些“起伏”,可以尝试增加批尺⼨(batch size)。具体来说,在曲线整体趋势为下降时, 为了减少这些“起伏”,可以尝试增加批尺⼨(batch size)以缩⼩batch综合梯度⽅向摆动范围. 当整体曲线趋势为平缓时出现可观的“起伏”, 可以尝试降低学习率以进⼀步收敛. “起伏”不可观时应该提前终⽌训练以免过拟合39、对于神经⽹络的说法, 下⾯正确的是 :1、 增加神经⽹络层数, 可能会增加测试数据集的分类错误率2、 减少神经⽹络层数, 总是能减⼩测试数据集的分类错误率3、 增加神经⽹络层数, 总是能减⼩训练数据集的分类错误率A、1B、1 和 3C、1 和 2D、240、假定你在神经⽹络中的隐藏层中使⽤激活函数 X。在特定神经元给定任意输⼊,你会得到输出「-0.0001」。X 可能是以下哪⼀个激活函数?A、ReLUB、tanhC、SIGMOIDD、以上都不是正确答案是: B,您的选择是: B解析:答案为:B,该激活函数可能是 tanh,因为该函数的取值范围是 (-1,1)。41、深度学习与机器学习算法之间的区别在于,后者过程中⽆需进⾏特征提取⼯作,也就是说,我们建议在进⾏深度学习过程之前要⾸先完成特征提取的⼯作。这种说法是:A、正确的B、错误的正确答案是: B,您的选择是: B解析:正好相反,深度学习可以⾃⾏完成特征提取过程⽽机器学习需要⼈⼯来处理特征内容。42、下列哪⼀项属于特征学习算法(representation learning algorithm)?A、K近邻算法B、随机森林C、神经⽹络D、都不属于正确答案是:C,您的选择是:C解析:神经⽹络会将数据转化为更适合解决⽬标问题的形式,我们把这种过程叫做特征学习。43、下列哪些项所描述的相关技术是错误的?A、AdaGrad使⽤的是⼀阶差分(first order differentiation)B、L-BFGS使⽤的是⼆阶差分(second order differentiation)C、AdaGrad使⽤的是⼆阶差分正确答案是:C,您的选择是:A解析: 记住吧,后⾯再去看看这些优化技术的原理44、提升卷积核(convolutional kernel)的⼤⼩会显著提升卷积神经⽹络的性能,这种说法是A、正确的B、错误的正确答案是: B,您的选择是: B解析:卷积核的⼤⼩是⼀个超参数(hyperparameter),也就意味着改变它既有可能提⾼亦有可能降低模型的表现。45、阅读以下⽂字:假设我们拥有⼀个已完成训练的、⽤来解决车辆检测问题的深度神经⽹络模型,训练所⽤的数据集由汽车和卡车的照⽚构成,⽽训练⽬标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使⽤这个模型来解决另外⼀个问题,问题数据集中仅包含⼀种车(福特野马)⽽⽬标变为定位车辆在照⽚中的位置。A、除去神经⽹络中的最后⼀层,冻结所有层然后重新训练B、对神经⽹络中的最后⼏层进⾏微调,同时将最后⼀层(分类层)更改为回归层C、使⽤新的数据集重新训练模型D、所有答案均不对正确答案是: B,您的选择是: B解析:46、假设你有5个⼤⼩为7x7、边界值为0的卷积核,同时卷积神经⽹络第⼀层的深度为1。此时如果你向这⼀层传⼊⼀个维度为224x224x3的数据,那么神经⽹络下⼀层所接收到的数据维度是多少?A、218x218x5B、217x217x8C、217x217x3D、220x220x5正确答案是:A,您的选择是:A解析:47、假设我们有⼀个使⽤ReLU激活函数(ReLU activation function)的神经⽹络,假如我们把ReLU激活替换为线性激活,那么这个神经⽹络能够模拟出同或函数(XNOR function)吗?A、可以B、不好说C、不⼀定D、不能正确答案是:D,您的选择是:D解析:使⽤ReLU激活函数的神经⽹络是能够模拟出同或函数的。但如果ReLU激活函数被线性函数所替代之后,神经⽹络将失去模拟⾮线性函数的能⼒。48、考虑以下问题:假设我们有⼀个5层的神经⽹络,这个神经⽹络在使⽤⼀个4GB显存显卡时需要花费3个⼩时来完成训练。⽽在测试过程中,单个数据需要花费2秒的时间。 如果我们现在把架构变换⼀下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所⽤时间会变为多少?A、少于2sB、⼤于2sC、仍是2sD、说不准正确答案是:C,您的选择是:A解析:在架构中添加Dropout这⼀改动仅会影响训练过程,⽽并不影响测试过程。9、下列的哪种⽅法可以⽤来降低深度学习模型的过拟合问题?1 增加更多的数据2 使⽤数据扩增技术(data augmentation)3 使⽤归纳性更好的架构4 正规化数据5 降低架构的复杂度A、1 4 5B、1 2 3C、1 3 4 5D、所有项⽬都有⽤正确答案是:D,您的选择是:D解析:上⾯所有的技术都会对降低过拟合有所帮助。50、混沌度(Perplexity)是⼀种常见的应⽤在使⽤深度学习处理NLP问题过程中的评估技术,关于混沌度,哪种说法是正确的?A、混沌度没什么影响B、混沌度越低越好C、混沌度越⾼越好D、混沌度对于结果的影响不⼀定正确答案是: B,您的选择是:D解析:对NLP没有怎么学过,也不了解这个概念,有感兴趣的⾃⼰去查吧51、假设下⽅是传⼊最⼤池化层的⼀个输⼊,该层中神经元的池化⼤⼩为(3,3)。那么,该池化层的输出是多少?A、3B、7C、5D、5.5正确答案是: B,您的选择是: B解析:最⼤池化是这样运作的:它⾸先使⽤我们预先定义的池化尺⼨来获取输⼊内容,然后给出有效输⼊中的最⼤值。正确答案是: B,您的选择是: B解析:Affine是神经⽹络中的⼀个全连接层,仿射(Affine)的意思是前⾯⼀层中的每⼀个神经元都连接到当前层中的每⼀个神经元。即当前层的每⼀个神经元输⼊均为增⼴权值向量和前⼀层神经元向量的内积 ,本质是⼀个线性变换。⽽relu是⼀个常⽤的⾮线性激活函数,其表达为max(0,x),如果去掉Relu层,该神经⽹络将失去⾮线性表达能⼒,即⽆法拟合复杂世界中的⾮线性函数规律,故答案选B。53、深度学习可以⽤在下列哪些NLP任务中?A、情感分析B、问答系统C、机器翻译D、所有选项正确答案是:D,您的选择是:D解析:深度学习可以⽤来解决上述所有NLP问题。正确答案是: B,您的选择是:A解析:情景1基于欧⼏⾥得数据(Euclidean data)⽽情景2基于图形数据,这两种类型的数据深度学习均可处理。55、下列哪些项⽬是在图像识别任务中使⽤的数据扩增技术(data augmentation technique)?1 ⽔平翻转(Horizontal flipping)2 随机裁剪(Random cropping)3 随机放缩(Random scaling)4 颜⾊抖动(Color jittering)5 随机平移(Random translation)6 随机剪切(Random shearing)A、1,3,5,6B、1,2,4C、2,3,4,5,6D、所有项⽬正确答案是:D,您的选择是:D解析:56、给定⼀个长度为n的不完整单词序列,我们希望预测下⼀个字母是什么。⽐如输⼊是“predictio”(9个字母组成),希望预测第⼗个字母是什么。下⾯哪种神经⽹络结构适⽤于解决这个⼯作?A、循环神经⽹络B、全连接神经⽹络C、受限波尔兹曼机D、卷积神经⽹络正确答案是:A,您的选择是:A解析:循环神经⽹络对于序列数据最有效,因此适⽤于这个问题。57、当构建⼀个神经⽹络进⾏图⽚的语义分割时,通常采⽤下⾯哪种顺序?A、先⽤卷积神经⽹络处理输⼊,再⽤反卷积神经⽹络得到输出B、先⽤反卷积神经⽹络处理输⼊,再⽤卷积神经⽹络得到输出C、、不能确定正确答案是:A,您的选择是:A解析:58、Sigmoid是神经⽹络中最常⽤到的⼀种激活函数,除⾮当梯度太⼤导致激活函数被弥散,这叫作神经元饱和。这就是为什么ReLU会被提出来,因为ReLU可以使得梯度在正向时输出值与原始值⼀样。这是否意味着在神经⽹络中ReLU单元永远不会饱和?A、正确的B、错误的正确答案是: B,您的选择是: B解析:ReLU也可能会造成饱和,当输出为负的时候。59、Dropout率和正则化有什么关系?提⽰:我们定义Dropout率为保留⼀个神经元为激活状态的概率A、Dropout率越⾼,正则化程度越低B、Dropout率越⾼,正则化程度越⾼正确答案是:A,您的选择是: B解析:⾼dropout率意味着更多神经元是激活的,所以这亦为之正则化更少。(这个解释我也是不太明⽩,它说的可能是和API有关系吧,tensorflow和pytorch对于droupout的⼤⼩是相相反的)60、普通反向传播算法和随时间的反向传播算法(BPTT)有什么技术上的不同?A、与普通反向传播不同的是,BPTT会在每个时间步长内减去所有对应权重的梯度B、与普通反向传播不同的是,BPTT会在每个时间步长内叠加所有对应权重的梯度正确答案是: B,您的选择是:A解析:与普通反向传播不同的是,BPTT会在每个时间步长内叠加所有对应权重的梯度。下⾯的题⽬错的有点过分啦(捂脸)61、梯度爆炸问题是指在训练深度神经⽹络的时候,梯度变得过⼤⽽损失函数变为⽆穷。在RNN中,下⾯哪种⽅法可以较好地处理梯度爆炸问题?A、⽤改良的⽹络结构⽐如LSTM和GRUsB、梯度裁剪C、DropoutD、所有⽅法都不⾏正确答案是: B,您的选择是:A解析:为了处理梯度爆炸问题,最好让权重的梯度更新限制在⼀个合适的范围。(梯度裁剪)62、有许多种梯度下降算法,其中两种最出名的⽅法是l-BFGS和SGD。l-BFGS根据⼆阶梯度下降⽽SGD是根据⼀阶梯度下降的。在下述哪些场景中,会更加偏向于使⽤l-BFGS⽽不是SGD?场景1: 数据很稀疏场景2: 神经⽹络的参数数量较少A、场景1B、场景2C、两种情况都是D、都不会选择l-BFGS正确答案是:C,您的选择是:A解析:在这两种情况下,l-BFGS的效果都是最好的63、下⾯哪种⽅法没办法直接应⽤于⾃然语⾔处理的任务?A、去语法模型B、循环神经⽹络C、卷积神经⽹络D、主成分分析(PCA)正确答案是:D,您的选择是:C解析:我以为卷积主要是应⽤在图像处理,NLP应该是RNN,结果。。。64、对于*⾮连续*⽬标在深度神经⽹络的优化过程中,下⾯哪种梯度下降⽅法是最好的?A、SGDB、AdaGradC、l-BFGSD、拉格朗⽇松弛Subgradient method正确答案是:D,您的选择是:A解析:优化算法⽆法作⽤于⾮连续⽬标。65、下⾯哪个叙述是对的?Dropout对⼀个神经元随机屏蔽输⼊权重Dropconnect对⼀个神经元随机屏蔽输⼊和输出权重A、1是对的,2是错的B、都是对的C、1是错的,2是对的D、都是错的正确答案是:D,您的选择是:A解析:在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。所以dropout会使输⼊和输出权重都变为⽆效,⽽在dropconnect中,只有其中⼀种会被失活。在上图中,最好在哪个时间停⽌训练?A、DB、AC、CD、B正确答案是:C,您的选择是:C解析:你最好在模型最完善之前「提前终⽌」,所以C点是正确的。67、图⽚修复是需要⼈类专家来进⾏修复的,这对于修复受损照⽚和视频⾮常有帮助。下图是⼀个图像修复的例⼦。正确答案是:C,您的选择是: B解析:看错啦,以为A是交叉熵函数,⼀般交叉熵损失函数应⽤于68、反向传播算法⼀开始计算什么内容的梯度,之后将其反向传播?A、预测结果与样本标签之间的误差B、各个输⼊样本的平⽅差之和C、各个⽹络权重的平⽅差之和D、都不对正确答案是:A,您的选择是:C解析:思维絮乱,导致选错69、在构建⼀个神经⽹络时,batch size通常会选择2的次⽅,⽐如256和512。这是为什么呢?A、当内存使⽤最优时这可以⽅便神经⽹络并⾏化B、当⽤偶数是梯度下降优化效果最好C、这些原因都不对D、当不⽤偶数时,损失值会很奇怪正确答案是:A,您的选择是:AXavier初始化是⽤来帮助信号能够在神经⽹络中传递得更深,下⾯哪些叙述是对的?1 如果权重⼀开始很⼩,信号到达最后也会很⼩2 如果权重⼀开始很⼤,信号到达最后也会很⼤3 Xavier初始化是由⾼斯发布引出的4 Xavier初始化可以帮助减少梯度弥散问题A、234B、1234C、124D、134正确答案是: B,您的选择是: B解析:所有项⽬都是正确的71、随着句⼦的长度越来越多,神经翻译机器将句意表征为固定维度向量的过程将愈加困难,为了解决这类问题,下⾯哪项是我们可以采⽤的?A、使⽤递归单元代替循环单元B、使⽤注意⼒机制(attention mechanism)C、使⽤字符级别翻译(character level translation)D、所有选项均不对72、⼀个循环神经⽹络可以被展开成为⼀个完全连接的、具有⽆限长度的普通神经⽹络,这种说法是A、正确的B、错误的正确答案是:A,您的选择是: A解析:循环神经元可以被认为是⼀个具有⽆限时间长度的神经元序列。根据以上描述,Dropout技术在下列哪种神经层中将⽆法发挥显著优势?A、仿射层B、卷积层C、RNN层D、均不对正确答案是:C,您的选择是:A解析:Dropout对于循环层效果并不理想,你可能需要稍微修改⼀下dropout技术来得到良好的结果。仿射层:Affine 仿射层, ⼜称 Linear 线性变换层, 常⽤于神经⽹络结构中的全连接层.74、假设你的任务是使⽤⼀⾸曲⼦的前半部分来预测乐谱的未来⼏个⼩节,⽐如输⼊的内容如下的是包含⾳符的⼀张乐谱图⽚:正确答案是: B,您的选择是: B解析:75、当在内存⽹络中获得某个内存空间时,通常选择读取⽮量形式数据⽽不是标量,这⾥需要的哪种类型的寻址来完成?A、基于内容的寻址B、基于位置的寻址C、都不⾏D、都可以正确答案是:A,您的选择是: B解析:不明⽩这⼀题考察的是什么,反正我是不懂是为什么76、⼀般我们建议将卷积⽣成对抗⽹络(convolutional generative adversarial nets)中⽣成部分的池化层替换成什么?A、跨距卷积层(Strided convolutional layer)B、ReLU层C、局部跨距卷积层(Fractional strided convolutional layer)D、仿射层(Affine layer)正确答案是: B,您的选择是: B解析:⼆维平⾯没有直线可以分开两类样本点,线性不可分。78、以下哪些是通⽤逼近器?A、Kernel SVMB、Neural NetworksC、Boosted Decision TreesD、以上所有正确答案是:D,您的选择是:D解析:79、在下列哪些应⽤中,我们可以使⽤深度学习来解决问题?A、蛋⽩质结构预测B、化学反应的预测C、外来粒⼦的检测D、所有这些正确答案是:D,您的选择是:A解析:我们可以使⽤神经⽹络来逼近任何函数,因此理论上可以⽤它来解决任何问题。这个解析我也是⽆⼒反驳,这么说它也是除了不能⽣⼩孩,什么都能做啦!80、在CNN中使⽤1×1卷积时,下列哪⼀项是正确的?A、它可以帮助降低维数B、可以⽤于特征池C、由于⼩的内核⼤⼩,它会减少过拟合D、所有上述正确答案是:D,您的选择是:C解析:1×1卷积在CNN中被称为bottleneck structure(瓶颈结构)。更多关于1x1卷积的作⽤和好处,可以参考81、声明1:可以通过将所有权重初始化为0 来训练⽹络。声明2:可以通过将偏差初始化为0来很好地训练⽹络以上哪些陈述是真实的?A、1对2错B、1错2对C、1和2都对D、1和2都错正确答案是: B,您的选择是:B解析:即使所有的偏差都为零,神经⽹络也有可能学习。另⼀⽅⾯,如果所有的权重都是零; 神经⽹络可能永远不会学习执⾏任务,因为梯度从⼀开始就不能达到更新。82、对于MLP,输⼊层中的节点数为10,隐藏层为5.从输⼊层到隐藏层的最⼤连接数是A、50B、⼩于50C、超过50D、这是⼀个任意值正确答案是:A,您的选择是:A解析:由于MLP是完全连通的有向图,因此连接数是输⼊层和隐藏层中节点数的乘积。83、输⼊图像已被转换为⼤⼩为28×28的矩阵和⼤⼩为7×7的步幅为1的核⼼/滤波器。卷积矩阵的⼤⼩是多少?A、22 X 22B、21 X 21C、28 X 28D、7 X 7正确答案是:A,您的选择是:A解析:解决⽅案:A卷积矩阵的⼤⼩由C =((I-F + 2P)/ S)+1给出,其中C是卷积矩阵的⼤⼩,I是输⼊矩阵的⼤⼩,F是滤波器的⼤⼩矩阵和P填充应⽤于输⼊矩阵。这⾥P = 0,I = 28,F = 7和S = 1。答案是22。84、在⼀个简单的MLP模型中,输⼊层有8个神经元,隐藏层有5个神经元,输出层有1个神经元。隐藏输出层和输⼊隐藏层之间的权重矩阵的⼤⼩是多少?A、[1 X 5],[5 X 8]B、[8×5],[1×5]C、[5×8],[5×1]D、[5×1],[8×5]正确答案是:D,您的选择是:D解析:任何层1和层2之间的权重的⼤⼩由[层1中的节点X 2层中的节点]85、如果我们希望预测n个类(p1,p2 … pk)的概率使得所有n的p的和等于1,那么下列哪个函数可以⽤作输出层中的激活函数?A、SoftmaxB、ReLuC、SigmoidD、Tanh正确答案是:A,您的选择是:A解析:Softmax函数的形式是所有k的概率之和总和为1。86、假设⼀个具有 3 个神经元和输⼊为 [1, 2, 3] 的简单 MLP 模型。输⼊神经元的权重分别为 4, 5 和 6。假设激活函数是⼀个线性常数值 3 (激活函数为:y = 3x)。输出是什么?A、32B、643C、96D、48正确答案是:C,您的选择是:C解析:输出将被计算为3(1 * 4 + 2 * 5 + 6 * 3)= 9687、在输出层不能使⽤以下哪种激活函数来分类图像?A、sigmoidB、TanhC、ReLUD、If(x> 5,1,0)正确答案是:C,您的选择是: B解析:解答:CReLU在0到⽆限的范围内提供连续输出。但是在输出层中,我们需要⼀个有限范围的值。所以选项C是正确的。88、在神经⽹络中,每个参数可以有不同的学习率。这句话是对还是错A、对B、错正确答案是:A,您的选择是: B解析:是的,我们可以定义每个参数的学习率,并且它可以与其他参数不同。89、使⽤批量归⼀化可以解决以下哪种神经⽹络的训练?A、过拟合OverfittingB、Restrict activations to become too high or lowC、训练过慢D、B和C都有正确答案是:D,您的选择是:A解析:Batch normalization restricts the activations and indirectly improves training time.A、1B、2C、任何⼀个D、都不⽤正确答案是:C,您的选择是:C解析:我们可以使⽤⼀个神经元作为⼆值分类问题的输出或两个单独的神经元。A、绿⾊曲线B、蓝⾊曲线正确答案是: B,您的选择是: B解析:蓝⾊曲线表⽰过拟合overfitting,绿⾊曲线表⽰泛化generalized.92、使⽤深度学习的情感分析是多对⼀的预测任务A、对B、错正确答案是:A,您的选择是: B解析:选项A是正确的。这是因为从⼀系列单词中,你必须预测情绪是积极的还是消极的。93、我们可以采取哪些措施来防⽌神经⽹络中的过拟合?A、数据增强B、权重共享C、提前停⽌D、DropoutE、以上全部正确答案是:E,您的选择是:E解析:解决⽅案:E上述所有⽅法都可以帮助防⽌过度配合问题。94、Gated Recurrent units的出现可以帮助防⽌在RNN中的梯度消失问题。A、对B、错正确答案是:A,您的选择是:A解析:选项A是正确的。This is because it has implicit memory to remember past behavior.95、What does a neuron compute?A、A neuron computes the mean of all features before applying the output to an activation functionB、A neuron computes a function g that scales the input x linearly (Wx + b)C、A neuron computes an activation function followed by a linear function (z = Wx + b)D、A neuron computes a linear function (z = Wx + b) followed by an activation function正确答案是:D,您的选择是:D解析:⼀个神经元先计算线性函数(linear function),然后计算激活函数(activation function)。也就是说,输⼊是x的话,先计算 z = Wx + b,再把z作为输⼊计算sigmoid(z),显然这⾥我们假设激活函数是sigmoid。96、You are building a binary classifier for recognizing cucumbers (y=1) vs. watermelons (y=0). Which one of theseactivation functions would you recommend using for the output layer?A、ReLUB、Leaky ReLUC、sigmoidD、tanh正确答案是:C,您的选择是:C解析:对于逻辑回归问题,sigmoid作为激活函数更加合适。答案是c,relu函数不可以,因为它不可以让最后的输出值规范化到某⼀个范围,tanh的值范围有负值。97、Which of the following are reasons for using feature scaling?A、It prevents the matrix XTX (used in the normal equation) from being non-invertable (singular/degenerate).B、It speeds up gradient descent by making it require fewer iterations to get to a good solution.C、It speeds up gradient descent by making each iteration of gradient descent less expensive to compute.D、It is necessary to prevent the normal equation from getting stuck in local optima.98、在CNN,拥有最⼤池总是减少参数?A、对B、错正确答案是: B,您的选择是: B解析:这并⾮总是如此。如果我们将池⼤⼩的最⼤池层设置为1,则参数将保持不变。99、将Sigmoid激活函数改为ReLu,将有助于克服梯度消失问题?A、对B、错正确答案是:A,您的选择是:A解析:ReLU可以帮助解决梯度消失问题100、多义现象可以被定义为在⽂本对象中⼀个单词或短语的多种含义共存。下列哪⼀种⽅法可能是解决此问题的最好选择?A、随机森林分类器B、卷积神经⽹络C、梯度爆炸D、上述所有⽅法正确答案是: B,您的选择是: B解析:CNN 是⽂本分类问题中⽐较受欢迎的选择,因为它们把上下⽂的⽂本当作特征来考虑,这样可以解决多义问题♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠ ⊕ ♠

发布者:admin,转转请注明出处:http://www.yc00.com/news/1689566504a266803.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信