零基础

最新版AI大模型面试八股文121-130题

小智 AI教程 2025年01月8日

0 收藏 0 点赞 412 浏览 3198 个字

摘要 :

最新版AI大模型面试八股文121-130题： AI大模型风头正劲，相关岗位炙手可热，竞争也异常激烈。想要在面试中脱颖而出，除了扎实的技术功底，还需要对面试套路了如指掌。……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“最新版AI大模型面试八股文121-130题”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

最新版AI大模型面试八股文121-130题：

AI大模型风头正劲，相关岗位炙手可热，竞争也异常激烈。想要在面试中脱颖而出，除了扎实的技术功底，还需要对面试套路了如指掌。这份最新版AI大模型面试八股文，正是为你量身打造的“通关秘籍”！

121、为什么上面那个公式要对QK进行scaling
答案：
scaling后进行softmax操作可以使得输入的数据的分布变得更好，你可以想象下softmax的公式，数值会进入敏感区间，防止梯度消失，让模型能够更容易训练。

122、self-attention一定要这样表达吗？
答案：
当然，最好是能够高速计算（矩阵乘法），并且表达能力强（query可以主动去关注到其他的key并在value上进行强化，并且忽略不相关的其他部分），模型容量够（引入了project_q/k/v，att_out，多头）。

123、有其他方法不用除根号吗？
答案：
有，只要能缓解梯度消失的问题就可以。详情可以了解Google T5的Xavier初始化。

124、为什么transformer用Layer Norm？有什么用？
答案：
任何norm的意义都是为了让使用norm的网络的输入的数据分布变得更好，也就是转换为标准正态分布，数值进入敏感度区间，以减缓梯度消失，从而更容易训练。当然，这也意味着舍弃了除此维度之外其他维度的其他信息。为什么能舍弃呢？请看下一题。

125、为什么不用BN？
答案：
首先要明确，如果在一个维度内进行normalization，那么在这个维度内，相对大小有意义的，是可以比较的；但是在normalization后的不同的维度之间，相对大小这是没有意义的

BN(batch normalization)广泛应用于CV，针对同一特征，以跨样本的方式开展归一化，也就是对不同样本的同一channel间的所有像素值进行归一化，因此不会破坏不同样本同一特征之间的关系，毕竟“减均值，除标准差”只是一个平移加缩放的线性操作。在“身高体重”的例子中，这就意味着“归一化前是高个儿的归一化后仍然是高个儿，归一化前胖的归一化后也不会变瘦”。这一性质进而决定了经过归一化操作后，样本之间仍然具有可比较性。但是，特征与特征之间的不再具有可比较性，也就是上一个问题中我所说的“舍弃了除此维度之外其他维度的其他信息”。

既然前面说了是CV中用BN，那为什么NLP中不用BN，而用LN呢？道理一样，因为NLP中：

对不同样本同一特征的信息进行归一化没有意义：

三个样本（为中华之崛起而读书；我爱中国；母爱最伟大）中，“为”、“我”、“母”归一到同一分布没有意义。

舍弃不了BN中舍弃的其他维度的信息，也就是同一个样本的不同维度的信息：

“为”、“我”、“母”归一到同一分布后，第一句话中的“为”和“中”就没有可比性了，何谈同一句子之间的注意力机制？

加强一下，我们再回顾CV中：对不同样本同一特征（channel）的信息进行归一化有意义：

因为同一个channel下的所有信息都是遵循统一规则下的大小比较的，比如黑白图中越白越靠近255，反之越黑越靠近0

可以舍弃其他维度的信息，也就是同一个样本的不同维度间（channel）的信息：

例来说，RGB三个通道之间互相比较意义不大

126、Bert为什么要搞一个position embedding？
答案：
因为仅仅有之前提到的self-attention无法表达位置信息（对位置信息不敏感），比如说 1+1=2

127、Bert为什么三个embedding可以相加？
答案：
这里的三个embedding是指token embedding，segment embedding，position embedding。如果感兴趣，还是来看 Rethinking Positional Encoding in Language Pre-training 原文，不过为了理解也可以看下邱老师的回答：
为什么Bert 的三个Embedding 可以进行相加？
如果你是在质疑加法会导致”信息损失“，但是本质上神经网络中每个神经元收到的信号也是“权重”相加得来。

详细想想，在实际场景中，叠加是一个更为常态的操作。比如声音、图像等信号。一个时序的波可以用多个不同频率的正弦波叠加来表示。只要叠加的波的频率不同，我们就可以通过傅里叶变换进行逆向转换。

一串文本也可以看作是一些时序信号，也可以有很多信号进行叠加，只要频率不同，都可以在后面的复杂神经网络中得到解耦（但也不一定真的要得到解耦）。在BERT这个设定中，token，segment，position明显可以对应三种非常不同的频率。

由此可以再深入想一想，在一串文本中，如果每个词的特征都可以用叠加波来表示，整个序列又可以进一步叠加。哪些是低频信号（比如词性？），哪些是高频信号（比如语义？），这些都隐藏在embedding中，也可能已经解耦在不同维度中了。说不定可以是一种新的表示理论

128、transformer为什么要用三个不一样的QKV？
答案：
前面提到过，是为了增强网络的容量和表达能力。更极端点，如果完全不要project_q/k/v，就是输入x本身来做，当然可以，但是表征能力太弱了（x的参数更新得至少会很拧巴）

129、为什么要多头？举例说明多头相比单头注意力的优势
答案：
和上一问一样，进一步增强网络的容量和表达能力。你可以类比CV中的不同的channel（不同卷积核）会关注不同的信息，事实上不同的头也会关注不同的信息。

假设我们有一个句子”the cat, which is black, sat on the mat”。在处理”sat”这个词时，一个头（主语头）可能会更关注”cat”，因为”cat”是”sat”的主语；另一个头（宾语头）可能会更关注”on the mat”，因为这是”sat”的宾语；还有一个头（修饰头）可能会关注”which is black”，因为这是对”cat”的修饰。

当然，这只是为了方便你理解，事实上就和卷积核一样，不同头关注的内容是很抽象的。

你当然可以就用一个头同时做这个事，但是还是这个道理，我们的目的就是通过增加参数量来增强网络的容量从而提升网络表达能力。

经过多头之后，我们还需要att_out线性层来做线性变换，以自动决定（通过训练）对每个头的输出赋予多大的权重，从而在最终的输出中强调一些头的信息，而忽视其他头的信息。这是一种自适应的、数据驱动的方式来组合不同头的信息。

130、为什么Bert中要用WordPiece/BPE这样的subword Token？
答案：
避免OOV（Out Of Vocabulary），也就是词汇表外的词。在NLP中，通常会预先构建一个词汇表，包含所有模型能够识别的词。然而，总会有一些词没有出现在预先构建的词汇表中，这些词就是OOV。

传统的处理方式往往是将这些OOV 映射到一个特殊的符号，如>，但这种方式无法充分利用OOV 中的信息。例如，对于词汇表中没有的词 “unhappiness”，如果直接映射为，则模型就无法理解它的含义。

WordPiece/Byte Pair Encoding (BPE) 等基于子词的分词方法提供了一种解决OOV 问题的方式。现在更多的语言大模型选择基于BPE的方式，只不过BERT时代更多还是WordPiece。BPE 通过将词分解为更小的单元（子词或字符），可以有效地处理词汇表外的词。对于上面的”unhappiness” 例子，即使”unhappiness” 本身不在词汇表中，但是它可以被分解为”un”、”happiness” 等子词，而这些子词可能在词汇表中。这样，模型就可以通过这些子词来理解”unhappiness” 的含义。

另一方面就是，BPE本身的语义粒度也很合适，一个token不会太大，也不会小到损失连接信息（如一个字母）。

最新版AI大模型面试八股文131-135题

最新版AI大模型面试八股文131-135题：AI大模型风头正劲，相关岗位炙手可热，竞争也异常激烈。想要在面试中脱颖而出，除了扎实的技术功底...

查看文章

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“最新版AI大模型面试八股文121-130题”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫