零基础

最新版AI大模型面试八股文131-135题

小智 AI教程 2025年01月8日

0 收藏 0 点赞 391 浏览 1411 个字

摘要 :

最新版AI大模型面试八股文131-135题： AI大模型风头正劲，相关岗位炙手可热，竞争也异常激烈。想要在面试中脱颖而出，除了扎实的技术功底，还需要对面试套路了如指掌。……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“最新版AI大模型面试八股文131-135题”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

最新版AI大模型面试八股文131-135题：

AI大模型风头正劲，相关岗位炙手可热，竞争也异常激烈。想要在面试中脱颖而出，除了扎实的技术功底，还需要对面试套路了如指掌。这份最新版AI大模型面试八股文，正是为你量身打造的“通关秘籍”！

131、Bert中为什么要在开头加个[CLS]?
答案：
sliderSun：关于BERT中的那些为什么
其实这个回答也写了一些为什么，其中就包含这个题目。为了文章的完整性我再输出一点自己的观点。

具体来说，我们想让[CLS]做的事情就是利用好BERT强大的表示能力，这个表示能力不仅限于token层面，而且我们尝试要得到整个seqence的表示。因此，[CLS]就是做这个事情的。具体来说，整个encoder的最后一层的[CLS]学到的向量可以很好地作为整句话的语义表示，从而适配一些setence层面的任务，如整句话的情感分类。

那关键点就在于，为什么[CLS]可以建模整句话的语义表征呢？简单来说也很好理解，因为“这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。”

——为什么无明显语义？因为训练的时候BERT发现每个句子头都有，这样他能学到什么语义呢？

——为什么要公平？因为控制变量，我们不希望做其他下游任务的时候用于区分不同样本间特征的信息是有偏的。

当然，不放在句子开头的其他位置是否可行？一个未经考证的臆想是，任何其他位置的positionembedding都无法满足放在开头的一致性。所以不同句子间可能会有一定的不同，这并不是我们做一些句间的分类问题想要的。

132、如何提高Transformer模型中自注意力机制的计算效率?
答案：
1.在计算注意力分数时仅考虑部分词元，通过限制Query-Key 对的数量，使计算复杂度与n呈线性关系，而非二次方关系。这类方法就称为稀疏注意力（Sparse Attention）机制。可以将稀疏化方法进一步分成两类：基于位置信息和基于内容。
2.Flash Attention 在绝大多数的神经网络中，都含有大量的Memory-bound操作，但是绝大多数Efficient Transformer把改进方法集中在降低模型的FLOPS上。这就导致这些方法的计算速度并没有显著降低。于是FlashAttention将优化重点放在了降低存储访问开销（MAC）上
3.多查询注意力（Multi Query Attention）是一种多头注意力的变体，它在轻微牺牲模型质量的前提下显著减少计算成本。在多查询注意力中key-value对在不同的注意力头之间共享，即，所有注意力头使用同一个key投射和一个value投射，只单独保留了query。因此键和值的矩阵仅有一份，这大幅度减少了显存占用和解码所需的内存带宽需求。

133、为什么self-attention要除以根号N?有方法不用处理根号N的吗?
答案：

134、Transformer模型中注意力权重如何解释模型的决策?
答案：
这道题其实是在考察self-attention是如何实现Transformer模型通过注意力权重，可以直观地理解模型在做决策时关注的区域，提高了模型的可解释性。

135、如何在自注意力机制中平衡局部信息和全局信息的捕获?
答案：
这个其实是在考察自注意力的公式QKV如何计算，softmax

最新版AI大模型面试八股文136-140题

最新版AI大模型面试八股文136-140题：AI大模型风头正劲，相关岗位炙手可热，竞争也异常激烈。想要在面试中脱颖而出，除了扎实的技术功底...

查看文章

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“最新版AI大模型面试八股文131-135题”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫