34_基于lora的llama2二次预训练

基于lora的llama2二次预训练

来自: AiGC面试宝典

扫码 查看更

• 基于lora的llama2二次预训练

一、为什么需要 对 llama2 做 基于lora的二次预训练?二、 基于lora的llama2二次预训练 的目标是什么?• 三、基于lora的llama2二次预训练 的思想是什么?• 四、基于lora的llama2二次预训练 语料构建思路?• 五、如何 基于lora的llama2二次预训练 ?• 5.1 基于lora的llama2二次预训练 参数介绍• 5.2 基于lora的llama2二次预训练• 六、如何 基于lora的llama2 微调 ?• 6.1 训练数据介绍• 6.2 基于lora的llama2 微调 参数介绍• 6.3 基于lora的llama2 微调• 七、如何 使用 基于lora的llama2 做推理 ?• 致谢

35_大模型_LLMs_评测面

大模型(LLMs)评测面

来自: AiGC面试宝典

扫码 查看更

1 大模型怎么评测?

当前superGLUE, GLUE, 包括中文的CLUE 的benchmark都在不太合适评估大模型。可能评估推理能力、多轮对话能力是核心。

36_大模型_LLMs_强化学习面

大模型(LLMs)强化学习面

来自: AiGC面试宝典

扫码 查看更

• 大模型(LLMs)强化学习面

• 1 简单介绍强化学习?
• 2 简单介绍一下 RLHF?
• 3. 奖励模型需要和基础模型一致吗?
• 4. RLHF 在实践过程中存在哪些不足?
• 5. 如何解决 人工产生的偏好数据集成本较高,很难量产问题?
• 6. 如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题?
• 7. 如何解决 PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高 问题?
• 致谢

37_大模型_LLMs_强化学习_RLHF及其变种面

大模型(LLMs)强化学习——RLHF及其变种面

来自: AiGC面试宝典

• 大模型(LLMs)强化学习——RLHF及其变种面

• 一、介绍一下 LLM的经典预训练Pipeline?• 二、预训练(Pre-training)篇• 2.1 具体介绍一下 预训练(Pre-training)?

38_大模型_LLMs_强化学习_PPO_面

大模型(LLMs)强化学习— PPO 面

来自: AiGC面试宝典

• 大模型(LLMs)强化学习—— PPO 面

一、大语言模型RLHF中的PPO主要分哪些步骤?
二、举例描述一下 大语言模型的RLHF?
• 三、大语言模型RLHF 采样篇• 3.1 什么是 PPO 中 采样过程?• 3.2 介绍一下 PPO 中 采样策略?• 3.3 PPO 中 采样策略中,如何评估“收益”?
• 参考

39_强化学习在自然语言处理下的应用篇

强化学习在自然语言处理下的应用篇

来自: AiGC面试宝典

• 强化学习在自然语言处理下的应用篇

• 一、强化学习基础面

• 1.1 介绍一下强化学习?
• 1.2 介绍一下强化学习 的 状态(States) 和 观测(Observations)?
• 1.3 强化学习 有哪些 动作空间(Action Spaces),他们之间的区别是什么?
• 1.4 强化学习 有哪些 Policy策略?
• 1.5 介绍一下 强化学习 的 轨迹?
• 1.6 介绍一下 强化学习 的 奖赏函数?
• 1.7 介绍一下 强化学习问题?

4_Attention_升级面

Attention 升级面

来自: AiGC面试宝典

1 传统 Attention 存在哪些问题?

  1. 传统 Attention 存在 上下文长度 约束问题;
  2. 传统 Attention 速度慢,内存占用大;

2 Attention 优化方向

  1. 提升上下文长度
  2. 加速、减少内存占用

3 Attention 变体有哪些?

• 稀疏 attention。将稀疏偏差引入 attention 机制可以降低了复杂性;
• 线性化 attention。解开 attention 矩阵与内核特征图,然后以相反的顺序计算 attention 以实现线性复杂度;
• 原型和内存压缩。这类方法减少了查询或键值记忆对的数量,以减少注意力矩阵的大小;
• 低阶 self-Attention。这一系列工作捕获了 self-Attention 的低阶属性;
• Attention 与先验。该研究探索了用先验 attention 分布来补充或替代标准 attention;
• 改进多头机制。该系列研究探索了不同的替代多头机制。

40_大模型_LLMs_训练集面

1. SFT(有监督微调)的数据集格式?

一问一答

2. RM(奖励模型)的数据格式?

一个问题 $^+$ 一条好回答样例 $^+$ 一条差回答样例

3. PPO(强化学习)的数据格式?

理论上来说,不需要新增数据。需要提供一些prompt,可以直接用sft阶段的问。另外,需要限制模型不要偏离原模型太远(ptx loss),也可以直接用sft的数据。

41_大模型_LLMs_LLM生成SFT数据方法面

大模型(LLMs)LLM生成SFT数据方法面

来自: AiGC面试宝典

扫码 查看更

一、SFT数据集如何生成?

SFT数据集构建通常有两种方法:人工标注和使用LLM(比如GPT-4)来生成的,人工标注对于构建垂直领域比较合适,可以减少有偏数据,但是成本略高;使用LLM生成,可以在短时间内生成大量数据。

42_大模型_LLMs_显存问题面

大模型(LLMs)显存问题面

来自: AiGC面试宝典

1. 大模型大概有多大,模型文件有多大?

一般放出来的模型文件都是fp16的,假设是一个 n B的模型,那么模型文件占 2n G,fp16加载到显存里做推理也是占 2n G,对外的pr都是 10n 亿参数的模型。