25_Graph_RAG_面_一种_基于知识图谱的大模型检索增强实现策略

Graph RAG 面 — 一种 基于知识图谱的大模型检索增强实现策略

来自: AiGC面试宝典

• Graph RAG(Retrieval-Augmented Generation) 面 —— 一种 基于知识图谱的大模型检索增强实现策略

一、为什么需要 Graph RAG?二、 什么是 Graph RAG?• 三、Graph RAG 思路介绍?• 四、用代码 介绍 Graph RAG ?• 五、用 示例 介绍 Graph RAG ?• 六、Graph RAG 排序优化方式?• 致谢

26_大模型_LLMs_参数高效微调_PEFT_面

大模型(LLMs)参数高效微调(PEFT) 面

来自: AiGC面试宝典

扫码 查看更

1. 微调方法是啥?如何微调?

fine-tune,也叫全参微调,bert微调模型一直用的这种方法,全部参数权重参与更新以适配领域数据,效果好。prompt-tune, 包括p-tuning、lora、prompt-tuning、adaLoRA等delta tuning方法,部分模型参数参与微调,训练快,显存占用少,效果可能跟FT(fine-tune)比会稍有效果损失,但一般效果能打平。

27_适配器微调_Adapter_tuning_篇

适配器微调(Adapter-tuning)篇

来自: AiGC面试宝典

扫码 查看更

一、为什么 需要 适配器微调(Adapter-tuning)?

  1. 预训练模型参数量变多,在特定任务下进行全量微调即昂贵又耗时;

二、适配器微调(Adapter-tuning)思路?

• 设计了Adapter结构(首先是一个down-project层将高维度特征映射到低维特征,然后过一个非线形层之后,再用一个up-project结构将低维特征映射回原来的高维特征;同时也设计了skip-connection结构,确保了在最差的情况下能够退化为identity),并将其嵌入Transformer的结构里面;
• 在训练时,固定住原来预训练模型的参数不变,只对新增的Adapter结构进行微调。同时为了保证训练的高效性(也就是尽可能少的引入更多参数)。

28_提示学习_Prompting_篇

• 提示学习(Prompting)

一、为什么需要 提示学习(Prompting)?
二、什么是 提示学习(Prompting)?
• 三、提示学习(Prompting) 有什么优点?
• 四、提示学习(Prompting)有哪些方法,能不能稍微介绍一下它们间?

29_LoRA_系列篇

LoRA 系列篇

来自: AiGC面试宝典

扫码 查看更

• LoRA 系列篇

• 一、LoRA篇

• 1.1 什么是 LoRA?• 1.2 LoRA 的思路是什么?$\bullet$ 1.3 LoRA 的特点是什么?• 1.4 简单描述一下 LoRA?

3_LLMs_激活函数篇

LLMs 激活函数篇

来自: AiGC面试宝典

1 介绍一下 FFN 块 计算公式?

$$ F F N(x)=f(x W_{1}+b_{1})W_{2}+b_{2} $$

2 介绍一下 GeLU 计算公式?

$$ G e L U(x)\approx0.5x(1+t a n h(\sqrt{\frac{2}{\pi}}(x+0.044715x^{3}))) $$

3 介绍一下 Swish 计算公式?

$$ S w i s h_{\beta}(x)=x\cdot\sigma(\beta x) $$

30_如何使用_PEFT库_中_LoRA

如何使用 PEFT库 中 LoRA?

来自: AiGC面试宝典

• 如何使用 PEFT库 中 LoRA?

• 一、前言• 二、如何 配置 LoraConfig?• 三、模型 加入PEFT策略

31_大模型_LLMs_推理面

大模型(LLMs)推理面

来自: AiGC面试宝典

扫码 查看更

• 大模型(LLMs)推理面

• 1. 为什么大模型推理时显存涨的那么多还一直占着?
• 2. 大模型在gpu和cpu上推理速度如何?
• 3. 推理速度上,int8和fp16比起来怎么样?
• 4. 大模型有推理能力吗?
• 5. 大模型生成时的参数怎么设置?
• 6. 有哪些省内存的大语言模型训练/微调/推理方法?• 6.1 如何 估算模型所需的RAM?• 6.2 Fp16-mixed precision• 6.3 Int8-bitsandbytes• 6.4 LoRA• 6.5 Gradient Checkpointing• 6.6 Torch FSDP $^{\ast}$ CPU offload
• 7. 如何让大模型输出合规化
• 8. 应用模式变更
• 9. 模型输出的分布比较稀疏,怎么处理?

32_大模型_LLMs_增量预训练篇

大模型(LLMs)增量预训练篇

来自: AiGC面试宝典

• 大模型(LLMs)增量预训练篇

• 1. 为什么要增量预训练?
• 2. 进行 增量预训练 需要做哪些准备工作?
• 3. 增量预训练 所用 训练框架?
• 4. 增量预训练 训练流程 是怎么样?
• 5. 增量预训练 一般需要多大数据量?
• 6. 增量预训练 过程中,loss 上升正常么?
• 7. 增量预训练 过程中,lr 如何设置?
• 8. 增量预训练 过程中,warmup_ratio 如何设置?
• 9. warmup 的步数 对 大模型继续预训练 是否有影响?
• 10. 学习率 大小 对 大模型继续预训练 后 上下游任务影响?
• 11. 在初始预训练中使用 Rewarmup 对 大模型继续预训练 性能 影响?
• 致谢

33_增量预训练_Pretrain_样本拼接篇

增量预训练(Pretrain)样本拼接篇

来自: AiGC面试宝典

扫码 查看更

• 增量预训练(Pretrain)样本拼接篇

• 一、Pretrain阶段,为什么需要拼接拼接?

• 二、有哪些 拼接方式?

• 2.1 拼接方式一:Random Concatenate• 2.2 拼接方式二:Random Concatenate $^+$ NoiseMask• 2.3 拼接方式三:Random Concatenate $^+$ Cluster• 2.4 拼接方式四:IN-CONTEXT PRETRAINING