61_大模型_LLMs_加速篇

2025-03-09

大模型

约 1674 字预计阅读 4 分钟

大模型（LLMs）加速篇

来自： AiGC面试宝典

扫码查看更

1. 当前优化模型最主要技术手段有哪些？

• 算法层面：蒸馏、量化
• 软件层面：计算图优化、模型编译
• 硬件层面：FP8（NVIDIA H系列GPU开始支持FP8，兼有fp16的稳定性和int8的速度）

62_LLMs_推理性能面

2025-03-09

大模型

约 1162 字预计阅读 3 分钟

LLMs 推理性能面

来自： AiGC面试宝典

扫码查看更

• LLMs 推理性能面

• 一、介绍一下 LLMs 的文本生成过程？
二、如何准确衡量模型的推理速度呢？
• 三、如果对整体推理时延有具体目标，有哪些有效的启发式方法来评估模型？
• 四、LLMs 推理存在哪些挑战？
• 致谢

63_LLM_大语言模型_部署加速方法_PagedAttention篇

2025-03-09

大模型

约 1329 字预计阅读 3 分钟

LLM（大语言模型）部署加速方法——PagedAttention篇

来自： AiGC面试宝典

扫码查看更

一、vLLM 用于大模型并行推理加速存在什么问题？

vLLM 用于大模型并行推理加速，其中核心改进是PagedAttention算法，在 vLLM 中，我们发现 LLM 服务的性能受到内存的瓶颈。在自回归解码过程中，LLM 的所有输入标记都会生成其key和value张量，并且这些张量保存在 GPU 内存中以生成下一个token。这些缓存的key和value张量通常称为 KV 缓存。KV缓存是：

64_大模型推理加速工具_vLLM

2025-03-09

大模型

约 2556 字预计阅读 6 分钟

大模型推理加速工具 vLLM

来自： AiGC面试宝典

扫码查看更

vLLM 官网 https://vllm.ai/
vLLM 官方 Documentation: https://vllm.readthedocs.io/en/latest/getting_started/installation.html
Source Code: https://github.com/vllm-project/vllm

一、引言

1.1 前言

随着大语言模型（LLM）的不断发展，这些模型在很大程度上改变了人类使用 AI 的方式。然而，实际上为这些模型提供服务仍然存在挑战，即使在昂贵的硬件上也可能慢得惊人。
现在这种限制正在被打破。最近，来自加州大学伯克利分校的研究者开源了一个项目 vLLM，该项目主要用于快速 LLM 推理和服务。vLLM 的核心是 PagedAttention，这是一种新颖的注意力算法，它将在操作系统的虚拟内存中分页的经典思想引入到 LLM 服务中。
配备了 PagedAttention 的 vLLM 将 LLM 服务状态重新定义：它比 HuggingFace Transformers 提供高达 24 倍的吞吐量，而无需任何模型架构更改。

65_LLM_大语言模型_部署加速方法_Faster_Transformer篇

2025-03-09

大模型

约 1801 字预计阅读 4 分钟

LLM（大语言模型）部署加速方法— Faster Transformer篇

来自： AiGC面试宝典

扫码查看更

一、为什么需要 FasterTransformer？

二、FasterTransformer 介绍一下？

NVIDIA FasterTransformer (FT) 是一个库，用于实现基于Transformer的神经网络推理的加速引擎，特别强调大型模型，以分布式方式跨越许多 GPU 和节点。
FasterTransformer 包含Transformer块的高度优化版本的实现，其中包含编码器和解码器部分。
使用此模块，您可以运行完整的编码器-解码器架构（如 T5）以及仅编码器模型（如 BERT）或仅解码器模型（如 GPT）的推理。它是用 $\mathsf{C}\substack{++}$ /CUDA 编写的，依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库。这使您可以在 GPU 上构建最快的Transformer推理流程。

66_纯Python超轻量高性能LLM推理框架_LightLLM

2025-03-09

大模型

约 4804 字预计阅读 10 分钟

纯Python超轻量高性能LLM推理框架 LightLLM

来自： AiGC面试宝典

扫码查看更

官方 Documentation:Source Code: https://github.com/ModelTC/lightllm

一、引言

1.1 前言

随着ChatGPT的火爆出圈，大语言模型受到越来越多的关注。这类模型的出现极大的提高了人们的工作效率，然而，如何低成本、高吞吐的将参数量动辄千亿的模型部署到各类服务器上，成为将技术进一步大范围推广的关键。为了提高大模型服务的吞吐量，同时让更多感兴趣的人快速上手参与其中，一个轻量化的LLM推理服务框架LightLLM应运而生。LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention，并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下，LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐，部分场景下可以得到4倍左右的性能提升。LightLLM灵活、易用、高效，感兴趣的同学不妨点开上方项目链接上手一试。