61_大模型_LLMs_加速篇

大模型(LLMs)加速篇

来自: AiGC面试宝典

扫码 查看更

1. 当前优化模型最主要技术手段有哪些?

• 算法层面:蒸馏、量化
• 软件层面:计算图优化、模型编译
• 硬件层面:FP8(NVIDIA H系列GPU开始支持FP8,兼有fp16的稳定性和int8的速度)

62_LLMs_推理性能面

LLMs 推理性能面

来自: AiGC面试宝典

扫码 查看更

• LLMs 推理性能面

• 一、介绍一下 LLMs 的文本生成过程?
二、如何准确衡量模型的推理速度呢?
• 三、 如果对整体推理时延有具体目标,有哪些有效的启发式方法来评估模型?
• 四、LLMs 推理存在哪些挑战?
• 致谢

63_LLM_大语言模型_部署加速方法_PagedAttention篇

LLM(大语言模型)部署加速方法——PagedAttention篇

来自: AiGC面试宝典

扫码 查看更

一、vLLM 用于大模型并行推理加速 存在什么问题?

vLLM 用于大模型并行推理加速,其中核心改进是PagedAttention算法,在 vLLM 中,我们发现 LLM 服务的性能受到内存的瓶颈。在自回归解码过程中,LLM 的所有输入标记都会生成其key和value张量,并且这些张量保存在 GPU 内存中以生成下一个token。这些缓存的key和value张量通常称为 KV 缓存。KV缓存是:

64_大模型推理加速工具_vLLM

大模型推理加速工具 vLLM

来自: AiGC面试宝典

扫码 查看更

vLLM 官网 https://vllm.ai/
vLLM 官方 Documentation: https://vllm.readthedocs.io/en/latest/getting_started/installation.html
Source Code: https://github.com/vllm-project/vllm

一、引言

1.1 前言

随着大语言模型(LLM)的不断发展,这些模型在很大程度上改变了人类使用 AI 的方式。然而,实际上为这些模型提供服务仍然存在挑战,即使在昂贵的硬件上也可能慢得惊人。
现在这种限制正在被打破。最近,来自加州大学伯克利分校的研究者开源了一个项目 vLLM,该项目主要用于快速 LLM 推理和服务。vLLM 的核心是 PagedAttention,这是一种新颖的注意力算法,它将在操作系统的虚拟内存中分页的经典思想引入到 LLM 服务中。
配备了 PagedAttention 的 vLLM 将 LLM 服务状态重新定义:它比 HuggingFace Transformers 提供高达 24 倍的吞吐量,而无需任何模型架构更改。

65_LLM_大语言模型_部署加速方法_Faster_Transformer篇

LLM(大语言模型)部署加速方法— Faster Transformer篇

来自: AiGC面试宝典

扫码 查看更

一、为什么需要 FasterTransformer?

二、FasterTransformer 介绍一下?

NVIDIA FasterTransformer (FT) 是一个库,用于实现基于Transformer的神经网络推理的加速引擎,特别强调大型模型,以分布式方式跨越许多 GPU 和节点。
FasterTransformer 包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分。
使用此模块,您可以运行完整的编码器-解码器架构(如 T5)以及仅编码器模型(如 BERT)或仅解码器模型(如 GPT)的推理。 它是用 $\mathsf{C}\substack{++}$ /CUDA 编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库。这使您可以在 GPU 上构建最快的Transformer推理流程。

66_纯Python超轻量高性能LLM推理框架_LightLLM

纯Python超轻量高性能LLM推理框架 LightLLM

来自: AiGC面试宝典

扫码 查看更

官方 Documentation:Source Code: https://github.com/ModelTC/lightllm

一、引言

1.1 前言

随着ChatGPT的火爆出圈,大语言模型受到越来越多的关注。这类模型的出现极大的提高了人们的工作效率,然而,如何低成本、高吞吐的将参数量动辄千亿的模型部署到各类服务器上,成为将技术进一步大范围推广的关键。为了提高大模型服务的吞吐量,同时让更多感兴趣的人快速上手参与其中,一个轻量化的LLM推理服务框架LightLLM应运而生。LightLLM引入了一种更细粒度的kv cache管理算法 TokenAttention,并设计了一个与TokenAttention高效配合的Efficient Router调度实现。在TokenAttention 和 Efficient Router的相互作用下,LightLLM在大部分场景下都能获得比vLLM 和 Text Generation Inference 得到更高的吞吐,部分场景下可以得到4倍左右的性能提升。LightLLM灵活、易用、高效,感兴趣的同学不妨点开上方项目链接上手一试。

69_大模型幻觉_LLM_Hallucination_面

大模型幻觉(LLM Hallucination)面

来自: AiGC面试宝典

扫码 查看更

一、什么是大模型幻觉?

在语言模型的背景下,幻觉指的是一本正经的胡说八道:看似流畅自然的表述,实则不符合事实或者是错误的。

70_大模型的幻觉问题篇

扫码 查看更

一、什么是 大模型幻觉问题?

1.1 大模型幻觉问题定义

• 定义:当模型生成的文本不遵循原文(Faithfulness)或者不符合事实(Factualness),我们就可以认为模型出现了幻觉的问题。