16_LLM文档对话_pdf解析关键问题

LLM文档对话 —— pdf解析关键问题

来自: AiGC面试宝典

扫码 查看更

一、为什么需要进行pdf解析?

最近在探索ChatPDF和ChatDoc等方案的思路,也就是用LLM实现文档助手。在此记录一些难题和解决方案,首先讲解主要思想,其次以问题 $\cdot+$ 回答的形式展开。

17_大模型_LLMs_RAG_版面分析_表格识别方法篇

大模型(LLMs)RAG 版面分析——表格识别方法篇

来自: AiGC面试宝典

• 大模型(LLMs)RAG 版面分析——表格识别方法篇

一、为什么需要识别表格?
二、介绍一下 表格识别 任务?
• 三、有哪些 表格识别方法?• 3.1 传统方法• 3.2 pdfplumber表格抽取• 3.2.1 pdfplumber 如何进行 表格抽取?• 3.2.2 pdfplumber 常见的表格抽取模式?

18_大模型_LLMs_RAG_版面分析_文本分块面

大模型(LLMs)RAG 版面分析——文本分块面

来自: AiGC面试宝典

• 大模型(LLMs)RAG 版面分析——文本分块面• 一、为什么需要对文本分块?• 二、能不能介绍一下常见的文本分块方法?

19_大模型外挂知识库优化_如何利用大模型辅助召回

大模型外挂知识库优化— 如何利用大模型辅助召回?

来自: AiGC面试宝典

• 大模型外挂知识库优化——如何利用大模型辅助召回?

• 一、为什么需要使用大模型辅助召回?
• 策略一: HYDE• 1. 介绍一下 HYDE 思路?• 2. 介绍一下 HYDE 问题?
• 策略二: FLARE• 1. 为什么 需要 FLARE ?• 2. FLARE 有哪些召回策略?• 2.1 策略1• 2.1.1 策略1 思路?• 2.1.2 策略1 缺陷?• 2.2 策略2• 2.2.1 策略2 思路?
• 致谢

2_Layer_normalization_篇

Layer normalization 篇

来自: AiGC面试宝典

Layer normalization-方法篇

一、Layer Norm 篇

1.1 Layer Norm 的计算公式写一下?

$$ \begin{array}{c}{{\displaystyle\mu=E(X)\leftarrow\frac{1}{H}\sum_{i=1}^{H}x_{i}}}\ {{\mathrm{}}}\ {{\displaystyle\sigma\leftarrow V a r(x)=\sqrt{\frac{1}{H}\sum_{i=1}^{H}(x_{i}-\mu)^{2}+\epsilon}}}\end{array} $$

$$ y=\frac{x-E(x)}{\sqrt{V a r(X)+\epsilon}}\cdot\gamma+\beta $$

gamma:可训练的再缩放参数beta:可训练的再偏移参数

20_大模型外挂知识库优化_负样本样本挖掘篇

大模型外挂知识库优化——负样本样本挖掘篇

来自: AiGC面试宝典

• 大模型外挂知识库优化——负样本样本挖掘篇• 一、为什么需要构建负难样本?• 二、负难样本构建方法篇

• 2.1 随机采样策略(Random Sampling)方法
• 2.2 Top-K负例采样策略(Top-K Hard Negative Sampling)方法
• 2.3 困惑负样本采样方法SimANS 方法
• 2.4 利用 对比学习微调 方式构建负例方法
• 2.5 基于批内负采样的对比学习方法
• 2.6 相同文章采样方法
• 2.7 LLM辅助生成软标签及蒸馏

21_RAG_Retrieval_Augmented_Generation_评测面

RAG(Retrieval-Augmented Generation)评测面

来自: AiGC面试宝典

• RAG(Retrieval-Augmented Generation)评测面

一、为什么需要 对 RAG 进行评测?• 二、如何合成 RAG 测试集?• 三、RAG 有哪些评估方法?• 3.1 独立评估• 3.1.1 介绍一下 独立评估?• 3.1.2 介绍一下 独立评估 模块?• 3.2 端到端评估• 3.2.1 介绍一下 端到端评估• 3.2.2 介绍一下 端到端评估 模块?• 四、RAG 有哪些关键指标和能力?• 五、RAG 有哪些评估框架?• 4.1 RAGAS• 4.2 ARES• 致谢

22_检索增强生成_RAG_优化策略篇

• 检索增强生成(RAG) 优化策略篇

一、RAG基础功能篇• 1.1 RAG 工作流程• 二、RAG 各模块有哪些优化策略?

• 三、RAG 架构优化有哪些优化策略?

• 3.1 如何利用 知识图谱(KG)进行上下文增强?• 3.1.1 典型RAG架构中,向量数据库进行上下文增强 存在哪些问题?• 3.1.2 如何利用 知识图谱(KG)进行上下文增强?2 Self-RAG:如何让 大模型 对 召回结果 进行筛选?• 3.2.1 典型RAG架构中,向量数据库 存在哪些问题?• 3.2.2 Self-RAG:如何让 大模型 对 召回结果 进行筛选?• 3.2.3 Self-RAG 的 创新点是什么?• 3.2.4 Self-RAG 的 训练过程?• 3.2.5 Self-RAG 的 推理过程?• 3.2.6 Self-RAG 的 代码实战?

23_大模型_LLMs_RAG_关键痛点及对应解决方案

大模型(LLMs)RAG —— 关键痛点及对应解决方案

来自: AiGC面试宝典

• 大模型(LLMs)RAG —— 关键痛点及对应解决方案

• 前言

• 问题一:内容缺失问题• 1.1 介绍一下 内容缺失问题?• 1.2 如何 解决 内容缺失问题?

24_大模型_LLMs_RAG_优化策略_RAG_Fusion篇

大模型(LLMs)RAG 优化策略 —— RAG-Fusion篇

来自: AiGC面试宝典

• 大模型(LLMs)RAG 优化策略 —— RAG-Fusion篇

RAG 有哪些优点?二、 RAG 存在哪些局限性?• 三、为什么 需要 RAG-Fusion?• 四、说一下 RAG-Fusion 核心技术?• 五、说一下 RAG-Fusion 工作流程?• 5.1 多查询生成• 5.2 多查询生成 技术实现(提示工程)?• 5.3 多查询生成 工作原理?• 5.4 逆向排名融合(RRF)• 5.4.1 为什么选择RRF?• 5.4.2 RRF 技术实现?• 5.4.3 生成性输出 用户意图保留• 5.4.4 生成性输出 用户意图保留 技术实现• 六、RAG-Fusion 的优势和不足• 6.1 RAG-Fusion 优势• 6.2 RAG-Fusion 挑战• 致谢