71_如何缓解大模型幻觉

如何缓解大模型幻觉?

来自: AiGC面试宝典

扫码 查看更

一、为什么 会 出现 大模型幻觉?

1.1 训练数据中存在 矛盾或者错误的表述 对LLMs训练影响

大模型幻觉出现的主要原因之一 是 训练数据中存在 矛盾或者错误的表述问题。由于 用于 LLMs 训练的 标注数据 大多来自于互联网网上数据(新闻、文章、书籍、网站等)。虽然这些数据一定程度上提供了有价值的语言模式,但它也不可避免会包含一些不准确的信息(因为互联网上的信息并不是都经过审核的)。
LLM的训练过程大多数是基于next token prediction的方式进行预训练,因此,它只能保证文本生成的流畅性,而无法辨别所遇到的信息是否真实或准确。
因此,如果训练数据中包含一些矛盾或者错误的表述,就可能导致LLM也在学习这些错误的表达,从而一定程度导致了幻觉的产生。

72_LLMs_对比篇

扫码 查看更

LLMs 训练数据 和 数据量 对比如何?

模型训练数据数据量C
LLaMA以英语为主 的拉丁语系1T/1.4T tokens
LLaMA2以英语为主 的拉丁语系2T tokens
Falcon英语、法语1.5T tokens
Bloom46种自然语 言和13种编 程语言350B tokens
ChatGLM -6B中英双语 中英文比例 为1:11T tokens
ChatGLM 2-6B中英双语 中英文比例 为1:11.4T tokens
balchuan中英双语1.2T
tokens

73_百川智能baichuan7B_13B_53B_baichuan2_总结篇

百川智能baichuan7B、13B、53B、baichuan2 总结篇

来自: AiGC面试宝典

扫码 查看更

一、baichuan-7B篇

项目地址:https://github.com/baichuan-inc/baichuan-7B 预训练模型:https://huggingface.co/baichuan-inc/baichuan-7B modelscope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/

74_LLaMA_常见面试题篇

扫码 查看更

• LLaMA 常见面试题篇

• 一、相比较于llama而言,llama2有哪些改进,对于llama2是应该如何finetune?

一、相比较于llama而言,llama2有哪些改进,对于llama2是应该如何finetune?

llama和llama2都是一种大型语言模型(Large Language Model,LLM),它们可以用于多种自然语言处理的任务,如文本生成、文本摘要、机器翻译、问答等。llama是一种基于Transformer的seq2seq模型,它使用了两种预训练任务,一种是无监督的Span级别的mask,另一种是有监督的多任务学习。llama将所有的下游任务都视为文本到文本的转换问题,即给定一个输入文本,生成一个输出文本。llama使用了一个干净的大规模英文预料C4,包含了约750GB的文本数据。llama2是llama的改进版本,它在以下几个方面有所提升:

75_GPT_经验篇

GPT 经验篇

来自: AiGC面试宝典

• GPT 经验篇

gpt源码past_key_value是干啥的?二、 gpt onebyone 每一层怎么输入输出?• 三、 bert和gpt有什么区别• 四、 文本生成的几大预训练任务?• 五、 讲讲T5和Bart的区别,讲讲bart的DAE任务?• 六、讲讲Bart和Bert的区别?• 七、gpt3和gpt2的区别?• 致谢

76_思维链_Chain_of_Thought_COT

思维链 Chain-of-Thought(COT)

来自: AiGC面试宝典

扫码 查看更

一、什么是思维链提示?

思维链(Chain-of-Thought,CoT):通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。

1000个DeepSeek神级提示词_让你轻松驾驭AI

为什么你的 AI 助手总是答非所问?

「写篇产品分析」 $\rightarrow$ 收到一堆不知所云的文字

「做个竞品对比」 $\rightarrow$ 得到几页没有重点的废话

$\P$ 揭秘:不是 AI 不够聪明,而是你的指令太“高冷”!

7_相似度函数篇

扫码 查看更

• 相似度函数篇

一、除了cosin还有哪些算相似度的方法
• 二、了解对比学习嘛?
• 三、对比学习负样本是否重要?负样本构造成本过高应该怎么解决?

77_思维链_Chain_of_Thought_COT_变体篇

思维链 Chain-of-Thought(COT)变体篇

来自: AiGC面试宝典

• 思维链 Chain-of-Thought(COT)变体篇• 思维链 Chain-of-Thought(COT):思维链的启蒙• 1. 什么是 思维链 Chain-of-Thought(COT)?• 2. 思维链 Chain-of-Thought(COT)是思路是什么?• 3. 思维链 Chain-of-Thought(COT)存在问题?

78_小样本提示学习篇

小样本提示学习篇

来自: AiGC面试宝典

扫码 查看更

• 小样本提示学习篇

一、什么是Zero-shot提示方法?什么是Few-shot提示方法?阐述One-shot和Few-shot提示策略及其应用场景?• 四、什么是逐步Zero-shot• 五、定义Zero-shot-CoT提示策略并描述其应用方法?• 六、解释Few-shot-CoT提示策略及其实际使用方式?• 七、Few-shot-LtM策略包含哪些主要阶段及其职责?• 致谢