谢赛宁认为”对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。” 所以数据的重要性不言而喻,而模型排在第三之后。sora 技术栈 from zero to hero:GAN、AE、DAE、VAE、VQVAE、CLIP、DALL·E、Diffusion Model、LDM、DDPM、Classifier Guided Diffusion、Classifier-Free Guidance、DALL·E 2、Vit、ViViT、MAE、NaViT、Dit 等方面。
flash attention V1 V2 V3 V4 如何加速 attention,主要包括 flash attention V1 V2 V3 V4 的原理和实现,以及如何加速 attention 的方法。
大模型的微调技术,从不同的方面,有不同的分类。高效微调技术可以粗略分为以下三大类:增加额外参数(Addition-Based)、选取一部分参数更新(Selection-Based)、引入重参数化(Reparametrization-Based)。而在增加额外参数这类方法中,又主要分为类适配器(Adapter-like)方法和软提示(Soft prompts)两个小类。
如何评估大模型,Tiny Eval 是一个简单的 LLM 评测框架,包含 LLM 通用评测的核心功能,支持生成式、判别式、选则式评测问题,框架主要包含 inference 与 eval 部分,目的是为了帮助大家更好的理解 LLM 评测的原理与实现。
调研Agent核心思想,主要有metagpt、React、Reflexion、Toolformer、Swiftsage、Creator等等。Tiny Agent 实现,主要包括 构造大模型、构造工具、构造Agent、运行Agent等步骤。
纯手工搭建 RAG 框架 — Tiny RAG,主要包括以下几个方面:1. RAG 介绍;2. 向量化;3. 加载和切分文档;4. 数据库和向量检索;5. 大模型模块;6. 代码实现;7. RAG总结等方面。
深入剖析大模型原理 — Qwen Blog。主要包 Qwen2Config、Qwen2Model、Qwen2DecoderLayer、Qwen2Attention、Qwen2MLP、Qwen2RMSNorm等模块的详细介绍。
Llama3部署和微调,实践教程(InternStudio 版),主要包括:1. Llama 3 Web Demo 部署,2. XTuner 小助手认知微调,3. LMDeploy 部署 Llama3 模型、推理速度、使用LMDeploy运行视觉多模态大模型Llava-Llama-3等内容。
文本生成视频,个性化声音,技术栈 Latte + Sambert + Moviepy。这是一个文本转视频的项目,通过输入文本,生成对应的视频。 1. 文字生成动态视频 Latte 2. 文字生成个性化语音 Sambert 3. 视频和语音合成,带有字幕。
解读 文生图技术栈,根据文生图的发展路线,我们把文生图的发展历程发展成如下4个阶段: 1. 基于生成对抗网络的(GAN)模型 2. 基于自回归(Autoregressive)模型 3. 基于扩散(diffusion)模型 4. 基于Transformers的扩散(diffusion)模型。
一键文本生成视频,非sora,技术栈 TTS + DALL·E + moviepy。这是一个文本转视频的项目,通过输入文本,一键直接生成对应的视频。
This nanoGPT-lecture code git, including Andrej Karpathy's nanoGPT, ng-vedio-lecture, gpt_dev.ipynb and my learning notes. Welcome to like and follow
[ICLR 2024] SWE-Bench: Can Language Models Resolve Real-world Github Issues?
Paper