1. 【置顶】Sora|解读 Sora 技术栈

    谢赛宁认为”对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。” 所以数据的重要性不言而喻,而模型排在第三之后。sora 技术栈 from zero to hero:GAN、AE、DAE、VAE、VQVAE、CLIP、DALL·E、Diffusion Model、LDM、DDPM、Classifier Guided Diffusion、Classifier-Free Guidance、DALL·E 2、Vit、ViViT、MAE、NaViT、Dit 等方面。

    2024/03/09 Sora

  2. 【置顶】Flash Attention|flash attention V1 V2 V3 V4 如何加速 attention

    flash attention V1 V2 V3 V4 如何加速 attention,主要包括 flash attention V1 V2 V3 V4 的原理和实现,以及如何加速 attention 的方法。

    2024/03/03 Flash Attention

  3. 【置顶】FineTune|大模型微调技术综述

    大模型的微调技术,从不同的方面,有不同的分类。高效微调技术可以粗略分为以下三大类:增加额外参数(Addition-Based)、选取一部分参数更新(Selection-Based)、引入重参数化(Reparametrization-Based)。而在增加额外参数这类方法中,又主要分为类适配器(Adapter-like)方法和软提示(Soft prompts)两个小类。

    2024/02/17 FineTune

  4. Eval|如何评估你的大模型——Tiny Eval

    如何评估大模型,Tiny Eval 是一个简单的 LLM 评测框架,包含 LLM 通用评测的核心功能,支持生成式、判别式、选则式评测问题,框架主要包含 inference 与 eval 部分,目的是为了帮助大家更好的理解 LLM 评测的原理与实现。

    2024/05/29 Eval

  5. Agent|手搓一个最小的 Agent 系统 — Tiny Agent

    调研Agent核心思想,主要有metagpt、React、Reflexion、Toolformer、Swiftsage、Creator等等。Tiny Agent 实现,主要包括 构造大模型、构造工具、构造Agent、运行Agent等步骤。

    2024/05/24 Agent

  6. RAG|纯手工搭建 RAG 框架 — Tiny RAG

    纯手工搭建 RAG 框架 — Tiny RAG,主要包括以下几个方面:1. RAG 介绍;2. 向量化;3. 加载和切分文档;4. 数据库和向量检索;5. 大模型模块;6. 代码实现;7. RAG总结等方面。

    2024/05/20 RAG

  7. Qwen|深入剖析大模型原理 — Qwen Blog

    深入剖析大模型原理 — Qwen Blog。主要包 Qwen2Config、Qwen2Model、Qwen2DecoderLayer、Qwen2Attention、Qwen2MLP、Qwen2RMSNorm等模块的详细介绍。

    2024/05/17 Qwen

  8. Llama3|Llama3部署和微调,实践教程(InternStudio 版)

    Llama3部署和微调,实践教程(InternStudio 版),主要包括:1. Llama 3 Web Demo 部署,2. XTuner 小助手认知微调,3. LMDeploy 部署 Llama3 模型、推理速度、使用LMDeploy运行视觉多模态大模型Llava-Llama-3等内容。

    2024/04/30 Llama3

  9. Video|文本生成视频,个性化声音,技术栈 Latte + Sambert + Moviepy

    文本生成视频,个性化声音,技术栈 Latte + Sambert + Moviepy。这是一个文本转视频的项目,通过输入文本,生成对应的视频。 1. 文字生成动态视频 Latte 2. 文字生成个性化语音 Sambert 3. 视频和语音合成,带有字幕。

    2024/04/13 Video

  10. Image|解读 文生图技术栈

    解读 文生图技术栈,根据文生图的发展路线,我们把文生图的发展历程发展成如下4个阶段: 1. 基于生成对抗网络的(GAN)模型 2. 基于自回归(Autoregressive)模型 3. 基于扩散(diffusion)模型 4. 基于Transformers的扩散(diffusion)模型。

    2024/03/05 Image

  11. Video|一键文本生成视频,非sora,技术栈 TTS + DALL·E + moviepy

    一键文本生成视频,非sora,技术栈 TTS + DALL·E + moviepy。这是一个文本转视频的项目,通过输入文本,一键直接生成对应的视频。

    2024/03/02 Video