不同用户群体(如新老用户)、APP不同频道模块、不同客户端等,可以看作不同场景。多场景建模是解决不同场景/分布下的相同任务,如对不同场景样本预估相同的 CTR 目标。主要内容有:PEPNet, STAR, M2M, APG, AdaSparse, HC^2, MARIA。
一文理解Attention:从起源到MHA,MQA和GQA。Attention模块是现在几乎所有大模型的核心模块,因此也有很多工作致力于提升注意力计算的性能和效果。主要内容有:关于Attention、从RNN到Attention、Transformer的attention、MHA、MQA、GQA、KV Cache等。
如何评估大模型,Tiny Eval 是一个简单的 LLM 评测框架,包含 LLM 通用评测的核心功能,支持生成式、判别式、选则式评测问题,框架主要包含 inference 与 eval 部分,目的是为了帮助大家更好的理解 LLM 评测的原理与实现。
调研Agent核心思想,主要有metagpt、React、Reflexion、Toolformer、Swiftsage、Creator等等。Tiny Agent 实现,主要包括 构造大模型、构造工具、构造Agent、运行Agent等步骤。
纯手工搭建 RAG 框架 — Tiny RAG,主要包括以下几个方面:1. RAG 介绍;2. 向量化;3. 加载和切分文档;4. 数据库和向量检索;5. 大模型模块;6. 代码实现;7. RAG总结等方面。
深入剖析大模型原理 — Qwen Blog。主要包 Qwen2Config、Qwen2Model、Qwen2DecoderLayer、Qwen2Attention、Qwen2MLP、Qwen2RMSNorm等模块的详细介绍。
Llama3部署和微调,实践教程(InternStudio 版),主要包括:1. Llama 3 Web Demo 部署,2. XTuner 小助手认知微调,3. LMDeploy 部署 Llama3 模型、推理速度、使用LMDeploy运行视觉多模态大模型Llava-Llama-3等内容。
文本生成视频,个性化声音,技术栈 Latte + Sambert + Moviepy。这是一个文本转视频的项目,通过输入文本,生成对应的视频。 1. 文字生成动态视频 Latte 2. 文字生成个性化语音 Sambert 3. 视频和语音合成,带有字幕。
解读 文生图技术栈,根据文生图的发展路线,我们把文生图的发展历程发展成如下4个阶段: 1. 基于生成对抗网络的(GAN)模型 2. 基于自回归(Autoregressive)模型 3. 基于扩散(diffusion)模型 4. 基于Transformers的扩散(diffusion)模型。
This nanoGPT-lecture code git, including Andrej Karpathy's nanoGPT, ng-vedio-lecture, gpt_dev.ipynb and my learning notes. Welcome to like and follow
[ICLR 2024] SWE-Bench: Can Language Models Resolve Real-world Github Issues?
Paper