金融领域算法应用场景,主要包括:1. 风险管理(风险预测、欺诈识别、贷中监控、智能催收)2. 数据/AI产品(智能客服、信用分、画像产品)3. 智能分析(智能投顾、量化投资、价值预测)4. 智能用户增长(个性化营销推荐、用户拉新与留存)。
谢赛宁认为”对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。” 所以数据的重要性不言而喻,而模型排在第三之后。sora 技术栈 from zero to hero:GAN、AE、DAE、VAE、VQVAE、CLIP、DALL·E、Diffusion Model、LDM、DDPM、Classifier Guided Diffusion、Classifier-Free Guidance、DALL·E 2、Vit、ViViT、MAE、NaViT、Dit 等方面。
大模型的微调技术,从不同的方面,有不同的分类。高效微调技术可以粗略分为以下三大类:增加额外参数(Addition-Based)、选取一部分参数更新(Selection-Based)、引入重参数化(Reparametrization-Based)。而在增加额外参数这类方法中,又主要分为类适配器(Adapter-like)方法和软提示(Soft prompts)两个小类。
互金项目贷前贷中贷后的运营,主要分为三个阶段:贷前、贷中、贷后。其中,贷前主要是获客、进件两个阶段,贷中主要是授信、请款放款两个阶段,贷后主要是还款、复贷、逾期催收三个阶段。每个阶段将从业务特点、关注指标、行业案例、运营场景等方面来详细介绍。
本文主要讲述 Llama1 、 Llama2 、 Llama3 、 Llama3.1 、 Llama3.2 系列模型的发展。主要包括发布时间、模型大小、模型迭代、模型架构、训练数据、训练方法、训练优化等方面。
对比 Batch Norm 和 Layer Norm,两者都是常用的归一化方法。其中 Batch Norm 对每个 mini-batch 的输入进行归一化,而 Layer Norm 对每个样本的输入进行归一化。Batch Norm 适用于 CNN、DNN 等,需要较大的 mini-batch 的场景,而 Layer Norm 适用于 RNN、LSTM、Transformer 等,尤其是小批量或单样本训练的场景。
本文 Decoder Only 模型的参数量和计算量,主要包括 Transformer结构、参数量方面、显存占用、计算量方面、参数量和计算量的关系、训练时间预估等等。
不同用户群体(如新老用户)、APP不同频道模块、不同客户端等,可以看作不同场景。多场景建模是解决不同场景/分布下的相同任务,如对不同场景样本预估相同的 CTR 目标。主要内容有:PEPNet, STAR, M2M, APG, AdaSparse, HC^2, MARIA。
一文理解Attention:从起源到MHA,MQA和GQA。Attention模块是现在几乎所有大模型的核心模块,因此也有很多工作致力于提升注意力计算的性能和效果。主要内容有:关于Attention、从RNN到Attention、Transformer的attention、MHA、MQA、GQA、KV Cache等。
如何评估大模型,Tiny Eval 是一个简单的 LLM 评测框架,包含 LLM 通用评测的核心功能,支持生成式、判别式、选则式评测问题,框架主要包含 inference 与 eval 部分,目的是为了帮助大家更好的理解 LLM 评测的原理与实现。
调研Agent核心思想,主要有metagpt、React、Reflexion、Toolformer、Swiftsage、Creator等等。Tiny Agent 实现,主要包括 构造大模型、构造工具、构造Agent、运行Agent等步骤。
纯手工搭建 RAG 框架 — Tiny RAG,主要包括以下几个方面:1. RAG 介绍;2. 向量化;3. 加载和切分文档;4. 数据库和向量检索;5. 大模型模块;6. 代码实现;7. RAG总结等方面。