Lucius Blog

「适志于道 寄骸于迹 而无往不欣」

大型语言模型训练的三个阶段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)

当前的大型语言模型训练大致可以分为如下三个阶段: Pre-train:根据大量可获得的文本资料,采用自监督学习-预测 next token 的方式,训练得到预训练模型; Instruction Fine-tuning:根据大量任务上的指令标记数据,采用监督学习的方式微调模型,使得模型可以理解人类指令; RLHF:基于人类的反馈,采用强...

如何不修改模型参数来强化大语言模型 (LLM) 能力?

大语言模型 (Large Language Model, LLM, e.g. ChatGPT) 的参数量少则几十亿,多则上千亿,对其的训练往往需要大量的算力、智力以及财力支撑。基于此,许多低成本提高 LLM 能力的方法也相应被提出,其中包括模型微调 (e.g., LoRA) 以及一些无须改变模型参数的方法。本文主要关注后者,对下述几种常见的方法进行大致介绍: 提示语设计 (...

最近邻搜索 - 经典树型结构 M-Tree

最近邻搜索的目标是从 $N$ 个对象中,快速找到距离查询点最近的对象。根据需求的不同,该任务又分为「精准查找」与「近似查找」,并且查找的目标也分为「找到前 $K$ 个最近的对象」与「找到距查询点距离小于 $r$ 的对象」。处理此类任务的关键在于组织已有对象的数据结构,大致分为以下三类: 树型结构:例如 Vantage-Point Tree (VP-Tree) [1]、M-T...

最近邻搜索 - Hierarchical Navigable Small World

HNSW 算法的目标是从 $N$ 个数据点中,快速找到距离查询点最近的 $K$ 个数据点。其主要思想是构建一个层次图,其中每一层节点数自上而下递增,且每一层中的节点与其相近节点连边。基于这个层次图,查搜时可以贪心地自上而下搜索,每一层搜索时检查当前搜索节点的邻居是否更近,到达每一层的局部最优后,跳转至下一层,大致算法步骤如下图所示: Delaunay Graph HNSW 算法...

关联规则挖掘:Apriori 和 FP-Growth 算法

关联规则 (Association Rules) 即一组事物之间的关联关系。此处举一个常见例子进行说明,某超市将面包和黄油放在相近的位置,其原因是在其历史订单中,这两个商品经常被同时购买。 那么关联规则挖掘考虑的问题为:如何在历史数据中,挖掘出一组经常同时出现的事物集合?这种关系可以看作是 IF-THEN 关系,即当商品 A 被挑选时,商品 B 也大概率同时会被选中。 关联规则-相关概念...

JACM23 - A New Algorithm for Euclidean Shortest Paths in the Plane

本文关注的问题为计算几何学中的经典问题,即「在平面上给定一组两两不相交的多边形障碍物,寻找两点之间避开所有障碍物的欧几里得最短路径」,简单理解就是「含多边形障碍物的两点最短路问题」。 令 $n$ 表示所有障碍物的顶点数,$h$ 表示障碍物的总数,针对该问题的主要算法发展历程如下所示:   Time Complexity Space C...

针对多标签(Multi-label)任务的经典算法

多标签(Multi-label)任务是分类任务的扩展版,即每个样本不再仅属于一个类别,而是可以同时属于多个类别(标签)。因此与经典的分类任务不同,多标签问题需要预测一组标签,而不是一个单一的标签。 本篇文章记录了一些经典的处理多标签(Multi-label)任务的算法。 Binary Relevance (BR) 此类方法非常直接,训练原理为:将多标签问题分解为多个独立的二分类问题,每...

随机多臂赌博机 (Stochastic MAB):置信上界算法 (Upper Confidence Bound)

本篇文章介绍一种针对「Stochastic Multi-armed Bandits (MAB)」问题的算法,即「Upper Confidence Bound (UCB)」,其通过估计摇臂的奖励区间,实现了探索与利用之间的平衡。 Stochastic Multi-armed Bandits 假设现在有一个赌博机,其上共有 $K$ 个选项,即 $K$ 个摇臂,玩家每轮只能选择拉动一个摇臂,每...

AAAI24 - Model Reuse Tutorial

该篇 Tutorial 主要对 Model Reuse 当下的进展进行了整理和总结。 The Paradigm Shifts Tutorial 中指出在一些数据量比较稀少的场景,neural scaling law (the performance, training data, and model size generally should follow a power law) 不一...

IJCAI23 - Continual Learning Tutorial

本篇 Tutorial 主要介绍了 CL 中的一些基本概念以及一些过往的方法。 Problem Definition Continual Learning 和 Incremental learning 以及 Lifelong learning 属于同一概念, 其所关心的场景均为「如何在新数据持续到来的情况下更新模型?」;并且由于存储空间和隐私问题,流式数据通常不能被存储。 CL 的整体...