Lucius Blog

「适志于道 寄骸于迹 而无往不欣」

ICML23 - Synthetic Data for Model Selection

本文关注的问题为:是否可以使用合成数据(Synthetic Data)用于模型选择?即不再划分验证集,而是将所有标记数据作为训练集,使用训练集生成的合成数据来挑选模型。 本文中关注的「模型选择」,是指根据训练集训练得到的多个模型(不同网络架构,不同超参等)的选择。 本文的整体行文逻辑为: 首先给出包含 insight 的理论; 随后用大量的实验说明:...

ICML23 - Fundamental Tradeoffs in Learning with Prior Information

本文关注的问题为:为快速学习一项给定的任务,需要多少先验知识?(How much prior knowledge does one require in order to learn quickly on a given task?) 具体来说,本文聚焦于「对于一个给定的问题,先验信息的准确性与学习性能之间的权衡关系 (Fundamental tradeoffs between the a...

选择性集成 - MDEP (PPSN-22)

选择性集成,即集成剪枝(Ensemble Pruning),即从一堆基学习器(base learners)中选择一个子集,希望泛化性能(Generalization Performance)越好的同时,子集大小越小。 先前的研究通常使用验证集上的误差(Validation Error)来估计泛化性能,但最近的理论研究显示间隔分布(Margin Distribution)对泛化性能也很重要。...

CLIP: Learning Transferable Visual Models From Natural Language Supervision

CLIP (Contrastive Language-Image Pre-training) 方法,使用大规模数据 (4 亿图像文本对) + 大模型 (Vit Large),得到了性能超强的预训练模型。 通过将文本作为监督信号,得到了图像下异构输出空间的各类任务的统一预训练模型。 一、CLIP 方法概述 预训练模型 OpenAI 使用 4 亿对「文字-图像」通过对比学习,得到预训练模...

ICML23 - Explore and Exploit the Diverse Knowledge in Model Zoo for Domain Generalization

1. 概述 文章出发点: 近年来预训练模型库兴起,如何有效利用模型库中的信息,获取对下游任务有效的模型,成为重要的研究方向; 先前的研究主要关注于如何识别模型库中最有效的模型,因此未充分利用模型库中多样的归纳偏好; 本文认为 weaker models 中的知识也非常有价值,并提出通过刻画「feature diversity shi...

大型语言模型 (LLM) 的两条发展路线:Finetune v.s. Prompt

在大型语言模型的研究中,研究者对其有两种不同的期待,也可以理解为是两种不同的路线,具体来说: 期待一:成为专才,解决某类特定任务(翻译、获取摘要) 期待二:成为通才,给定指令(Prompt),即可完成对应任务 最早的该方向研究,认为所有 NLP 任务都可以变成问答任务,由此统一所有任务 在下文中,我们将对这两种不同的期待进行...

研究的艺术 (The craft of research) 读书笔记

对于研究者而言,写作是一件很重要的事,好的写作不仅能让更多人愿意读,获得更大影响力,还能帮助作者更深入地进行思考,其重要性已不言而喻。 研究的艺术 (The craft of research) 是一本关于「论文写作」的经典教材,但其中涉及的写作原则非常广泛,对各个领域的写作均有帮助。具体来说,这本书主要包含四个部分,其涉及内容如下: Part-1: Research, Resea...

生成式 AI 背后的共同框架:Stable Diffusion、DALL-E、Imagen

框架 这些生成式 AI 的整体功能为:输入「文字」,返回「图像」,即 Text-to-image Generator: 生成器的内部框架如下所示: 第一部分:Text Encoder,输出 Text,返回对应的 Embedding(向量); 第二部分:Generation Model,输入为 Text 的 Embedding 与一个随机生成的 E...

生成式 AI 分析:大模型 + 大量数据的神奇效果

大模型的涌现能力 (Emergent Ability) 下图是模型性能(Loss for next token prediction)与「参数量」和「数据集大小」之间的关系,可以看出随着「参数量」和「数据集大小」不断变大,模型性能不断增强,仿佛不会遇到瓶颈。 下图展现了大模型的涌现能力,即语言模型的性能随着参数量增加并不是线性关系,而是突然跃升,即涌现。在未达到门槛之前,性能一直在随...

机器学习领域中各学派划分:符号主义、频率主义、贝叶斯主义、连接主义

在机器学习领域中,算法数量可谓是数不胜数,若只关注每个算法本身,将各个算法独立地进行看待,则将眼花缭乱,难以把握算法背后的核心思想。 事实上,虽然机器学习领域中算法数量十分庞大,但其背后的核心思想,即隐藏的世界观认知是有限的。因此在学习机器学习的过程中,我们首先需要了解该领域中各学派之间的关系,随后在学习算法时分析其涉及了哪些流派的思想,并在之后自己设计算法时,将这些思想有机地结合起来。 ...