Paper Note: Long Live the Lottery: The Existence of Winning Tickets in Lifelong Learning

Long Live the Lottery: The Existence of Winning Tickets in
Lifelong Learning

Tianlong Chen, Zhenyu Zhang, Sijia Liu, Shiyu Chang, Zhangyang Wang

ICLR 2021

[paper]

Main Idea

这篇文章把“彩票假说(lottery ticket hypothesis, LTH)”引入持续学习,提出了这样一个问题:彩票假说在持续学习中还成立吗?

直觉地,在持续学习当中,一个理想的 “ticket” 子网络应该具有以下特征:(1) 就像原始的 LTH 一样,可以独立进行训练;(2) 经过训练,在保持先前任务的性能表现和快速实现对新到来任务的良好泛化方面,相比于 dense lifelong model 都具有竞争力;(3) 可以在线获得,因为任务的到达没有任何预设的顺序。我们将这样的子网络及其初始化定义为 lifelong lottery ticket

论文的研究细化到了类递增学习(class-incremental learning, CIL)。扩展原始的LTH的一个自然想法是引入顺序裁剪(sequential pruning):随着新任务的不断增加,我们不断裁剪网络,直到达到所需的稀疏级别。但是我们发现,在CIL的情况下,LTH中使用的 iterative magnitude pruning (IMP) 的直接应用并不奏效,因为当任务顺序到达时,裁剪方案变得至关重要。为此,我们对IMP进行了泛化,纳入了 curriculum pruning 方案。我们称此技术为 top-down lifelong pruning。当任务总数已知且很小,并且进行了一些 “lottery” 初始化(通过 rewinding (Frankle et al., 2019) 或类似方法实现),我们发现可以将经过裁剪的稀疏 ticket 重新训练至 dense network 的相似性能表现。但是,如果任务数量不断增加,则上述 ticket 性能将很快下降,因为其有限的容量无法承受过度的裁剪。

自上而下的持续裁剪(top-down lifelong pruning)的局限性引出了两个难题,它们可能会威胁到 lifelong tickets 的有效性。i)Greedy weight pruning v.s. all tasks’ performance:虽然顺序裁剪必须在线进行,但它的贪婪性不可避免地偏向于后面到达的任务,因为早期任务显然会更多地裁剪 ticket(甚至可能耗尽稀疏预算)。ii)Catastrophic forgetting v.s. small ticket size:为了克服“灾难性遗忘”,许多终身学习模型必须经常 consolidate weights 以谨慎地重新分配模型容量或是随着任务的到来而增加模型的大小。在所遇到的任务越来越多时,这两个难题就会与我们剪枝的目的越发矛盾。

为了解决上述两个问题,我们提出了一种新的自下而上的持续裁剪(bottom-up lifelong pruning)方法,该方法允许重新增加模型容量以补偿过度的裁剪。因此,它可以在整个学习过程中灵活地调整 tickets 的增加或减少,从而减轻了自上而下裁剪所固有的贪婪偏差。我们还引入了 lottery teaching 来克服遗忘,它通过使用无标签数据来正则先前任务模型的 soft logit 输出。这是受到终身知识保存技术的启发。

Method

Lottery Ticket from Single-Task Learning to CIL

Problem Setup

在CIL中,模型持续地从顺序数据流中学习,在该数据流中随着时间的推移新任务(即具有新类的分类任务)不断到来,如 Figure 1 所示。在推断阶段,模型可以在没有任务 ID 的情况下运行。按照(Castro et al., 2018; He et al., 2018; Rebuffi et al., 2017) 的假设,少量以前类别的样本存储在固定容量的 buffer 中。

Lifelong Lottery Tickets

LTH (Frankle & Carbin, 2019) 表明,标准(非结构化)裁剪技术可以发现所谓的“中奖彩票(winning ticket)”,即稀疏的子网络和适当的初始化,该子网络可以单独进行训练并达到与原来的密集网络类似的性能表现。在本文中,我们旨在随着时间的推移裁剪 base model θ(i)\boldsymbol{\theta}^{(i)}。我们想要知道:终身学习中是否存在中奖彩票?如果是,如何获取?为了回答这些问题,先决条件是定义终身学习中的彩票概念,我们将其称为“终身彩票(lifelong lottery tickets)”。

按照“彩票假说 (Frankle & Carbin, 2019)”,“彩票”由两部分构成:(1) 由一次裁剪或是迭代裁剪算法得到的二值 mask m{0,1}θ(i)0\boldsymbol{m}\in\{0,1\}^{\|\boldsymbol{\theta}^{(i)}\|_0};(2) 初始权重或倒带(rewinding)权重 θ0\boldsymbol{\theta}_0。彩票 (m,θ0)(\boldsymbol{m},\boldsymbol{\theta}_0) 在满足下面条件时被称为“中奖彩票”:经过训练的子网络 mθ0\boldsymbol{m}\odot\boldsymbol{\theta}_0 能够达到经过充分训练的原始网络的性能。在CIL中,我们递归定义“终身彩票” (m(i),θ0(i))(\boldsymbol{m}^{(i)},\boldsymbol{\theta}_0^{(i)})

m(i)=m(i1)+A(D(i),P(i),m(i1)),and θ0(i){θ(0),θrw(i)}(1)\boldsymbol{m}^{(i)}=\boldsymbol{m}^{(i-1)}+\mathcal{A}(\mathcal{D}^{(i)},\mathcal{P}^{(i)},\boldsymbol{m}^{(i-1)}),and\ \boldsymbol{\theta}_0^{(i)}\in\{\boldsymbol{\theta}^{(0)},\boldsymbol{\theta}_{rw}^{(i)}\} \qquad\qquad(1)

其中 A\mathcal{A} 表示在当前任务 T(i)\mathcal{T}^{(i)} 所采用的裁剪算法,D(i)\mathcal{D}^{(i)} 表示当前的训练数据,之前的相关信息 P(i)\mathcal{P}^{(i)} 。在本文的符号表示中,Θ(i)={θ(i),θc(i)}\boldsymbol{\Theta}^{(i)}=\{\boldsymbol{\theta}^{(i)},\boldsymbol{\theta}^{(i)}_c\} 表示 learner 在任务 ii 时所用的模型,θ(i)\boldsymbol{\theta}^{(i)} 表示从任务 11 到任务 ii 通用的基础模型(base model),θc(i)\boldsymbol{\theta}^{(i)}_c 表示在任务 ii 时所用的特定于任务的分类头。θ(0)\boldsymbol{\theta}^{(0)} 表示训练任务 11 之前的初始化参数,θrw(i)\boldsymbol{\theta}_{rw}^{(i)} 表示在任务 ii 时的 rewinding point。如果 θrw(i)=θ(i1)\boldsymbol{\theta}_{rw}^{(i)}=\boldsymbol{\theta}^{(i-1)},那我们就使用在任务 i1i-1 上习得的模型权重来初始化对于任务 ii 的训练。基于 Eq.(1),我们提出CIL中“中奖彩票(winning tickets)”的定义。

Lifelong winning tickets. 给定一系列任务 {Ti}1n\{\mathcal{T}_i\}_1^n ,由 (1) 给出的“终身彩票” {(m(i),θ0(i))}1n\{(\boldsymbol{m}^{(i)},\boldsymbol{\theta}_0^{(i)})\}_1^n 可以独立训练而达到相应的原始模型 {θ(i)}1n\{\boldsymbol{\theta}^{(i)}\}_1^n 在CIL中的性能表现,则称其为“中奖彩票”。

Discussion

这篇文章是在说明“彩票假说”在终身学习场景中是可以成立的,并且提出了如何使之成立的剪枝算法。与我的关注点不太符合,就此结束。

全文结束