软件研究所
1.张大庆
主页链接:https://cs.pku.edu.cn/info/1080/1231.htm
📮:dqzhang@sei.pku.edu.cn
研究领域:普适计算
陶瓷
尊敬的张大庆教授:
您好!
我是北京邮电大学人工智能专业的陈钰彬。近期,我一直在思考未来出国深造的计划,并认为在实际的研究环境中增强自己的科研能力是至关重要的。因此,我希望有机会加入您的团队,获得宝贵的实践经验,并在您的指导下取得实质性的研究成果。
在北邮论坛上,我得知您的团队正在招收科研实习生。我对您在无线感知方面的研究产生了浓厚的兴趣,并为此专门研读了您的团队在各大期刊和会议上发表的论文。特别是”Placement Matters: Understanding the Effects of Device Placement for WiFi Sensing”这篇文章。该文章使我感兴趣的是仅仅通过调整发射器和接收器的位置,就能够有效地提高感知范围和减少外部干扰。这个研究方向让我深感兴趣,并渴望有机会能在您的实验室中对此进行更深入的研究。在上学期我就已经对计算机网络进行了学习并且取得了良好成绩,对python和matlab也很熟悉,相信我的加入可以为您的团队带来新的活力和视角。为方便您了解我的背景和能力,我已将个人简历附在邮件中。
非常感谢您在百忙之中阅读我的来信,期待得到您的回复!
敬请安好!
陈钰彬
王选计算研究所
1.张辉强
Current Position
Assistant Professor
Peking University, Beijing, China
January 2024 - Present (3 months)
Previous Experience
Microsoft
- Principal Researcher, Beijing, China
August 2023 - December 2023 (5 months) - Senior Researcher, Beijing, China
August 2019 - August 2023 (4 years 1 month) - Researcher, Beijing, China
February 2018 - August 2019 (1 year 7 months)
Syracuse University
- Research Assistant, Syracuse, New York Area
August 2012 - August 2017 (5 years 1 month)
Focus Areas:- Stochastic algorithms for non-convex problems.
- Contributions to non-convex optimization, phase retrieval, and low-rank matrix recovery.
- Publications in NIPS (now NeurIPS), ICML, including work on robust PCA and multiple secret key generation.
Carnegie Mellon University
- Visiting PhD Student, Greater Pittsburgh Area
August 2015 - December 2015 (5 months)
Area of Work: Non-convex problems and fast algorithm design.
Chinese Academy of Sciences
- Research Assistant, Beijing, China
September 2009 - June 2012 (2 years 10 months)
Projects: Development of multimedia systems for TV OS, including video on demand and live broadcasting.
Education
University of Science and Technology of China, Hefei, Anhui Province
September 2005 - July 2009 (3 years 11 months)
DiffKendall
文章《DiffKendall: 一种基于可微肯德尔秩相关性的少样本学习新方法》提出了一个针对少样本学习的新颖方法。在标准的少样本学习中,模型通过在基础数据集上的训练,学习适应那些模型之前未见过的新任务。然而,这一过程中通常遇到的问题是,新类别的特征值分布相对一致,难以准确判断不同通道的重要性。现有方法通常使用几何相似性度量(如余弦相似性和负欧几里得距离)来衡量特征之间的语义相关性,但这些特征在少样本学习背景下可能携带不同的语义,导致几何相似性度量不够准确。
为了解决这个问题,文章提出使用肯德尔秩相关性(Kendall’s Rank Correlation)作为特征通道重要性的更可靠指标。通过在推理过程中仅替换几何相似性度量为肯德尔秩相关性,就能在多种方法和数据集上提高少样本学习的性能。文章进一步提出了一种针对元训练(meta-training)的可微分肯德尔秩相关性损失函数,解决了肯德尔秩相关性的非可微性问题。通过将几何相似性替换为可微分的肯德尔秩相关性,该方法能与众多现有的少样本学习方法集成,并为未来依赖几何相似性度量的先进方法提供集成可能。广泛的实验验证了基于秩相关性的方法的有效性,显示出在少样本学习中的显著改进。
总的来说,这项工作的贡献包括:1) 揭示了少样本学习中新样本特征的一个内在属性——大部分特征值在各个通道中分布接近,难以区分它们的重要性;2) 展示了利用特征通道的重要性排名作为语义相关性的指标,通过在测试时替换几何相似度量为肯德尔秩相关性,在多种少样本学习方法和数据集上获得了显著改进;3) 提出了通过近似肯德尔秩相关性的可微分损失函数,使得肯德尔秩相关性可以直接在元训练阶段优化,进一步提高了性能。
FD-Align
这篇文章介绍了一种名为FD-Align(Feature Discrimination Alignment)的新方法,旨在提高预训练模型在少样本学习任务中的性能。作者首先指出,现有的从零开始训练的少样本学习方法由于数据限制无法达到令人满意的性能,而大规模预训练模型如CLIP显示出卓越的少样本和零样本学习能力。然而,直接在下游数据上微调预训练模型会导致模型泛化能力下降,并容易过拟合。为了解决这一问题,FD-Align方法通过保持微调过程中杂质特征(spurious features)的一致性来增强模型的泛化能力。通过大量实验,作者验证了FD-Align在ID(In-Distribution)和OOD(Out-of-Distribution)任务上的有效性,表明该方法能够在保持模型对杂质关联的鲁棒性的同时,提升性能。
FD-Align的核心思想是利用CLIP的文本和视觉特征的强大对齐能力,通过一个杂质特征分类器确保微调过程中杂质特征的分类概率分布保持一致性。这样做可以在学习代理数据集上的分类能力的同时,保证模型对杂质关联的鲁棒性。实验结果表明,FD-Align在多个ID和OOD数据集上都取得了显著的性能提升,并且能够直接增强现有方法的准确率,而不增加额外的训练和推理成本。
文章还探讨了FD-Align的普适性、去除异常值和聚类的重要性、OOD可视化、训练稳定性和方法的局限性。作者通过与现有方法的对比分析,展示了FD-Align在不同数据集上的性能,并讨论了在特定情况下性能可能下降的原因。总体而言,FD-Align为利用预训练模型进行少样本学习提供了一种有效的微调策略,特别是在面对分布偏移时保持模型鲁棒性方面显示出优势。
Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study
这篇文章《Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study》主要研究了在现代深度学习中广泛使用的带动量的梯度下降方法。作者通过实证研究展示了在大学习率和学习率热身(warmup)的情况下,动量梯度下降会展现出比标准梯度下降更大的”弹射”效应,将迭代推向比标准梯度下降找到的更平坦的最小值。文章进一步提供了实证证据和理论直觉,表明这种大型弹射效应是由于动量“放大”了自我稳定化效应所导致的。
研究中提到,动量和学习率热身是训练现代深度神经网络最广泛使用和关键的组件,尽管如此,关于它们单独以及共同作用的理解仍然不足。文章通过线性对角网络和非线性神经网络的实验,展示了动量结合学习率热身在降低损失函数锋利度(sharpness)方面的效果,比仅使用梯度下降时更为显著。此外,文章还讨论了这些现象出现的原因,通过精心设计的实验验证以及一些理论直觉,这些直觉受到梯度下降自我稳定化和(S)GD的弹射机制启发。
文章的结论和未来工作部分强调了通过大学习率和线性学习率热身引入的PHB(Polyak的重球法)能够诱导出比GD更大的锋利度减小,这表明动量在自我稳定化效应中的放大作用。作者指出,未来的一个重要研究方向是对这些新发现的现象进行理论分析。
On the Generalization Properties of Diffusion Models
这篇文章提出了对扩散模型泛化属性的理论分析,这是一类用于建立从未知目标分布到已知先验分布之间的随机传输映射的生成模型。尽管扩散模型在实际应用中取得了显著的成功,但对它们的泛化能力的理论理解仍然不足。研究从综合理论角度探讨了扩散模型的泛化属性,并建立了随训练动态变化的泛化差距的理论估计,提示了在提前停止训练时泛化错误是多项式级别的小(O(n^-2/5 + m^-4/5)),同时避免了维数灾难。此外,文章还扩展了定量分析到数据依赖的场景,解释了目标分布中模式(modes)的距离增加对模型泛化能力的负面影响。这些估计不仅是理论上的构造,还通过数值模拟得到了验证。研究为理解扩散模型的泛化属性提供了严谨的见解,并可能指导实践应用。
杨帅
DualStyleGAN
这篇文章提出了一种新颖的生成对抗网络——DualStyleGAN,旨在实现基于示例的高分辨率人像风格转换。与现有的StyleGAN不同,DualStyleGAN通过引入双重风格路径——内在风格路径和外在风格路径,实现了对原始面孔域和扩展艺术人像域的双重风格的灵活控制。内在风格路径用于控制原始域的风格,而外在风格路径则用于模拟并控制目标扩展域的风格,包括颜色和复杂的结构风格。此外,文章还引入了一种新颖的渐进式微调方案,以平滑地将模型的生成空间转移到目标域,即使在网络架构进行上述修改的情况下。实验结果表明,DualStyleGAN在高质量人像风格转换和灵活风格控制方面优于现有技术水平。代码已在GitHub上公开。此外,为了实现高效的风格转换,文章还探讨了面部去风格化方法、潜在优化和采样技术,并通过一系列实验验证了DualStyleGAN的有效性和灵活性。最后,文章讨论了未来工作的方向,包括进一步探索模型扩展以及解决数据偏差问题。
这张图片展示了两种不同的生成对抗网络(GAN)结构在风格转换任务中的行为对比:StyleGAN和DualStyleGAN。
(a)部分展示了StyleGAN的行为:
- “Source domain”表示原始领域,通常是一个标准的人脸数据集。
- “Target domain”表示目标领域,通常是具有特定艺术风格的人脸数据集。
- “Translated generative space”表示StyleGAN原始生成空间在目标领域中的映射,这是通过无条件的微调来实现的。这意味着StyleGAN通过学习从原始领域到目标领域的映射而改变,但这种变化是整体的,不是基于单个样本的。
(b)部分展示了DualStyleGAN的行为:
- 与StyleGAN相比,DualStyleGAN采用了条件微调。“Supervision”表示利用从目标领域的艺术作品中恢复出的真实面孔(去风格化的肖像)来引导微调过程,这使得模型能够在考虑到个别条件(例如特定的风格或特征)的同时进行学习。
- “Destylized portrait”是从目标域中得到的艺术肖像,经过处理后更像原始领域中的真实面孔。
- 使用不同颜色的箭头表示不同的条件下的微调路径。这意味着DualStyleGAN可以根据不同的样式输入条件(如颜色所示),进行更细致和个性化的风格转换。
这张图片是DualStyleGAN网络架构的详细图示,展现了如何通过网络来实现风格转换。这里的结构是为了说明两个主要部分如何合作:内在风格路径(Intrinsic Style Path)和外在风格路径(Extrinsic Style Path)。
左侧:
- “Intrinsic Style Path”负责处理原始域(如真实人脸图像)的风格信息。
- “MappingNet”是一系列全连接层(FC),它接收隐空间的噪声向量z,并将其转换成中间风格代码,该代码在风格生成网络中作为输入。
- “E”是一个编码器,它将输入的人脸图像”I”映射到隐空间的噪声向量z。
右侧:
- “Extrinsic Style Path”则负责处理目标域(如艺术风格化人脸图像)的风格信息。
- 与内在风格路径类似,它也包含一系列全连接层(FC),这些层处理风格图像”S”,生成中间结构和颜色代码。
- “Ts” 和 “Tc” 是结构和颜色转换模块,用于调整生成的图像的结构和颜色风格。
- “N”是一个采样网络,它可以生成随机的风格向量z,用于产生新的外在风格代码。
中间:
- “Generator Network”是生成模型的核心,它由多层构成,包括常量输入层(Const 4x4x512)、上采样层(Upsample)、卷积层(Conv 3x3)和调制解调层(Mod+Demod)。
- 每一层都包含一个“ModRes”块,该块通过结合来自内在和外在风格路径的信息来调整特征图,使得网络可以生成具有特定风格的图像。
- “×w_i” 是一个按层级加权的操作,用于调整内在风格和外在风格在每一层中的贡献比重。
论文试图解决什么问题?
论文旨在解决基于示例的高分辨率人像风格转换问题,特别是通过控制原始人脸领域和扩展艺术人像领域的双重风格,来实现风格的自然转换和精确的风格模仿 。这是否是一个新的问题?
风格转换本身并不是一个新问题,但是论文中提出的通过DualStyleGAN实现的基于示例的高分辨率人像风格转换是对现有技术的显著改进 。这篇文章要验证一个什么科学假设?
文章验证的科学假设是,通过双重风格路径和精心设计的网络结构,能够在不牺牲原有StyleGAN生成空间的情况下,更精确地控制和模仿艺术风格 。有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
相关研究包括图像风格转换和图像到图像的转换模型。它们可以归类为图像合成和图像理解领域。相关领域的研究者包括Tero Karras、Samuli Laine和Timo Aila,他们在StyleGAN的研究上做出了显著贡献 。论文中提到的解决方案之关键是什么?
关键解决方案包括提出的DualStyleGAN网络架构,该架构有两个风格路径:内在风格路径和外在风格路径,以及为实现风格转换而设计的渐进式微调方案 。论文中的实验是如何设计的?
实验设计包括使用有限的数据集对StyleGAN进行微调,对所提出的DualStyleGAN网络在多个流行风格(如漫画、漫画肖像和动漫)的数据集上进行测试,以及与现有的状态艺术方法进行定性和定量比较 。用于定量评估的数据集是什么?代码有没有开源?
用于定量评估的数据集包括漫画、漫画肖像和动漫风格的数据集。代码已在GitHub上开源 。论文中的实验及结果有没有很好地支持需要验证的科学假设?
是的,实验结果显示,DualStyleGAN在高质量人像风格转换和灵活风格控制方面优于现有技术水平,支持了文章的假设 。这篇论文到底有什么贡献?
论文的贡献在于提出了一个新的GAN架构,DualStyleGAN,它通过双重风格路径来实现对原始和艺术人像领域的风格控制,特别是在高分辨率和示例基础上的人像风格转换方面,显示出比现有技术更好的性能和灵活性 。下一步呢?有什么工作可以继续深入?
未来的工作可能包括探索适合输入照片的风格图像及其权重向量的推荐,以简化使用过程,并通过数据增强来缓解数据偏差问题。
VToonify
这篇文章介绍了一个名为VToonify的新框架,它用于高分辨率的视频卡通化风格转换。不同于以往的基于图片的卡通化方法,VToonify通过分析和利用StyleGAN的中高分辨率层来生成高质量的艺术风格人像,同时通过一个编码器提取多尺度内容特征,以更好地保留帧细节。这种全卷积架构能够处理不对齐的视频帧,支持不同大小的视频输入。VToonify不仅继承了现有StyleGAN基础上的图片卡通化模型的风格调整能力,还通过两种实例化方式,即基于集合的和基于样例的视频风格转换,展示了其有效性。此外,VToonify通过设计一种无需真实数据或复杂视频合成的训练策略,并提出了一种不基于光流的抖动抑制损失函数,以实现高质量和时间一致性的艺术风格人像视频生成。实验结果证明了VToonify框架在生成高质量和时间一致性的艺术风格人像视频方面的优势,代码和预训练模型已公开。
这张图片展示了三种不同的架构,用于人脸图像的风格转换和视频卡通化处理:
(a) 图像转换框架 (Image translation framework): 这是一个完全可训练的架构,其中包含一个编码器 ( E ) 和一个生成器 ( G )。编码器将输入的真实人脸图像编码为一个特征表示,然后这个特征表示被传递给生成器,生成器基于这些特征产生风格化的人脸图像。这种架构支持可变尺寸的输入,但从零开始训练对于高分辨率和可控风格转换来说比较困难。
(b) StyleGAN-based 框架: 这个框架利用了预训练的StyleGAN模型和它的编码器 ( E_s ),以及一个额外的生成器 ( G )。这里,输入图像首先被StyleGAN的编码器 ( E_s ) 编码到一个潜在空间的风格码,然后这个风格码被用作生成器 ( G ) 的条件。这种方法能实现高分辨率和可控风格的转换,但它仅限于固定尺寸的图像,并且由于需要人脸对齐,可能会导致丢失非脸部细节和时间上的不一致性。
(c) 提出的混合框架 (The proposed hybrid framework): 这种混合框架结合了图像转换框架的灵活性和StyleGAN-based框架的风格控制能力。编码器 ( E ) 提取输入视频帧的多尺度内容特征,然后将这些特征与StyleGAN编码器 ( E_s ) 提供的风格条件结合,传递给生成器 ( G )。生成器 ( G ) 负责渲染风格化的人脸图像,同时保留更多的帧细节。这种结构支持不对齐的脸部和不同尺寸的视频输入,克服了传统StyleGAN在处理视频时的局限性。
这张图展示了一种神经网络架构,用于图像风格转换,特别是人脸图像的风格化。这个过程涉及到以下几个关键步骤:
风格编码器 ( E_s ): 输入图像首先通过一个编码器 ( E_s ),这个编码器是预训练的,并且能够提取出风格代码 ( W^+ ),这个代码包含了转换风格所需的信息。
编码器 ( E ): 输入图像经过编码器 ( E ),通过多个残差块(ResBlocks)提取多尺度的内容特征。这些特征在不同的尺度上描述了图像内容的细节,比如 ( W \times H ),( W/2 \times H/2 ),( W/4 \times H/4 ),和 ( W/8 \times H/8 ),其中 ( W ) 和 ( H ) 代表宽度和高度。
生成器 ( G ): 接着,多尺度内容特征和风格代码 ( W^+ ) 被传递给生成器 ( G )。生成器负责结合这些内容特征和风格信息来产生风格化的输出图像。
输出: 最终,网络输出一个具有特定风格特征的图像,风格特征由 ( E_s ) 提取,内容细节由 ( E ) 保留。
根据文章内容,以下是对你问题的回答:
论文试图解决的问题是如何对视频进行风格可控、高分辨率的卡通化处理(视频卡通化),特别是对人脸视频的风格转换 。
这是一个相对新颖的问题。尽管之前已经有基于图片的风格化和卡通化方法,但这篇论文提出的是一个新的框架,特别关注于视频内容,并且处理高分辨率的视频以及在结构风格、颜色风格和风格程度上的灵活控制 。
这篇文章要验证的科学假设是,通过结合高级风格代码和多层次内容特征与空间分辨率,可以更好地重建图像细节,特别是非脸部对象,并且可以克服StyleGAN在固定分辨率和对齐人脸方面的固有局限 。
相关研究包括使用StyleGAN进行面部图像风格转换,图像到图像的转换框架,循环一致性的使用,以及多种基于StyleGAN的风格化方法 。这篇论文中特别提到的研究员包括Shuai Yang, Liming Jiang, Ziwei Liu 和 Chen Change Loy 。
论文中提到的解决方案的关键是提出了一个新的VToonify框架,该框架整合了StyleGAN基础上的图像卡通化模型的数据和网络架构,以处理视频并灵活控制风格 。
论文中的实验设计包括了对比实验,以VToonify与其他几种方法在风格相似性、内容保留、时间一致性和整体质量四个方面进行用户偏好测试 。
定量评估使用了FaceForensics++和Pexels提供的视频作为数据集,代码已经开源 。
论文中的实验和结果很好地支持了需要验证的科学假设,表明了该框架在保持视频风格化的高质量和时间一致性方面的优势 。
这篇论文的贡献包括提出了一个支持未对齐面孔和不同视频大小的风格可控高分辨率人像视频风格转换的全新框架VToonify,以及一种不基于光流的抖动抑制损失函数 。
下一步的工作可以包括探索更好的颜色控制方式,例如结合VToonify的多功能模型与最新的颜色传递方法,以及应用这个框架设计的思想到面部风格转换之外的其他图像和视频编辑任务,如图像超分辨率和面部属性编辑 。
StyleGANEX
文章《StyleGANEX: 超越裁剪对齐人脸的StyleGAN基础操作》介绍了一种新的方法,名为StyleGANEX,用于扩展StyleGAN以处理多样化的任务,超越了其原本仅限于处理裁剪对齐人脸的限制。StyleGAN是一种成功的生成模型,尤其在生成高质量人脸图像方面表现突出。然而,StyleGAN的生成空间受到固定裁剪约束的限制,仅能处理裁剪和对齐的人脸图像。这篇文章提出了一种简单有效的解决方案,通过使用扩展卷积(dilated convolutions)调整StyleGAN浅层的感受野大小,而不改变任何模型参数。这种方法使得原本固定大小的小特征能够扩展为更大的特征,以适应不同分辨率的输入,使模型能够更好地处理未对齐的人脸。为了支持真实人脸的反转和操作,作者还介绍了一个相应的编码器,能够提供扩展StyleGAN第一层特征以及潜在风格代码。这项工作通过在各种分辨率的未对齐人脸输入上验证了方法的有效性,并在多种人脸操作任务中展示了其优越性,包括面部属性编辑、超分辨率、素描/掩模转换为面部以及面部卡通化等。
左侧是StyleGAN生成器的架构,其中每一层的操作都被清晰地展示出来。从上到下,生成器接收潜在风格代码 ( w^+ ),并经过以下步骤生成图像:
- 第一层是一个常数输入(Const 4x4x512),表示它始终使用同一个初始化的特征映射。
- 接着是若干层的模块化网络层,每层都包含模块化操作(Mod),去模块化操作(Demod),和卷积层(Conv 3x3)。模块化和去模块化操作是StyleGAN特有的特性,用于在网络中施加和调整风格。
- 在通过模块化和卷积处理后,某些层之间会进行上采样操作(Upsample),以逐步增加图像的分辨率。
右侧是StyleGANEX生成器的架构,它对StyleGAN进行了重构以支持不同分辨率的输入和更复杂的图像布局。它的特点包括:
- 第一层现在可以接受任何分辨率的特征映射,分辨率表示为 ( H \times W )。
- 第一层和之后的几层使用扩展卷积(Dilated Conv 3x3),这允许网络处理更宽广的感受野和空间布局。
- 在进一步的网络层中,正常的卷积操作被保持,以继续生成图像的详细内容。
- 类似于StyleGAN,StyleGANEX在生成高分辨率输出之前也使用了上采样步骤。