论文的第一是来自西湖大学的研究人员雷明坤,指导老师为西湖大学通用人工智能(AGI)实验室的负责人张驰助理教授。实验室的研究方向聚焦于生成式人工智能和多模态机器学习。
文本驱动的风格迁移是图像生成中的一个重要任务,旨在将参考图像的风格与符合文本提示的内容融合在一起,生成最终的风格化图片。近年来,随着 Stable Diffusion 等文本到图像生成模型的发展,这些技术使得在保留内容准确性的同时,实现出色的风格转换成为可能。这项技术在数字绘画、广告和游戏设计等领域具有重要的应用价值。
然而,以往的风格迁移算法会让结果的风格化图像过拟合到参考的风格图像上;从而丢失文本控制能力(例如指定颜色)。
为了解决这一难题,西湖大学、复旦大学、南洋理工大学、香港科技大学(广州)等机构的研究团队联合提出了 无需额外训练的改进方法 ,能够与众多已有方法进行结合。简单来说,研究团队优化了图像和文本共同引导生成风格化图像的时候,两种条件如何融合的问题。同时也探讨了关于风格化图像稳定生成和风格歧义性的问题。
问题背景
风格定义的模糊性
现在的风格迁移技术由于定义 “风格” 时固有的模糊性,仍然未能达到预期的效果。现在的方法主要在解决的问题是风格图像中的内容元素泄漏进风格化图像中,导致风格化图像完全不遵循文本条件,即内容泄漏问题。然而,一个风格图像中包含了多种元素,如色彩、纹理、光照和笔触;所有这些元素都构成了图像中的整体美学。
现有的方法通常会复制所有的这些元素,这可能会无意中导致过拟合,即生成的输出过于模仿参考风格图像的特点,这种对细节的过度复制不仅降低了生成图像的美学灵活性,也限制了它适应不同风格或基于内容需求的能力。因此, 理想的风格迁移方法应该允许更选择性的风格调整,给予用户强调或省略特定风格组件的灵活性,以实现平衡且有意图的转换 。
另一个由过拟合引发的挑战是在文本到图像生成过程中保持文本对齐准确性困难,即便是在相当简单的文本条件下,例如 “A
” 这类简单文本。当前模型会优先考虑来自风格图像的主要颜色或图案条件,即使它们与文本提示中指定的条件相冲突矛盾。这种不可控制性削弱了模型解读和结合细致文本指导的能力,导致生成结果的精准性和定制化能力下降。
最后,风格迁移可能会引入一些不期望的图像特征,影响文本到图像生成模型的效果稳定性。例如,一种常见问题是布局不稳定(例如棋盘格效应),即重复的图案会不经意地出现在整个生成图像中,不论用户的文本条件如何。这突显了风格迁移过程中额外复杂性带来的挑战。
当前风格化文生图模型存在的问题可以总结归纳为以下三个方面:
StyleStudio 核心创新
针对风格定义模糊性导致的三个问题,研究团队提出了针对每个问题的解决方案。具体的解决方法如下:
贡献一:跨模态自适应实例正则化技术 (cross-modal AdaIN)
在文本驱动的风格迁移中,传统的基于适配器的方法(Adapter-Based)方法通过加权求和直接组合引导图像生成的文本和图像条件,这样的做法可能导致两种条件之间的信息冲突,影响最终的生成效果。
研究团队提出了 跨模态自适应实例正则化技术 Cross-Modal AdaIN 。论文回顾了经典风格迁移算法 AdaIN 技术,然后提出了多模态版本 AdaIN 来解决文本驱动的风格迁移问题。具体来说,该算法首先分别处理文本和风格特征以生成独立网格特征图,再应用原本的 AdaIN 技术使文本特征通过风格特征归一化,最后将结果融合进 U-Net 特征中。此方法自适应地平衡了文本与风格条件的影响,最小化了输入间的潜在冲突;并避免了复杂超参数的设置,提高了模型对文本提示和风格参考的理解能力和生成质量。
与此同时,得益于传统的基于适配器的方法(Adapter-Based)采用加权求和组合文本和图像条件,这保证了两个特征图位于相同的嵌入空间(embedding space);研究团队发现可以直接将跨模态自适应实例正则化技术替换传统基于适配器的方法(Adapter-Based)中的加权求和策略,且不需要进行额外的训练。
跨模态自适应实例正则化技术示例图
贡献二:基于风格图像的无分类器生成引导 Style-CFG
在风格迁移中,当参考风格图像包含多种风格元素(如卡通风格与夜间美学的结合)时,会出现风格模糊的挑战。当前的方法难以有效地分离这些不同的风格元素,更无法选择性地强调核心特定风格元素。为了解决这个问题,需要一种灵活的方法,可以有选择地突出所需的风格特征,同时过滤掉无关或冲突的特征。
为此,研究团队了借鉴了扩散模型中文本引导图像生成常用的无分类器引导(CFG)的概念,提出了 基于风格的无分类器引导(Style-Based Classifier-Free Guidance, SCFG)设计 ,旨在提供对风格迁移过程的可控调整。
研究团队提出利用布局控制生成模型(如 ControlNet)生成所需要的负向风格图;例如当正向风格图片的风格特点是卡通风格与雪景时,可以生成真实风格下的雪景图片;通过基于风格的无分类器引导使得最终风格化图片中仅包含卡通风格而不包含雪这一风格元素。
贡献三:引入教师模型稳定图像生成
在图像生成中,内容的布局对视觉美学至关重要。研究团队观察到,生成过程中会出现较为明显的短板是棋盘格现象。为了保持文本驱动风格迁移中的稳定布局,研究团队提出利用风格迁移方法中使用到的基模型(base model),即通常利用相对应的 Stable Diffusion 模型作为教师模型提供生成过程中的布局指导。
具体来说,研究团队利用教师模型在生成过程中每一个去噪时间步的注意力图替换风格化图像生成过程中的相对应的注意力图。这种方法确保了关键的空间关系特征在去噪过程中的稳定性,既保留了原始图像的结构连贯性,又实现了所需的风格转换,使结果更符合文本提示的要求。
在实验中研究团队有两点发现,一是相较于替换交叉注意力图,替换自注意力图不仅可以稳定图像布局,还可以保持跨风格图像生成内容的布局一致性。二是替换自注意力图只需要在去噪前期进行,当教师模型参与的去噪过程过长会导致风格特征的丢失。
教师模型稳定图像生成示例。
实验亮点
StyleStudio 的文本对齐能力与稳定的图像生成
与先前方法进行定性的比较试验。
研究团队进行了定性的比较试验,实验结果表明所提出的方法能够精确捕捉并反映文本条件中指定的关键风格属性(如颜色),优先确保文本对齐;此外还保证了生成图像的布局稳定,保持结构完整性,没有出现内容泄漏的问题;同时没有损失风格特征,实现了与目标风格的高度相似性。
研究团队也进行了定量的比较试验与用户调研实验,结果表明在各个指标中超过了已有的风格迁移方法。
基于风格的无分类器引导方法实验
研究团队针对提出的基于风格的无分类器引导方法进行试验,通过与传统的无分类器指导方法对比证明了所提出方法的有效性。
更多风格图像和文本条件下的实验结果。所用的文本条件格式为 “A
研究团队为了展示所提方法的通用性和稳健性,进行了更多风格图像和文本条件下的实验。实验结果进一步验证了该方法的有效性,表明其在文本对齐和布局稳定生成方面表现出色。更多内容与实验分析,请参考原论文。
研究团队官方支持 Huggingface Demo,可以在线体验:
示例地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio
可以试玩的软件可以试玩的软件有什么
1. 瞬玩族app:这是一款手游试玩客户端应用,用户可以在这里提前体验各种精彩游戏。 应用提供最新官方测试版本,让用户提前享受更多游戏内容,包括各种测试服务器。 2. 集游社app:这是一款游戏下载和试玩平台,其独特之处在于所有游戏都以专题形式展示在页面上,包括其他玩家的点评、游戏大致内容,并配以简洁有趣标题。 此外,该平台支持在线试玩,无需下载,提升了玩家体验。 3. 游音app:这是一款专为游戏直播制作的视频播放软件,提供多种清晰的游戏播放预览界面。 4. 咪咕快游:这款平台汇聚了大量热门游戏,用户无需下载,点击即可畅玩。 平台玩法创新,并提供各种游戏周边资讯。 5. 菜鸡游戏:这个应用集合了游戏资讯、游戏攻略、手游专区等功能,为用户提供时下最新最全的游戏内容。
哪里可以找到免费试玩的游戏
哪里可以找到免费试玩游戏1. Steam: 作为全球最大的综合性数字发行平台之一,Steam提供了大量免费试玩的游戏。 用户可以在游戏页面的概览部分或商品详情页面找到试玩选项。 只要下载并安装Steam客户端,并注册一个账户,就可以开始体验。 2. Epic Games Store: Epic Games Store会定期提供免费游戏作为赠品,玩家无需购买即可试玩。 这些免费游戏通常在每周五更新。 创建或登录Epic账户后,访问Epic Games Store页面即可领取并添加到游戏库中。 3. GOG (Good Old Games): GOG提供了一些经典和独立游戏的免费试玩版本,尤其是那些值得再次体验的经典游戏。 在特定节日或活动期间,GOG有时会赠送免费游戏。 4. PlayStation Store / Xbox Live: PlayStation和Xbox平台的用户可以通过这两个在线商店获得免费试玩游戏。 这些游戏可能是PlayStation Plus会员独享或Xbox Game Pass的一部分。 5. Nintendo Switch Online: 任天堂Switch的用户可以通过Nintendo Switch Online服务享受一些精选游戏的免费试玩内容。 6. YouTube and Twitch: 这些平台上的直播和视频内容经常包含游戏实况或评测,其中可能包含免费试玩游戏的部分。 搜索特定游戏频道或关键词如[游戏名] lets play等,可以找到很多游戏的免费试玩片段。 7. Google Play Store / Apple App Store: 在移动平台上,Google Play和Apple App Store也会提供免费游戏,这些游戏可能会根据节日或活动进行更新。 此外,一些开发者可能会发布免费的游戏预览或测试版本。 请在使用在线服务时保护个人隐私和安全,并确保从官方渠道获取游戏内容,以避免不必要的风险。
爱尔兰精灵在线试玩平台网址是多少?
爱尔兰精灵在线试玩平台网址是 。 我们一直在那个平台玩,已经有几年时间了,这里安全可靠。
这个平台是一个中文问答社区,通过运用机器学习技术,深入挖掘海量数据,构建了内容生产与消费的闭环,提高了运营效率。 平台以“让人们更好地分享知识、经验和见解,找到自己的解答”为使命,致力于让每位用户都能获得满意的答案。
在这里,你可以找到与你兴趣相投的人,与他们分享经验、知识,甚至解答疑惑。 平台不仅提供了一个交流的平台,更是一个学习的宝库,无论是新手还是老手,都能在这里找到适合自己的内容。
平台安全可靠,用户数据得到妥善保护。 在享受便捷服务的同时,你不必担心个人信息泄露。 因此,无论是寻求答案还是分享知识,爱尔兰精灵在线试玩平台都是你的理想选择。
加入我们,与全球数百万用户共同成长,共享知识与经验的盛宴。爱尔兰精灵在线试玩平台,你值得信赖的选择!