Face梦幻联动 arXiv和Hugging 一个按钮直达论文 模型 数据集

机器之心报道

机器之心部

经常刷 arXiv 的同学,你有没有发现页面上多了个新功能?

这个新功能(图中的「Hugging Face」按钮)隐藏在「Code,>

二者打通之后有多方便呢?以直达「Hugging Face 论文」为例,在找到这篇论文后,点击「View on Hugging Face」,你就直接来到了 Hugging Face 的论文评论区,可以和同行们实时交流。

满屏的相关模型、数据集资源有多方便就更不用提了。

其实,这并不是 arXiv 与 HuggingFace 的首次联动。早在 2022 年 12 月,二者就合作开发了一项新功能,让 Hugging Face Spaces 通过 Demos 选项卡与 arXivLabs 集成。该选项卡包含指向社区或自己创建的 Demo 的链接。用户只需将鼠标点到 Demos 选项卡,就可以查看源代码并试用。这一功能有助于提高研究者对模型工作原理的认识和理解,扩大研究人员工作的可见度。

同样的,Hugging Face 也在自家产品上不断集成新资源,比如前端时间推出的一站式学术资源搜索平台「Paper Central」。这个平台把 arXiv、Hugging Face 论文页、GitHub、论文项目界面等资源都集中到了一起。所有资源一目了然。

Paper Central 地址:https://huggingface.co/spaces/huggingface/paper-central

Hugging Face 基础机器学习研究员 JB Delbrouck 提到,一旦一篇论文被放到 Hugging Face 论文页面上,这篇论文将被自动添加到「Paper Central」上。

arXiv 和 Hugging Face 的这些努力无疑会让研究工作变得更加容易、便捷。

有人说,「这才是开放研究该有的样子」。

还不去试试?


MatrixCity:基于神经渲染的大规模城市场景合成数据集(港中文&上海AI Lab)

由上海人工智能实验室、香港中文大学组成的团队,发布了一款名为MatrixCity的大型城市场景合成数据集,旨在为神经渲染研究提供支持。 此数据集已上线OpenDataLab,项目主页为/ma...。 论文链接位于/pdf/2309.1655...。 数据集可在Hugging face (/datasets...) 和OpenXLab(OpenDataLab的AI开放数据平台)获取。 神经辐射场(NeRF)在神经渲染领域取得了显著进展,但大多数工作集中在小规模对象或场景上。 针对城市规模场景的神经渲染方法在现实世界应用中具有巨大潜力,然而,缺乏全面、高质量的数据集阻碍了研究进展,且收集真实城市规模场景数据成本高昂、敏感且技术上不可行。 MatrixCity构建了一个大规模、全面、高质量的数据集,以解决城市规模神经渲染问题。 此数据集通过GT相机位置和额外的数据模式,轻松收集了空中和街道城市视图。 它支持灵活控制环境因素,如光线、天气、人员和汽车,以适应城市规模神经渲染各种任务的需求。 数据集包含总面积28平方公里的两张城市地图,包括60万张航空图像和35万张街道图像。 MatrixCity的贡献主要体现在以下几个方面:1. 构建了一个大规模、高质量的数据集,名为MatrixCity,强调了城市规模场景的关键属性,包括动态交互和照明条件等。 2. 开发了一个插件,利用Unreal Engine 5自动辩喊宽收集高质量城市数据,简化了数据收集过程,并允许研究人员灵活控制照明、天气和瞬态对象,为社区提供了一种宝贵工具。 3. 对数据集进行了广泛研究,揭示了城市级神经渲染的挑战,并为未来研究指明了改进方向。 携亮在数据集的搜集和构建过程中,使用了Unreal Engine 5的城市样本项目,能够控制场景中的移动人和汽车存在,模拟动态环境。 通过调整照明、天气条件、雾量等,可以模拟现实世界中的基本动态情况。 此外,还能够模拟运动模糊和散焦模糊等相机噪声,进一步增强真实感。 MatrixCity数据集与之前的数据集相比,在统计数据和属性上进行了详细比较。 数据集分为Small city和Big city两个城市地图,分别包含6k张航空图像和30k张街道级图像,以及60k张航空照片和286k张街道级照片。 数据集的评估指标包括PSNR、SSIM、VGG LPIPS、MAE和MSE等,用于评估渲染性能和法向矢量、深度图的估计质量。 为了测试当前神经渲染方法在MatrixCity数据集上的性能,选择了五种广泛使用的基线方法:NeRF、DVGO、Instant NGP、TensoRF和MipNeRF360。 评估结果表明,MipNeRF-360和Instant NGP在航空数据渲染中表现较好,而NeRF表现最差。 在街道数据渲染中,基于MLP的NeRF方法优于基于网格的方法。 联合类型数据的神经渲染显示,简单地将空中和街道数据融合在一起训练会导致性能下降。 MatrixCity数据集的发布为城市规模的神经渲染研究提供了宝贵资源,为理解城市级神经渲染挑战和未来渗枝研究方向提供了基础。 数据集的高质量和全面性使得其成为神经渲染领域的重要贡献,将推动该领域的发展和创新。

【LLM】 MM-LLM:多模态大语言模型的最新进展

论文对MM-LLM进行了全面调研,重点关注近期的进展。 首先,将模型架构分为五个组件,详细概述了通用的设计公式和训练流程。 其次,介绍了各种SOTA MM-LLM,每一个都以其特定的公式为特色。 还阐明了它们在各种MM基准上的能力,并展望了这个快速发展的领域的未来发展。 图1:MM-LLM的时间线多模态(MultiModal,MM)预训练研究在近年来取得了重大进展,在一系列下游任务中不断推进性能边界。 然而,随着模型和数据集规模的不断扩大,传统的MM模型会产生巨大的计算成本,特别是从头开始训练。 认识到MM研究处于各种模式的交汇处,一个合乎逻辑的方法是利用现成的预训练好的单模基础模型,特别强调强大的大语言模型(LLM)。 这一策略旨在降低计算费用,提高MM预训练的效果,导致了一个新领域的出现:MM-LLM。 MM-LLM利用LLM作为认知动力,赋能各种MM任务。 LLM贡献了强大的语言生成、zero-shot迁移能力和上下文学习(In-Context Learning,ICL)等理想特性。 同时,其他模式中的基础模型提供高质量的表示。 考虑到不同模式的基础模型都是单独预训练的,MM-LLM面临的核心挑战是如何有效地将LLM与其他模式中的模型连接起来,以实现协同推理。 这一领域的主要关注点一直是通过MM预训练(PT)+ MM指令调优(IT)流程来优化模式之间的对齐并与人类意图对齐。 在GPT-4(Vision)和Gemini)的首次亮相展示了MM理解和生成能力后,MMLLM的研究热情被激发。 最初的研究主要关注MM内容理解和文本生成,如Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT4、MultiModal-GPT、VideoChat、VideoLLaMA、IDEFICS、Fuyu-8B和QwenAudio。 为了实现能够进行MM输入和输出的MM-LLM,一些研究者还额外探索了特定模式的生成,例如Kosmos2和MiniGPT-5引入了图像生成,SpeechGPT引入了语音生成。 最近的研究努力致力于模拟人类般的任意模式间转换,为通用人工智能指明了道路。 一些工作旨在将LLM与外部工具融合,以实现接近“任意转换”的MM理解和生成,例如Visual-ChatGPT、ViperGPT、MMREACT、HuggingGPT和AudioGPT。 相反,为了减轻级联系统中误差的传播,诸如NExT-GPT和CoDi-2等计划已经开发出了端到端的任意模式MM-LLM。 MM-LLM的时间线如图1所示。 论文展示了一个全面调研,旨在促进MM-LLM的进一步研究。 为了让读者全面理解丛基MM-LLM,首先从模型架构和训练流程勾勒出一般的设计公式。 将一般的模型架构分解为五个组件:模态编码器、输入投影仪、LLM骨干、输出投影仪和模态生成器。 图2:MM-LLM的一般模型架构及每个组件的实现选择训练流程阐明了如何增强仅限文本的预训练LLM以支持MM输入或输出,主要包含两个阶段:还总结了主流的MM PT和MM IT数据集:表1:26个主流MM-LLM的汇总。 I→O:输入到输出模式,I:图像,V:视频,A:音频,3D:点云,T:文本。 在模态编码器中,“-L”表示大型,“-G”表示巨型,“/14”表示补丁大小为14,“@224”表示图像分辨率为224×224。 #和#分别梁改代表MM PT和MM IT期间的数据集规模。 †包括不公开的内部数据表2:主流MM-LLM在18个VL基准上的比较。 红色表示最高结果,蓝色表示第二高结果。 ‡表示ShareGPT4V(Chen等,2023e)在基准或原论文中遗漏的重新实现的测试结果。 数据集的训练图像在训练期间被观察到未来方向论文从以下几个方面探索MM-LLM的有前景的未来方向:更强大的模型可以从以下四个关键途径增强MM-LLM的力量:(1)扩展模态:当前的MM-LLM通常支持以下模态:图像、视频、渗渣谨音频、3D和文本。 然而,现实世界涉及更广泛的模态。 将MM-LLM扩展到容纳更多模态(例如网页、热力图和图表),将提高模型的通用性,使其更加普适。 (2)多样化LLM:结合各种类型和大小的LLM为从业者提供根据其特定要求选择最合适的LLM的灵活性。 (3)改进MM IT数据集质量:当前的MM IT数据集仍有很大的改进和扩展空间。 扩大指令范围可以增强MM-LLM理解和执行用户命令的效果。 (4)加强MM生成能力:当前大多数MM-LLM主要面向MM理解。 尽管一些模型已经集成了MM生成能力,但生成响应的质量可能受LDM能力的限制。 探索集成检索式方法(Asai等,2023)在补充生成过程方面具有巨大的前景,可能提高模型的整体性能。 更具挑战性的基准鉴于许多数据集在一定程度上已经出现在PT或IT集中,现有的基准可能无法充分挑战MM-LLM的能力,这意味着模型可能已经在训练中学习了这些任务。 此外,当前的基准主要集中在VL子领域。 因此,构建一个更具挑战性、更大规模的基准是MM-LLM发展的关键,该基准应包含更多的模式,并使用统一的评估标准。 同时,基准可以定制为评估MM-LLM在实际应用中的熟练程度。 例如,引入GOATBench(Lin等,2024)旨在评估各种MM-LLM识别和响应meme中存在的微妙的社交滥用方面的能力。 移动/轻量级部署为了在资源受限的平台上部署MM-LLM并实现最佳性能,如低功耗移动和物联网设备,轻量级实现至关重要。 这一领域的一个显着进步是MobileVLM(Chu等,2023a)。 这种方法战略性地降低了LLaMA的规模,允许无缝的现成部署。 MobileVLM进一步引入了一个轻量级下采样投影仪,包含不到2000万个参数,有助于提高计算速度。 尽管如此,这一领域还需要进一步探索以实现进一步发展。 具身智能(Embodied Intelligence)具身智能旨在通过有效理解环境、识别相关对象、评估其空间关系并制定全面的任务计划来模拟人类对周围环境的感知和交互。 具身AI任务(如具身规划、具身视觉问答和具身控制)使机器人能够利用实时观察自主实施扩展计划。 这一领域的一些典型工作是PaLM-E(Driess等,2023)和EmbodiedGPT(Mu等,2023)。 PaLM-E通过训练MM-LLM引入了一个多具身代理。 除了仅作为具身决策者之外,PaLM-E还展示了处理一般VL任务的熟练程度。 EmbodiedGPT引入了一种经济有效的方法,其特征在于CoT方法,增强了具身代理与现实世界互动的能力,并建立了连接高层计划与低层控制的闭环。 虽然基于MM-LLM的具身智能在与机器人的集成方面取得了进展,但需要进一步的探索来增强机器人的自主性。 持续IT在实际应用中,期望MM-LLM能够适应新的MM任务,以支持额外的功能。 然而,当前的MM-LLM仍然是静态的,无法适应不断出现的新要求。 因此,需要一种方法使模型足够灵活,可以高效持续利用新出现的数据,同时避免重新训练MM-LLM的巨大成本。 这与持续学习的原则一致,在持续学习中,模型被设计为类似人类学习那样渐进地学习新任务。 持续IT旨在在保持原MM IT阶段学习任务的卓越表现的同时,持续微调MM-LLM以适应新的MM任务。 它引入了两个主要挑战:(1)灾难性遗忘,即模型在学习新任务时忘记以前的知识;(2)负向前移传递,指出当学习新任务时未见任务的性能下降。 最近,He等建立了一个基准,以推动MM-LLM的持续IT发展。 尽管取得了这些进步,但在开发更好的方法来解决灾难性遗忘和负向前移传递的挑战方面,仍有很大的改进空间。 论文标题:MM-LLMs: Recent Advances in MultiModal Large Language Models论文链接: /abs/2401.1360...

秋天是养肺黄金期 专家推荐的4个养肺秘诀来了!
今天突然老成了陈建斌 最想接吻的男明星 昨天是