0.2%训练量让线性注意力提分20 405B大模型也能线性化!斯坦福MIT最新研
新智元报道,alan,新智元导读,近日,来自斯坦福、MIT等机构的研究人员推出了低秩线性转换方法,让传统注意力无缝转移到线性注意力,仅需0.2%的参数更新即可恢复精度,405B大模型两天搞定!生产级大...
新智元报道,alan,新智元导读,近日,来自斯坦福、MIT等机构的研究人员推出了低秩线性转换方法,让传统注意力无缝转移到线性注意力,仅需0.2%的参数更新即可恢复精度,405B大模型两天搞定!生产级大...
新智元报道,alan,新智元导读,以开源极客之姿杀入江湖的MistralAI,在9月份甩出了自家的首款多模态大模型Pixtral12B,如今,报告之期已至,技术细节全公开,作为欧洲的OpenAI,Mi...
Don,tlooktwice!把连续相同的图像块合并成一个token,就能让Transformer的视频处理速度大幅提升,卡内基梅隆大学提出了视频大模型加速方法Run,LengthTokenizati...
今年,化学诺贝尔奖授予了AlphaFold,AI,Science受到空前的关注,人们惊叹于,仅仅是一个蛋白质结构预测模型,就能释放出如此巨大的行业潜力,就在当下,在第三届中国生物计算大会上,全球规模最...
新智元报道,Aeneas好困,新智元导读,Transformer解决了三体问题,Meta研究者发现,132年前的数学难题——发现全局李雅普诺夫函数,可以被Transformer解决了,我们不认为Tra...
新智元报道,alan,新智元导读,近日,深度学习三巨头之一的YoshuaBengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下,在Transformer统治的A...
机器之心报道,蛋酱、佳琪牛顿没解决的问题,AI给你解决了,AI的推理能力一直是研究的焦点,作为最纯粹、要求最高的推理形式之一,能否解决高级的数学问题,无疑是衡量语言模型推理水平的一把尺,虽然我们已经见...
白小交整理自凹非寺量子位,公众号QbitAI当奥特曼、马斯克、AnthropicCEO都纷纷将AGI实现锚定在2026年前后,LeCun无疑是直接浇了冷水,完全是胡说八道,最新的公开演讲中,他表示,系...
机器之心报道,Panda、泽南OpenAIο1模型的发布掀起了人们对AI推理过程的关注,甚至让现在的AI行业开始放弃卷越来越大的模型,而是开始针对推理过程进行优化了,今天我们介绍的这项来自MetaFA...
机器之心报道,佳琪、蛋酱自从Transformer模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷,这次登场的选手,不仅要挑战Transformer的地位,还致敬了经典论文的名字,再看这篇论...
新智元报道,alan,新智元导读,近日,Mamba方面又搞出了有意思的研究,来自康奈尔、普林斯顿等机构的研究人员成功将Llama提炼成了Mamba模型,并且设计了新的推测解码算法,加速了模型的推理,先...