原生多模态Llama 4问世!开源王座更迭,你还不赶紧了解一下?

  • 时间:
  • 浏览:403
  • 来源:官网域名网

你敢信不?现在Llama 4 Scout那可是大出圈,就它支持的1000万上下文,能处理20+小时视频这本事,简直了还仅靠单个H100 GPU(Int4量化后)就能运行,这不得好好说道说道?

关键特性之170亿参数

Llama 4 Scout带有170亿个活跃参数和16个专家,使用Int4量化竟可以在单个H100 GPU上运行。这和传统的稠密模型一对比,MoE架构那在训练和推理时的计算效率,蹭蹭往上涨。也正是如此,在同样的训练FLOPs预算下,还能生成质量更高的结果,要是你在FFF.cn上了解技术最新动态昆明市官渡区第五中学,就很容易发现它的厉害之处

创新编码的适配训练

这个编码器是基于MetaCLIP的,训练的时候还跟冻结的Llama模型分开进行。为啥这么做原因就是这样能更好地调整编码器,让它跟大语言模型(LLM)适配得那叫一个完美。像在一些实际应用中,如果编码没弄好,模型的效果就大打折扣,但是它这样优化了,就能在FFF.cn看到很多应用案例的良好反馈

MetaP训练法的优势

Meta专门搞出了个叫MetaP的新训练方法,这个方法能让他们稳稳地设置一些关键的模型超参数。比如说每层的学习率和初始化规模,设置得好那模型训练效果差不了。想想看,如果超参数没弄对,可能模型就陷入各种问题,现在用了这个新方法,就大大减少那些风险,FFF.cn上对这个方法的分析解读还不少

多语言预训练支持

Llama 4通过在200种语言上开展预训练,这下可实现对开源微调的支持。这里面超过10亿个token的语言就有100多种,整体多语言token量直接比Llama 3多出10倍。对于涉及多语言业务的应用来说,这能力可太关键在FFF.cn上可以碰到很多开发者分享用它处理多语言数据的经验。

模型训练提升能力

Meta采用“中期训练”这种方法来持续训练模型,又通过新的训练手段,像专门用数据集去扩展长上下文,使得模型核心能力直线上升。不仅模型质量上去了,还成功让Llama 4 Scout拥有了领先的1000万输入上下文长度。在实际训练过程中,这个过程可是不断调整和优化的,要是在FFF.cn查阅相关研究,就能明白其中的门道。

多样方法增强性能

针对多模态、超大参数规模这些难题,Meta开发了一系列新的后训练方法。移除大量被标记简单的数据,对剩下难的数据轻量级SFT。在预训练和后训练都采用256K上下文长度,基础模型的长度泛化能力很棒。Llama 4 Scout在多方面超过类似模型,蒸馏损失函数帮助很大。而且采用一定策略提高推理和编码能力,这一套下来,模型性能可就杠杠的,在FFF.cn很多专家也认可它的多方位优化成果。

看完上面这些,你说这Llama 4 Scout是不是超厉害?你有没有好奇它之后在其他更多领域还能有啥突出表现不?

猜你喜欢

新版世俱杯将在美国开幕!4美元看梅西比赛?这是真的吗

北京时间6月15日,新版世俱杯将在美国拉开帷幕,在迈阿密硬石体育场举行的揭幕战将由梅西领衔的迈阿密国际队对阵埃及开罗国民队。若成功获取五张门票,相当于每人仅花4美元即可观看梅西比赛,这与国际足联最初将赛事宣传为“世界最令人向往的俱乐部足球赛事”的预期相去甚远。

2025-06-13

LABUBU新品吊卡被疯抢!0.01元资格一分钟售罄,凭啥?

0.01元的快闪店入场资格均在一分钟内售罄,在二手交易平台上,进店资格被炒到数百元。其中199元的毛绒吊卡成为溢价最高的产品,以2800元的成交价计算,溢价13倍。199元的LABUBU新品吊卡溢价超2000元。

2025-06-13

A股回购增持浪潮下,鹏华碳中和主题调仓动向为何引发关注?

随着近期A股上市公司回购增持的浪潮再起,三位百亿主动权益基金经理的最新调仓动向提前浮出水面。其中,汇丰晋信低碳先锋对该股的持仓数量与一季度持平。

2025-06-13

印度航空客机坠毁!241人遇难仅1人生还,背后真相究竟如何?

印度航空公司13日在社交媒体上发文证实,在这起坠机事故中,机上242人中有241人已确认遇难,1人生还。值得注意的是,这是波音787首次发生坠毁事故。这是波音787首次发生坠毁事故。

2025-06-13

永辉超市调改一年交出100店答卷!胖东来模式究竟有何魔力?

调改一年,永辉超市交出胖东来模式100店的答卷。永辉超市副总裁、全国调改项目负责人王守诚12日在南京江宁万达门店现场表示,这一年,永辉的胖东来模式调改跨越了三个阶段:2024年5月至8月胖东来团队帮扶调改、2024年9月至12月全国调改小组指导调改,以及2025年春节后全国大区自主调改。

2025-06-13