英伟达推出Eagle 2.5视觉语言AI模型:参数飙升至8B,媲美GPT-4!

4天前 2观看

英伟达推出Eagle 2.5视觉语言AI模型:参数飙升至8B,媲美GPT-4!mN1喜好网-记录每日喜好的科技时尚娱乐生活

随着人工智能技术的飞速发展,英伟达最近推出的Eagle 2.5视觉-语言模型引起了广泛关注。这款模型以其卓越的性能和创新的训练策略,成功地将参数规模提升至8B,令人瞩目。mN1喜好网-记录每日喜好的科技时尚娱乐生活

一、模型介绍mN1喜好网-记录每日喜好的科技时尚娱乐生活

Eagle 2.5是一款专注于长上下文多模态学习的视觉-语言模型。其强大的理解能力使它能够处理大规模的视频和图像,尤其擅长处理高分辨率图像和长视频序列。在Video-MME基准测试(512帧输入)中,Eagle 2.5的得分高达72.4%,这一表现甚至媲美更大规模的模型,如Qwen2.5-VL-72B和InternVL2.5-78B。mN1喜好网-记录每日喜好的科技时尚娱乐生活

二、关键训练策略mN1喜好网-记录每日喜好的科技时尚娱乐生活

Eagle 2.5的成功离不开两项关键的训练策略:信息优先采样(Information-First Sampling)和渐进式后训练(Progressive Post-Training)。信息优先采样通过图像区域保留(IAP)技术,保留超过60%的原始图像区域,同时减少宽高比失真;自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。mN1喜好网-记录每日喜好的科技时尚娱乐生活

信息优先采样和渐进式后训练的结合,不仅通过逐步扩展模型上下文窗口,保证了在不同输入长度下的稳定性能,而且通过SigLIP视觉编码和MLP投影层,确保了模型在多样化任务中的灵活性。mN1喜好网-记录每日喜好的科技时尚娱乐生活

三、定制数据集mN1喜好网-记录每日喜好的科技时尚娱乐生活

Eagle 2.5的训练数据管道整合了开源资源和定制数据集Eagle-Video-110K。该数据集专为理解长视频设计,采用双重标注方式。自上而下的方法采用故事级分割,结合人类标注的章节元数据和GPT-4生成的密集描述;自下而上的方法则利用GPT-4o为短片段生成问答对,以抓取时空细节。通过余弦相似度筛选,数据集强调多样性而非冗余,确保了叙事连贯性和细粒度标注,这显著提升了模型在高帧数(≥128帧)任务中的表现。mN1喜好网-记录每日喜好的科技时尚娱乐生活

四、性能表现mN1喜好网-记录每日喜好的科技时尚娱乐生活

经过训练和测试,Eagle 2.5在多项视频和图像理解任务中表现出色。在视频基准测试中,MVBench得分高达74.8,MLVU得分77.6,LongVideoBench得分66.4;在图像基准测试中,DocVQA得分高达94.1,ChartQA得分87.5,InfoVQA得分80.4。这些成绩充分证明了Eagle 2.5的强大性能。mN1喜好网-记录每日喜好的科技时尚娱乐生活

消融研究结果表明,信息优先采样、ADS的移除以及渐进式训练的加入都会导致性能下降;而Eagle-Video-110K数据集的加入则带来了更稳定的提升。这些研究结果为进一步优化模型提供了重要参考。mN1喜好网-记录每日喜好的科技时尚娱乐生活

总的来说,英伟达推出的Eagle 2.5视觉语言AI模型凭借其创新训练策略、定制数据集以及卓越性能,已经引起了广泛关注。随着模型的进一步优化和广泛应用,我们期待它在未来的发展中发挥更大的作用。mN1喜好网-记录每日喜好的科技时尚娱乐生活

mN1喜好网-记录每日喜好的科技时尚娱乐生活

mN1喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-74319.html英伟达推出Eagle 2.5视觉语言AI模型:参数飙升至8B,媲美GPT-4!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗