dataset sharing - 梅斯AI导航站

ViLAMP

ViLAMP（VIdeo-LAnguage Model with Mixed Precision）是蚂蚁集团和中国人民大学联合推出的视觉语言模型，专门用在高效处理长视频内容。基于混合精度策略，对视频中的关键帧保持高精度分析，显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色，在长视频理解任务中，展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧（约3小时）

SuperEdit

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法，基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令，与原始图像和编辑图像对更准确地对齐，引入对比监督信号，进一步优化模型训练。SuperEdit不需要额外的视觉语言模型（VLM）或预训练任务，仅依赖高质量的监督信号，在多个基准测试中实现显著的性能提升。 Super

WebSailor

WebSailor 是阿里通义实验室开源的网络智能体，专注于复杂信息检索与推理任务。通过创新的数据合成方法（如 SailorFog-QA）和训练技术（如拒绝采样微调和 DUPO 算法），在高难度任务中表现出色，在 BrowseComp 等评测中超越多个知名模型，登顶开源网络智能体榜单。WebSailor 的推理重构技术能高效处理复杂任务，生成简洁且精准的推理链。在复杂场景中表现出色，在简单任务中展

GDPVAL – OpenAI开源的衡量 AI 经济价值的评估框架

GDPval 是由 OpenAI 推出的一个全新评估框架，旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中，选取了 44 种职业，设计了 1320 个贴近实际工作场景的真实任务（其中 220 个已开源）。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核，确保评估结果能真实反映 AI

搜索结果

ViLAMP

SuperEdit

WebSailor

GDPVAL – OpenAI开源的衡量 AI 经济价值的评估框架