关键词 "蚂蚁集团" 的搜索结果, 共 4 条, 只显示前 480 条
百宝箱Tbox(原芝士饼)是蚂蚁集团(支付宝)推出的一站式 AI 原生应用开发平台,无需任何代码基础,只需通过自然语言,简单几步即可完成应用的创建与发布。百宝箱Tbox集成了多种主流大模型,如通义千问、月之暗面等。百宝箱Tbox不仅可以帮你轻松创建各类智能体(Agent),支持一键发布到支付宝小程序,还能发布到其他平台 百宝箱Tbox的主要功能 0代码开发:用户无需编写代码即可快速搭建AI
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能 图像描述生成:根据输入的图像生成详细的描述
Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多个模态基准测试中表现出色,在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出,能实现自然流畅的多模态交互,为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性,可广泛用在OCR识别、知识问
只显示前20页数据,更多请搜索