关键词 "阿里" 的搜索结果, 共 24 条, 只显示前 480 条
通义,由通义千问更名而来,是阿里云推出的语言模型,于2023年9月13日正式向公众开放。属于(AI Generated Content,AIGC)领域,是一个MaaS(模型即服务)的底座。为多模态大模型(Multimodal Models)。通义意为“通情,达义”,具备全副AI能力
Higress 是一款云原生 API 网关,集成了流量网关、微服务网关、安全网关和 AI 网关的功能。 它基于 Istio 和 Envoy 开发,支持使用 Go/Rust/JS 等语言编写 Wasm 插件。 提供了数十个通用插件和开箱即用的控制台。 Higress AI 网关支持多种 AI 服务提供商,如 OpenAI、DeepSeek、通义千问等,并具备令牌限流、消费者鉴权、WAF 防护、
FunAudioLLM/CosyVoice(https://github.com/FunAudioLLM/CosyVoice) 项目是一个开源的多语言语音生成模型,它支持推理、训练和部署全流程。 该模型包括 CosyVoice-300M、CosyVoice-300M-SFT 和 CosyVoice-300M-Instruct 三种预训练模型,以及 CosyVoice-ttsfrd 资源。用户
全妙新闻播报MCP Server 是一个基于阿里云百炼API的新闻聚合服务,专注于实时获取热点新闻资讯。
阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。 研究人员在 NQ、TriviaQA、Pop
极简部署AI视频翻译配音工具 KrillinAI-一款AI视频翻译配音工具 提供了从视频下载,音频提取,音频转录,文本切割,翻译,对齐,到最终合成适配抖音,哔哩哔哩,小红书,视频号,快手等主流平台格式的一站式解决方案。 基于AI大模型的视频翻译和配音工具,专业级翻译,一键部署全流程,可以生成适配抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube Shorts等形态的
VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。开源的 Wan2
BetterYeah AI是一个企业级AI智能体平台,通过简化AI Agent的开发流程,使企业能快速构建和部署AI应用。平台的核心产品能力包括零代码搭建Agent、一站式模型集成、知识库管理、数据库连接、可视化工作流(Flow)、丰富的官方插件(Plugin)、多模态ChatBot支持以及简单的开发运维工具。 BetterYeah AI的主要功能 零代码搭建Agent:允许用户无需编写代
ChatUI 是阿里团队推出的开源智能对话式 UI 组件库,能帮助开发者快速构建高质量的聊天应用,提供响应式设计、国际化、主题定制等功能。ChatUI 基于阿里巴巴 Alime Chatbot 的最佳实践,用 TypeScript 编写,支持无障碍功能,兼容多种浏览器。ChatUI 提供丰富的组件,如气泡、输入框等,满足不同场景需求。开发者基于简单配置实现多语言支持,打造符合品牌需求的聊天界面。
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
通义万相AI视频是阿里推出的一款完全免费的AI视频生成工具,支持文生视频和图生视频两种方式,可以根据用户提供的文字提示词或图片,自动创作出具有影视级画面质感的高清视频(最长6秒)。通义万相AI视频支持多种艺术风格,包括但不限于古风、科幻、动画等,并且特别优化了对中式元素的理解和表现。通义万相AI视频能处理多语言输入,支持“灵感扩写”功能,一键帮用户完善提示词,还自带“音频生成”功能,视频生成自带音
绘蛙AI文案是阿里巴巴推出的种草文案写作工具,支持用户通过输入商品链接或ID,提供商品卖点、人设、笔记话题等信息,绘蛙AI文案将自动生成适合商品的营销文案,如种草文案、爆文改写等,提高商品/种草笔记的吸引力和销量。绘蛙AI文案是电商从业者、达人KOL的文案创作好帮手。 绘蛙AI文案的主要功能 单商品种草:专注于为单个商品创作吸引人的推广文案,帮助提升商品的吸引力和销量。 爆文改写:提供将
心流是阿里巴巴推出的基于星辰大模型的AI搜索助手,通过智能技术提升用户的知识获取效率。集成了近3000万篇学术论文资源,覆盖Nature、IEEE、ArXiv等权威期刊,支持学术问答、AI精读、段落总结、智能翻译和名词解释等功能,能帮助研究人员和学生快速理解和分析论文内容。心流提供DeepSeek渠道,联网搜索协助思考过程,具备通用问答、慢推理、私人知识库等功能,适用于市场调研、文档分析、内容创作
夸克是阿里推出的AI搜索应用,集成了浏览器搜索、网盘、实用工具等功能。夸克支持手机版、Pad版、Windows电脑PC版,资产一键同步。提供6T超大空间、AI总结、AI生成等智能服务。用户可通过手机扫码快速登录,享受无缝的多端协同体验。夸克极速、安全、高效、高颜值,是你的学习、工作、生活的高效拍档。 夸克的功能特色 智能搜索:夸克基于AI智能引擎提供快速、准确的搜索结果,查资料更快,工作,
QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升在长文本场景下的推理能力。模型在多个长文本文档问答(DocQA)基准测试中表现优异,平均准确率达到了70.7%,超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型,且与Cla
# 核心亮点 支持最强开源模型千问3,其代码能力达到业界领先水平,同时支持MCP协议,具备强大的工具调用能力,可以帮助开发者快速开发智能体应用。 全面集成通义灵码智能编码助手(即通义灵码插件)的能力,无需安装插件开箱即用,直接体验高效、智能的编程体验。 自带编程智能体模式,开发者只需描述编码任务,通义灵码便可以自主地进行工程感知、代码检索、执行终端、调用MCP工具等,
OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视
钉钉宜搭是阿里巴巴推出的低代码应用开发平台,帮助企业快速、高效地搭建数字化业务应用。通过可视化拖拽和配置的方式,让不懂代码的业务人员也能开发出符合自身需求的应用系统,降低了开发门槛和成本。用户可以用丰富的组件库,快速构建出各类业务表单,通过自定义流程规则实现高效的业务审批和流转。宜搭具备强大的数据统计和分析能力,能帮助企业更好地进行决策支持。 钉钉宜搭的主要功能 应用可视化搭建:提供大
Qwen3 Reranker是阿里巴巴通义千问团队发布的文本重排序模型,属于Qwen3模型家族。采用单塔交叉编码器架构,输入文本对后输出相关性得分。模型通过多阶段训练范式,基于高质量标注数据和大量合成训练对进行训练,支持超过100种语言,涵盖主流自然语言及多种编程语言。性能表现上,Qwen3 Reranker-8B在MTEB排行榜上取得了72.94的高分,Qwen3 Reranker-0.6B也已
MNN轻量级高性能推理引擎 通用性 - 支持TensorFlow、Caffe、ONNX等主流模型格式,支持CNN、RNN、GAN等常用网络。 高性能 - 极致优化算子性能,全面支持CPU、GPU、NPU,充分发挥设备算力。 易用性 - 转换、可视化、调试工具齐全,能方便地部署到移动设备和各种嵌入式设备中。 什么是 TaoAvatar?它是阿里最新研究
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练,逐步嵌入医学专业知识,显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本,其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh
DAMO GRAPE是浙江省肿瘤医院与阿里巴巴达摩院联合推出的全球首个基于平扫CT识别早期胃癌的AI模型。DAMO GRAPE突破传统影像学限制,基于深度学习分析非增强CT影像,实现对胃癌的高效筛查。在大规模临床研究中,DAMO GRAPE展现出85.1%的敏感性和96.8%的特异性,显著优于人类放射科医生。模型能提前6个月发现早期胃癌病灶,为胃癌的早期诊断和治疗提供新的高效手段,有望大幅提高胃癌
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题,让AI像专业音效师一样逐步思考,生成音画同步的高保真音频。模型基于三阶思维链驱动音频生成,包括基础音效推理、对象级交互和指令编辑。模型配备AudioCoT数据集,包含带思维链标注的音频数据。在VGGSoun
只显示前20页数据,更多请搜索