关键词 "视觉" 的搜索结果, 共 24 条, 只显示前 480 条
DreamGen是英伟达推出的创新的机器人学习技术,基于AI视频世界模型生成合成数据,让机器人能在梦境中学习新技能。DreamGen仅需少量现实视频数据,能生成大规模逼真的训练数据,实现机器人在新环境中的行为泛化和环境泛化。DreamGen的四步流程包括微调视频世界模型、生成虚拟数据、提取虚拟动作以及训练下游策略。DreamGen让机器人在没有真实世界数据支持的情况下,凭文本指令完成复杂任务,显著
Head是全球领先的 AI 市场营销工具,基于 AI 技术自动生成秒级部署的跨平台营销策略,精准计算病毒式传播路径,帮助品牌主和创作者将市场预算转化为可量化增长。Head 已为多品牌提供服务,覆盖电商、科技、游戏和 AI 等多个领域,业务范围触及全球 200 多个国家和地区。 Head的主要功能 品牌DNA生成:一键生成品牌核心价值观、视觉元素和市场定位,确保营销信息一致。 营销策略
Stitch 是谷歌实验室(Google Labs)推出的基于生成式AI工具。能将简单的英语描述或图像迅速转化为用户界面(UI)设计以及支持运行的前端代码。Stitch 基于 Gemini 2.5 Pro 模型的多模态能力,用户可以通过自然语言描述或上传视觉素材(如草图、截图、线框图等)生成UI设计。Stitch 能识别输入,快速生成多种设计选项,方便用户调整和优化。可以将生成的设计无缝粘贴到 F
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出,使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,
Macaly 是创新的无代码应用开发工具,通过自然语言处理技术,让用户能将想法转化为可运行的应用程序。可以通过简单的文字描述或语音指令,直接参与到应用的创建和修改过程中。Macaly 能实时反馈视觉效果,让用户即时看到更改结果,极大地提高了开发效率和协作体验。Macaly 与 GitHub 深度集成,支持无缝的代码管理和协作,包括拉取、推送和问题管理。 Macaly的主要功能 自然语言
Pippit是字节旗下 CapCut 推出的AI营销内容创作平台,专为电商、社交媒体运营和品牌推广设计。帮助用户轻松生成高质量的视频和图片内容,无需专业设计技能。用户只需输入网页链接或脚本,可快速生成多种营销视频,支持多语言,可批量创作图片。 Pippit提供丰富的商业授权素材库,包括视频模板、图片、设计元素和音频,确保生成内容的合规性。支持一键发布到 TikTok、Instagram 等平台,
VibeNecto是AI营销视觉素材生成平台。能根据用户输入的文本描述,快速生成高质量的定制化图片,适用于社交媒体、广告等多种营销场景。用户无需专业设计技能,可在几秒钟内获得符合品牌风格的视觉素材。平台提供多种视觉风格选择,从写实到艺术风格,满足不同需求。具备背景移除功能,可自动去除图片背景,适合产品照片和专业头像处理。所有生成的图片都会被安全地存储在云端,自动保存历史记录,方便用户随时访问、下载
Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具,可以自动完成各种在线任务,如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent(CUA)的新模型驱动,模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页,使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段,仅对美国的Cha
视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。 Pixel R
Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模
Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPali 等技术,能理解文档中的视觉内容。Morphik 具备快速元数据提取功能,可从文档中提取边界框、标签、分类等信息。 Morphik的主要功能 多模态数据处理:能处理文本、PDF、图片、视频等多种格式的文件。 智能解析文件
OpusClip Thumbnail 是 OpusClip 团队推出的免费的 AI 缩略图生成工具,专为 YouTube 创作者设计,用于快速生成视频缩略图。用户只需粘贴视频链接,AI 会自动分析内容并生成多个高表现力的缩略图选项,无需手动输入提示词或描述。基于顶级创作者的成功模式训练,吸引观众注意力提高点击率。 OpusClip Thumbnail的主要功能 一键生成:用户只需粘贴 Yo
MemenomeLM 是 Brainrot AI 推出的AI工具,专为Z世代研究人员设计,可将PDF文档、笔记等资料转化为有趣且互动性强的视频内容。具有多模态理解能力,能将复杂概念用简单语言解释并提供现实例子,能将文献转化为多种格式的短视频,如Brainrot Quiz、Yap Dollar等,支持添加搞笑音效、生成图片及选择不同语音。 MemenomeLM的主要功能 AI视频创作:用户可
LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能 图像描述生成:根据输入的图像生成详细的描述
PPT.AI 是AI演示文稿制作工具,能快速将用户输入的主题或上传的文档内容转换为专业的 PPT 演示文稿。具备智能内容生成、自动设计与排版、丰富模板选择、多语言支持等功能,支持15种主要语言,提供50多个专业模板。用户只需输入主题或上传文件,选择模板,可快速生成演示文稿,支持进一步自定义编辑。PPT.AI 考虑数据安全,提供银行级加密和安全云存储。 PPT.AI的主要功能 智能生成演示文
Slidev 是开源的PPT制作模型,基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片,支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能,提供丰富的主题和样式选项。Slidev 提供快速启动命令 npm init slidev,支持在线编辑器 sli.dev/new,无需安装软件简单易用。Slidev 的核心优势在于开发友好性和强大的交互性
Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成
PxBee 是在线AI图片编辑平台,基于先进的人工智能技术,帮助用户快速移除图片背景、增强图片质量以及生成新的背景。用户只需上传图片,PxBee 的 AI 工具能自动识别并移除背景,在复杂的图像上也能保持边缘的精确性。平台提供一键式的图片增强功能,能修复模糊的照片、减少噪点、改善光照提升分辨率,让用户快速获得高清清晰度的效果。 PxBee的主要功能 AI背景移除:PxBee 的 AI 工具
SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。模型具备高准确率和上下文理解能力,响应延迟低于0.5秒。SignGemma采用高效架构设计,可在消费级GPU上运行,支持端侧部署,保护用户隐私。
银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA,一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本(Zero-Shot)泛化能力的具身大模型。 TrackVLA 是银河通用推出的产品级导航大模型,纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作,是一个由仿真合成动作数据训练的“视觉-语言-动作”(Vision-Language-Action, V
只显示前20页数据,更多请搜索
Showing 49 to 72 of 85 results