关键词 "视觉" 的搜索结果, 共 24 条, 只显示前 480 条
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视
High-quality, cost-effective, faster, and bulk professional clipping path and photo editing services. Our services are open 24/7. 获得专业的剪切路径、背景移除、阴影、颜色变换、修图、蒙版、隐形模特和矢量转换服务。使用专业的照片编辑功能提升您的视觉效果,
Hatch 是AI数字创意画布工具,为用户提供了无限的创作空间,能根据用户的思考过程进行适应和调整。用户可以从一个提示、图像或问题开始,将想法以视觉化的方式进行组织和连接,让思考向任何有意义的方向扩展。提供广阔虚拟空间,用户可自由放置、比较和组合图像。帮助用户将创意转化为现实。 官网地址:hatchcanvas.com
字节跳动 Seed 团队今天正式发布图像编辑模型 SeedEdit 3.0。 该模型可处理并生成 4K 图像,在精细且自然地处理编辑区域的同时,还能高保真地维持其他信息。尤其针对图像编辑“哪里改与哪里不改”的取舍,该模型表现出更佳的理解力和权衡力,可用率相应提高。 依靠 AI 完成指令式图像编辑的需求,广泛存在于视觉内容创意工作中。但此前,图像编辑模型在主体&背景保持、指令遵循等方面能
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
Huxe AI 是创新的个人音频伴侣应用,由谷歌旗下热门 AI 播客应用 NotebookLM 的核心团队成员创立。通过生成式 AI 技术,将用户关心的内容转化为个性化的音频体验。用户可以连接日历、邮件和兴趣领域,获取每日简报和定制化音频内容。能根据用户输入的主题生成深入研究的音频内容,提供智能互动,实时调整内容以满足用户需求。配备了生成式用户界面,为用户提供与音频相辅相成的视觉信息。 Huxe
Hautech.AI 是基于AI技术生成逼真时尚模特照片的工具。Hautech.AI 支持将简单的平面产品图像快速转换为高质量的模特展示图,具有高度的定制化功能,用户根据需求选择模特的年龄、性别、外貌特征、姿势和背景等。Hautech.AI助力品牌节省传统拍摄的时间和成本,提升内容的多样性和吸引力,广泛应用在社交媒体、产品目录、广告制作等场景,帮助时尚品牌高效地生成视觉内容,增强市场竞争力。 H
概述 LandingAI Agentic 文档提取API 从视觉复杂的文档(如表格、图片和图表)中提取结构化数据,并返回具有精确元素位置的分层 JSON。 这个 Python 库包装了该 API 以提供: 长文档支持——一次调用即可处理 100 多页 PDF 自动重试/分页——处理并发、超时和速率限制 辅助实用程序——边界框代码片段、可视化调试器等 特征
EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块,如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等,支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和
VFX8 是一站式 AI 制片工场,基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法,VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能,能批量生成电影级分镜头脚本,确保角色形象的一致性;支持全风格的影视角色设计,满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统,帮助创作者高效管理剧集的视觉元素,确保风格统一。 VFX8的主要功能
北大团队通过对GPT-4o-Image的深入实验,突破性发现其在视觉特征提取环节中,相较于传统变分自编码器(VAE),更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。 基于上述研究成果,团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型,仅需2.7M训练样本,即可实现图像理解、生成、编辑、感知等多任务处理。 实验数据显示,在
Solar 是基于人工智能的应用开发平台,帮助企业快速构建全栈应用程序、自动化工作流和智能体。用户可以通过自然语言描述需求,Solar 会自动生成完整的应用程序,包括 Python 后端、Postgres 数据库和 React 前端。支持数据可视化、机器学习和计算机视觉等强大功能,提供基于角色的访问控制(RBAC)和自带云部署(BYOC)等安全与灵活性选项。提供团队协作功能和无限画布界面,方便用户
Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍塌问题,显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色,在GPTEval3D基准测试中取得优异的定量结果,证明了在生成高质量、多样化3D资产方面的强大能力。 Dive3D的项目
文本到图像的扩散模型的最新进展已取得显著成功,但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导,常常导致对象方向错位或意外。为了解决这些限制,我们提出了涂鸦引导扩散(ScribbleDiff),这是一种无需训练的方法,它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而,将涂鸦纳入扩散模型存在挑战,因为涂鸦具有稀疏和单薄的特性,很难确保准确的
FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(MLLM)进行故事规划,基于风格传播适配器将角色的视觉风格应用到背景中,用 3D Agent重建角色生成真实的运动序列,基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色,为个性化
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址 项目官网:https:/
万象驭影是北京矩阵像素科技推出的基于多模态智能体工程的智能视频创作工具,以技术创新重构视频内容生产流程,解决行业高门槛、低效率的创作痛点。独创代理式跨模态处理系统,通过多智能体协同拆解视频物料,实现从外层标题、背景图到内层情节结构、特效运镜的智能编排。结合分布式服务架构与微服务设计,确保高并发场景下的视频处理流畅性,支持极速版、专业版、探索版等多模式剪辑,满足从商业批量混剪到专业精剪的全场景需求。
RoboBrain 2.0 是强大的开源具身大脑模型,能统一感知、推理和规划,支持复杂任务的执行。RoboBrain 2.0 包含 7B(轻量级)和 32B(全规模)两个版本,基于异构架构,融合视觉编码器和语言模型,支持多图像、长视频和高分辨率视觉输入,及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色,适用机器人操作、导航和多智能体协作等任务,助力具身智能从实验室走向真实场景
雾象Fogsight是大型语言模型(LLM)驱动的动画生成智能体,用户输入抽象概念或词语,能生成高水平的生动动画。核心功能包括“概念即影像”,能将输入的主题转化为叙事完整的动画,包含双语旁白和电影级视觉质感;“智能编排”,利用LLM驱动的编排能力自动完成创作流程;以及“语言用户界面(LUI)”,支持用户通过多轮对话对动画进行精准调优和迭代。 项目地址 Github仓库: https://g
dots.ocr 是小红书 hi lab 开源的多语言文档布局解析模型。模型基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,保持良好的阅读顺序。模型规模虽小,但性能达到业界领先水平(SOTA),在 OmniDocBench 等基准测试中表现优异,公式识别效果能与Doubao-1.5和 gemini2.5-pro 等更大规模模型相媲美,在小语种解析方面优势显著。dots.o
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的
ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁,实现其他模态数据的隐式对齐,无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能,为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind的项目地址 项目官网:imagebind
NeuralAgent 是开源的桌面 AI 个人助手,通过自然语言指令自动化执行多种复杂任务,如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化,在 Windows 平台上支持后台浏览器控制,实现高效任务处理。NeuralAgent 集成 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini 等多种主流语
只显示前20页数据,更多请搜索
Showing 73 to 96 of 98 results