关键词 "视觉" 的搜索结果, 共 13 条, 只显示前 480 条
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视
High-quality, cost-effective, faster, and bulk professional clipping path and photo editing services. Our services are open 24/7. 获得专业的剪切路径、背景移除、阴影、颜色变换、修图、蒙版、隐形模特和矢量转换服务。使用专业的照片编辑功能提升您的视觉效果,
Hatch 是AI数字创意画布工具,为用户提供了无限的创作空间,能根据用户的思考过程进行适应和调整。用户可以从一个提示、图像或问题开始,将想法以视觉化的方式进行组织和连接,让思考向任何有意义的方向扩展。提供广阔虚拟空间,用户可自由放置、比较和组合图像。帮助用户将创意转化为现实。 官网地址:hatchcanvas.com
字节跳动 Seed 团队今天正式发布图像编辑模型 SeedEdit 3.0。 该模型可处理并生成 4K 图像,在精细且自然地处理编辑区域的同时,还能高保真地维持其他信息。尤其针对图像编辑“哪里改与哪里不改”的取舍,该模型表现出更佳的理解力和权衡力,可用率相应提高。 依靠 AI 完成指令式图像编辑的需求,广泛存在于视觉内容创意工作中。但此前,图像编辑模型在主体&背景保持、指令遵循等方面能
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
Huxe AI 是创新的个人音频伴侣应用,由谷歌旗下热门 AI 播客应用 NotebookLM 的核心团队成员创立。通过生成式 AI 技术,将用户关心的内容转化为个性化的音频体验。用户可以连接日历、邮件和兴趣领域,获取每日简报和定制化音频内容。能根据用户输入的主题生成深入研究的音频内容,提供智能互动,实时调整内容以满足用户需求。配备了生成式用户界面,为用户提供与音频相辅相成的视觉信息。 Huxe
Hautech.AI 是基于AI技术生成逼真时尚模特照片的工具。Hautech.AI 支持将简单的平面产品图像快速转换为高质量的模特展示图,具有高度的定制化功能,用户根据需求选择模特的年龄、性别、外貌特征、姿势和背景等。Hautech.AI助力品牌节省传统拍摄的时间和成本,提升内容的多样性和吸引力,广泛应用在社交媒体、产品目录、广告制作等场景,帮助时尚品牌高效地生成视觉内容,增强市场竞争力。 H
概述 LandingAI Agentic 文档提取API 从视觉复杂的文档(如表格、图片和图表)中提取结构化数据,并返回具有精确元素位置的分层 JSON。 这个 Python 库包装了该 API 以提供: 长文档支持——一次调用即可处理 100 多页 PDF 自动重试/分页——处理并发、超时和速率限制 辅助实用程序——边界框代码片段、可视化调试器等 特征
EmbodiedGen 是用于具身智能(Embodied AI)应用的生成式 3D 世界引擎和工具包。能快速生成高质量、低成本且物理属性合理的 3D 资产和交互环境,帮助研究人员和开发者构建具身智能体的测试环境。EmbodiedGen 包含多个模块,如从图像或文本生成 3D 模型、纹理生成、关节物体生成、场景和布局生成等,支持从简单物体到复杂场景的创建。生成的 3D 资产可以直接用于机器人仿真和
VFX8 是一站式 AI 制片工场,基于人工智能技术赋能影视制作全流程。用户只需输入一个创意想法,VFX8 能提供从前期策划、分镜头脚本生成、角色设计到视频生成的全流程服务。具备智能分镜制作功能,能批量生成电影级分镜头脚本,确保角色形象的一致性;支持全风格的影视角色设计,满足不同风格需求。VFX8 配备长篇剧集视觉资产管理系统,帮助创作者高效管理剧集的视觉元素,确保风格统一。 VFX8的主要功能
北大团队通过对GPT-4o-Image的深入实验,突破性发现其在视觉特征提取环节中,相较于传统变分自编码器(VAE),更依赖语义编码器进行处理。这一关键洞察为统一模型架构设计开辟了全新路径。 基于上述研究成果,团队推出UniWorld-V1统一生成框架。该框架创新性融合高分辨率对比语义编码器与多模态大模型,仅需2.7M训练样本,即可实现图像理解、生成、编辑、感知等多任务处理。 实验数据显示,在
Solar 是基于人工智能的应用开发平台,帮助企业快速构建全栈应用程序、自动化工作流和智能体。用户可以通过自然语言描述需求,Solar 会自动生成完整的应用程序,包括 Python 后端、Postgres 数据库和 React 前端。支持数据可视化、机器学习和计算机视觉等强大功能,提供基于角色的访问控制(RBAC)和自带云部署(BYOC)等安全与灵活性选项。提供团队协作功能和无限画布界面,方便用户
Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍塌问题,显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色,在GPTEval3D基准测试中取得优异的定量结果,证明了在生成高质量、多样化3D资产方面的强大能力。 Dive3D的项目
只显示前20页数据,更多请搜索
Showing 73 to 85 of 85 results