关键词 "Computer Vision jobs" 的搜索结果, 共 6 条, 只显示前 480 条
Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具,可以自动完成各种在线任务,如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent(CUA)的新模型驱动,模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页,使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段,仅对美国的Cha
银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA,一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本(Zero-Shot)泛化能力的具身大模型。 TrackVLA 是银河通用推出的产品级导航大模型,纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作,是一个由仿真合成动作数据训练的“视觉-语言-动作”(Vision-Language-Action, V
CreateVision AI 是AI图像生成平台,平台融合 Flux.1 Dev 和 GPT-Image-1 两大顶级模型,为用户提供开源与闭源技术路线的极致体验。平台支持用户将创意想法瞬间转化为高质量图像,轻松生成逼真照片、卡通、插画和抽象艺术。支持样式、颜色、光照、构图的 4D 精准控制,满足专业创作需求。CreateVision AI 生成的图像能用在商业用途,无数量限制。 官方网站:h
ComputerX是基于人工智能的AI Agent工具,通过自然语言指令帮助用户自动化处理各种计算机任务,提升工作效率。能处理多种任务,如旅行规划、数据分析、报告生成、网页应用创建等,支持文本、表格、图像和代码等多种输出格式。ComputerX基于 AI 技术整合来自多个在线来源的信息,提供全面且准确的结果,保持任务执行过程的透明性。 ComputerX的官网地址 官网地址: https:
智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner(GE)。GE基于约3000小时真实机器人操控视频数据,整合未来帧预测、策略学习与仿真评估,形成闭环架构,使机器人实现从“看”到“想”再到“动”的端到端推理与执行。 链接: Project page:https://genie-envisioner.github.io/ Arxiv:https://a
Waver 1.0 是字节跳动推出的新一代视频生成模型,基于修正流 Transformer 架构,支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)生成,可在单一框架内完成,无需切换模型。支持高达 1080p 的分辨率和 2-10 秒的灵活视频长度,擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。在 Waver-Bench 1.0 和 Hermes 运动测试集上,W
只显示前20页数据,更多请搜索
Showing 313 to 318 of 318 results