关键词 "TARS" 的搜索结果, 共 15 条, 只显示前 480 条
88stacks is an AI image generator for creating various AI-generated images.
D-ID is an AI platform for creating videos from photos and text.
Typecast is an AI voice generator with 400+ realistic voices for creating lifelike audio content.
AI video platform for URL transformation
Ready Player Me is a trusted developer tool for personalized avatars in games and apps.
Customize AI characters for chat and interaction.
Free AI video editor with text to video, avatars, auto-subtitles, voice translations.
UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本
构建大型语言模型(从头开始)。目前在github上超过4万个stars 从头开始逐步在 PyTorch 中实现类似 ChatGPT 的 LLM。该存储库包含用于开发、预训练和微调类似 GPT 的 LLM 的代码,并且是《从头开始构建大型语言模型》一书的官方代码存储库。 在《构建大型语言模型(从零开始)》中,你将逐步从头开始编写代码,学习并理解大型语言模型 (LLM) 的工作原理。本书将指导
A Cloudflare-powered MCP (Model Context Protocol) Server that allows you to search and query your GitHub starred repositories using natural language.
A GUI Agent application based on UI-TARS(Vision-Language Model) that allows you to control your computer using natural language.
拥有与 Cursor 几乎一样强大的编程功能,最大的不同 Void 是可直接连接任何 AI 模型或使用本地部署模型,无需再经过第三方服务器。 超过1.5万个stars
LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制
只显示前20页数据,更多请搜索
Showing 121 to 135 of 135 results