关键词 "GPU services" 的搜索结果, 共 20 条, 只显示前 480 条
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型,结合 AWQ 量化技术,既节省 GPU 内存又提升推理速度。 FunGPT的主要功能 甜言蜜语模式:当用户情绪低
类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品,它是一个具有语音功能的大语言模型秘书,可以 Coding、访问你的电脑文件、浏览网页,并自动修正错误与反省,最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建,完全在本地硬体上运行,进而保证资料的隐私。 Features: 100% 本机运行:
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
FaceAge是一款AI人脸识别扫描模型,它通过数万张患者照片和公共图像数据库进行训练,能够精准判断个人衰老迹象。 模型描述 FaceAge 深度学习流程包括两个阶段:面部定位和提取阶段,以及带有输出线性回归器的特征嵌入阶段,可提供生物年龄的连续估计。 第一阶段通过在照片中定位人脸并在其周围定义一个边界框来预处理输入数据。然后对图像进行裁剪、调整大小,并在所有 RGB 通道上对像
SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。模型具备高准确率和上下文理解能力,响应延迟低于0.5秒。SignGemma采用高效架构设计,可在消费级GPU上运行,支持端侧部署,保护用户隐私。
Path is a team of more than 300+ image-editing experts and graphic designers who provide professional Photoshop services to e-commerce businesses, product photographers, and small and medium-sized bus
High-quality, cost-effective, faster, and bulk professional clipping path and photo editing services. Our services are open 24/7. 获得专业的剪切路径、背景移除、阴影、颜色变换、修图、蒙版、隐形模特和矢量转换服务。使用专业的照片编辑功能提升您的视觉效果,
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
MNN轻量级高性能推理引擎 通用性 - 支持TensorFlow、Caffe、ONNX等主流模型格式,支持CNN、RNN、GAN等常用网络。 高性能 - 极致优化算子性能,全面支持CPU、GPU、NPU,充分发挥设备算力。 易用性 - 转换、可视化、调试工具齐全,能方便地部署到移动设备和各种嵌入式设备中。 什么是 TaoAvatar?它是阿里最新研究
通过 AI 自动分析视频内容并生成文字转录,其中语义化搜索功能颇有用,支持自然语言描述快速找到想要的视频片段。 GitHub:http://github.com/roothch/PreenCut… 主要功能: - 基于 WhisperX 的自动语音识别,生成准确的视频转录 - AI 智能分析,自动分段并总结每段内容要点 - 自然语言查询,用描述性文字快速找到目标片段 - 智能剪辑导出,可选择单个
LLIA(Low-Latency Interactive Avatars)是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成,支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术,减少初始视频生成的延迟,结合一致性模型训练策略和模型量化技术,显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态(如说话、倾听、空闲)及面部表情的精细控制
Seaweed APT2是字节跳动推出的创新的AI视频生成模型,通过自回归对抗后训练(AAPT)技术,将双向扩散模型转化为单向自回归生成器,实现高效、高质量的视频生成。模型能在单次网络前向评估(1NFE)中生成包含多帧视频的潜空间帧,显著降低了计算复杂性,通过输入回收机制和键值缓存(KV Cache)技术,支持长时间视频生成,解决了传统模型在长视频生成中常见的动作漂移和物体变形问题。能在单块GPU
MegaFold是一个跨平台系统,用于加速蛋白质结构预测模型(例如 AlphaFold3、AlphaFold2)。 为什么选择 MegaFold? 跨平台支持:通过优化的基于 Triton 的内核,支持在异构设备上执行,包括 NVIDIA GPU 和 AMD GPU。 易于使用:只需更改几行代码即可获得巨大的性能提升 速度提升:每次迭代训练时间加快高达 1.73 倍 减少内存:将
TokenPony 是为个人开发者和小型团队设计的高效 AI 平台,如同一位智能指挥家,将多种主流大模型(如 DeepSeek、Kimi、Qwen、GLM 等)集成在一个统一接口下,极大地简化了模型切换的繁琐流程。用户无需跨平台操作,可一键接入并自由调用不同模型,享受超长 1024K 上下文支持,轻松处理长文档和复杂任务。TokenPony 提供零配置、免部署的一键调用 API,无需自建 GPU
Fish Speech 是一款由 Fish Audio 开源的文本转语音(TTS)工具,支持中、英、日三国语言。它经过 15 万小时的多语种数据训练,能生成接近人类水平的自然语音。其最新版本为 1.2,拥有以下核心优势:核心功能与技术亮点高效且低门槛:只需 4GB 显存即可运行,极大地降低了硬件要求。此外,快速的推理速度能让您在短时间内获得所需的语音输出,提升了整体使用体验。支持多种模型:集成了包
Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。核心功能多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实
# Framepack AI:革命性的AI视频生成模型Framepack AI是一种突破性的神经网络结构,用于AI视频生成。它采用创新的“下一帧预测”技术,并结合独特的固定长度上下文压缩机制,使用户能够生成高质量、高帧率(30fps)的视频,长度可达120秒,且硬件门槛极低(仅需配备6GB VRAM的消费级NVIDIA GPU)。## Framepack AI的独特之处是什么?Framepack
RTFM(Real-Time Frame Model)是李飞飞团队推出的实时生成式世界模型。模型能在单块H100 GPU上运行,实时生成3D场景,支持持久交互。RTFM通过观看大量视频数据学习光影、材质和空间关系,将复杂的物理渲染问题转化为基于数据的感知问题。RTFM为每一帧赋予空间坐标,用“上下文腾挪”技术,只关注附近帧生成新画面,实现高效且持久的世界构建。RTFM展示了未来世界模型的潜力,为实
nanochat是AI领域专家Andrej Karpathy发布的开源项目,以极低成本和高效流程训练小型语言模型,实现类似ChatGPT的对话功能。仅需约100美元(使用8张H100 GPU训练4小时),即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元(训练约41.6小时),模型性能可显著提升,能解决简单数学/代码问题并参与多项选择题测试。项目包含从数据准
只显示前20页数据,更多请搜索
Showing 433 to 452 of 452 results