关键词 "Black Forest Labs" 的搜索结果, 共 6 条, 只显示前 480 条
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
Doppl是谷歌推出的实验性应用,基于AI技术帮助用户虚拟试穿服装。用户上传全身照片后,支持将服装照片或截图“穿”在数字版自己身上,Doppl能将静态图片转换为AI生成的视频,让用户更真切地感受服装上身效果。应用已在美国地区的iOS和安卓平台上线,帮助用户探索穿搭风格。 官网地址:https://labs.google/doppl/
FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格转换、背景替换、角色一致性保持和文本编辑等多种任务。FLUX.1 Kontext Pro版本支持快速迭代图像编辑,能在多次编辑中保持图像质量和角色特征稳定。。Kontext Max版本在提示词遵循、排版生成和编辑一致性方
Mistral AI,最新发布了首个开源语音模型:Voxtral语音理解模型系列! 该模型包含24B和3B两个参数规模的版本,均基于Apache 2.0许可证开源,同时提供API服务接口。 Voxtral模型支持32k token的上下文窗口,能够处理长达30分钟的音频转录任务或40分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。
FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 合作推出的最新文本到图像生成模型,支持生成更逼真、更多样化的图像,实现照片级真实感水平。模型具有独特的美学风格,避免过度饱和的纹理,同时与 FLUX.1 [dev] 生态系统兼容,支持diffusers库和ComfyUI。模型现已开源,商业许可可通过 BFL Licensing Portal 获取,且F
Eleven Music 是 ElevenLabs 推出的 AI 音乐生成工具,能根据简单的文本提示快速生成高质量、定制化的音乐作品,支持多种风格、语言和场景。用户能通过自然语言描述调整歌曲的风格、节奏、歌词等,支持逐段编辑,实现无缝过渡和精确的情绪转换。生成的音乐适用电影、广告、游戏等多种商业用途,支持多语言歌词创作,提供工作室级别的音频输出,是音乐创作者、企业和广告商的理想选择。
只显示前20页数据,更多请搜索
Showing 145 to 150 of 150 results