Save up to 90% on your cloud bills. Deploy AI/ML production models easily.
Kontext AI - 上下文AI图像生成与编辑

Kontext AI - 上下文AI图像生成与编辑

<p># Flux Kontext AI - 上下文AI图像生成与编辑</p><p>## 高级Flux.1模型,实现真正的创作自由</p><p>Flux Kontext AI是一款革命性的AI图像生成和编辑平台,它改变了创作者处理视觉内容的方式。与传统的文本到图像模型不同,Flux Kontext AI能够同时理解文本和图像作为输入,从而实现了真正的上下文生成和复杂的编辑功能,弥合了简单图像创作和专业级视觉设计之间的差距。</p><p>## 主要特点</p><p>### 字符一致性</p><p>Flux Kontext AI可在不同的场景和编辑中保留角色身份、风格和特征。在对图像进行有针对性的修改时,保持视觉一致性,确保您的角色在整个创意项目中保持可识别性。<br></p><p><br></p><p>### 本地编辑精度<br></p><p>在不影响其余部分的情况下,针对图像的特定部分进行修改。Flux Kontext AI能够在保持整体构图和背景的同时进行精确修改,从而以手术精度对图像的特定区域进行详细调整。</p>

Seedream-完美支持中文的强大图像生成模型

Seedream-完美支持中文的强大图像生成模型

<p>字节跳动开源的图像生成大模型,目前是第4版Seedream 4, 这是<span style="color: rgba(0, 0, 0, 0.87); background-color: rgb(255, 255, 255); font-size: 14px;">字节跳动最新发布的豆包图像创作模型。该模型集成了文生图、图像编辑、多图融合、组图生成等多种能力,最高支持4K分辨率图像生成</span></p><p style="text-align: start;">主要亮点</p><ul><li style="text-align: start;">多模态玩法拓展:灵活支持文本、图像的组合输入,允许文生图、图生图、图像编辑、多图编辑、组图生成等创作模式,玩法创意多样。</li><li style="text-align: start;">风格化美感提升:支持高度自由的艺术风格迁移,从巴洛克到赛博朋克风,风格百变,更可组合创造全新风格,美感突出。</li><li style="text-align: start;">逻辑理解力增强:结合世界知识,提升了多模态输入理解,会 “画”,更会先 “想”,在涉及物理和时间约束、解谜填字、续写漫画等任务中,展现出推理生成能力。</li><li style="text-align: start;">自适应与 4K 生成:可根据指令或参考图生成最佳比例图片,也支持用户自定义尺寸,最高分辨率从 2K 扩展至 4K 超高清。</li><li style="text-align: start;">推理速度跃升:通过全新高效的架构设计,以及极致的蒸馏加速,DiT 生图的推理速度较 Seedream 3.0 提升超 10 倍。</li></ul><p style="text-align: start;">目前Seedream 4.0已在豆包App、即梦AI、扣子等产品上线,并通过火山引擎开放给企业客户。</p><p>目前可以在众多平台体验</p><p>https://flux-ai.io/seedream-4-0/</p><p><br></p><p><br></p>

Nano Bananary

Nano Bananary

<p style="text-align: start;">✅各种玩法一键生成,无需提示词,支持局部涂选、连续编辑:</p><p style="text-align: start;">1⃣选择用法</p><p style="text-align: start;">2⃣上传图片</p><p style="text-align: start;">3⃣点击生成/局部涂选</p><p style="text-align: start;">4⃣直接发送到新玩法中继续</p><p style="text-align: start;"><br></p><h2>核心功能:每次输出都能直接作为输入进行下一次编辑/生成</h2>

Drawnix

Drawnix

<p>Drawnix 是一款免费开源、All in one 在线白板工具,集思维导图、流程图、自由画笔及多种导出和编辑功能于一体,支持跨平台使用和插件扩展,为个人和团队提供简洁高效的创作体验.</p><h2>开源白板工具(SaaS),一体化白板,包含思维导图、流程图、自由画等</h2><h2>开源白板工具(SaaS),一体化白板,包含思维导图、流程图、自由画等<br></h2><p><br></p><p>All in one 白板,思维导图、流程图、自由画等<br></p><p style="text-align: start;"><a href="https://github.com/plait-board/drawnix/blob/develop/README_en.md" target=""><em>English README</em></a></p><p style="text-align: start;"><br></p><h2>特性</h2><ul><li style="text-align: start;">???? 免费 + 开源</li><li style="text-align: start;">⚒️ 思维导图、流程图</li><li style="text-align: start;">???? 画笔</li><li style="text-align: start;">???? 插入图片</li><li style="text-align: start;">???? 基于插件机制</li><li style="text-align: start;">????️ ???? 导出为 PNG, JSON(<span style="background-color: rgba(129, 139, 152, 0.12);"><code>.drawnix</code></span>)</li><li style="text-align: start;">???? 自动保存(浏览器缓存)</li><li style="text-align: start;">⚡ 编辑特性:撤销、重做、复制、粘贴等</li><li style="text-align: start;">???? 无限画布:缩放、滚动</li><li style="text-align: start;">???? 主题模式</li><li style="text-align: start;">???? 移动设备适配</li><li style="text-align: start;">???? 支持 mermaid 语法转流程图</li><li style="text-align: start;">✨ 支持 markdown 文本转思维导图(新支持 ????????????)</li><li style="text-align: start;"></li></ul><h2>关于名称</h2><p style="text-align: start;"><em><strong>Drawnix</strong></em> ,源于绘画( <em><strong>Draw</strong></em> )与凤凰( <em><strong>Phoenix</strong></em> )的灵感交织。</p><p style="text-align: start;">凤凰象征着生生不息的创造力,而 <em>Draw</em> 代表着人类最原始的表达方式。在这里,每一次创作都是一次艺术的涅槃,每一笔绘画都是灵感的重生。</p><p style="text-align: start;">创意如同凤凰,浴火方能重生,而 <em><strong>Drawnix</strong></em> 要做技术与创意之火的守护者。</p><p style="text-align: start;"><em>Draw Beyond, Rise Above.</em></p><p style="text-align: start;"><br></p><h2>与 Plait 画图框架</h2><p style="text-align: start;"><em>Drawnix</em> 的定位是一个开箱即用、开源、免费的工具产品,它的底层是 <em>Plait</em> 框架,<em>Plait</em> 是我司开源的一款画图框架,代表着公司在知识库产品(<a href="https://pingcode.com/product/wiki?utm_source=drawnix" target="">PingCode Wiki</a>)上的重要技术沉淀。</p><p style="text-align: start;">Drawnix 是插件架构,与前面说到开源工具比技术架构更复杂一些,但是插件架构也有优势,比如能够支持多种 UI 框架(<em>Angular、React</em>),能够集成不同富文本框架(当前仅支持 <em>Slate</em> 框架),在开发上可以很好的实现业务的分层,开发各种细粒度的可复用插件,可以扩展更多的画板的应用场景</p><p><br></p><p>All in one 白板,思维导图、流程图、自由画等<br></p><p style="text-align: start;"><a href="https://github.com/plait-board/drawnix/blob/develop/README_en.md" target=""><em>English README</em></a></p><p style="text-align: start;"><br></p><h2>特性</h2><ul><li style="text-align: start;">???? 免费 + 开源</li><li style="text-align: start;">⚒️ 思维导图、流程图</li><li style="text-align: start;">???? 画笔</li><li style="text-align: start;">???? 插入图片</li><li style="text-align: start;">???? 基于插件机制</li><li style="text-align: start;">????️ ???? 导出为 PNG, JSON(<span style="background-color: rgba(129, 139, 152, 0.12);"><code>.drawnix</code></span>)</li><li style="text-align: start;">???? 自动保存(浏览器缓存)</li><li style="text-align: start;">⚡ 编辑特性:撤销、重做、复制、粘贴等</li><li style="text-align: start;">???? 无限画布:缩放、滚动</li><li style="text-align: start;">???? 主题模式</li><li style="text-align: start;">???? 移动设备适配</li><li style="text-align: start;">???? 支持 mermaid 语法转流程图</li><li style="text-align: start;">✨ 支持 markdown 文本转思维导图(新支持 ????????????)</li><li style="text-align: start;"></li></ul><h2>关于名称</h2><p style="text-align: start;"><em><strong>Drawnix</strong></em> ,源于绘画( <em><strong>Draw</strong></em> )与凤凰( <em><strong>Phoenix</strong></em> )的灵感交织。</p><p style="text-align: start;">凤凰象征着生生不息的创造力,而 <em>Draw</em> 代表着人类最原始的表达方式。在这里,每一次创作都是一次艺术的涅槃,每一笔绘画都是灵感的重生。</p><p style="text-align: start;">创意如同凤凰,浴火方能重生,而 <em><strong>Drawnix</strong></em> 要做技术与创意之火的守护者。</p><p style="text-align: start;"><em>Draw Beyond, Rise Above.</em></p><p style="text-align: start;"><br></p><h2>与 Plait 画图框架</h2><p style="text-align: start;"><em>Drawnix</em> 的定位是一个开箱即用、开源、免费的工具产品,它的底层是 <em>Plait</em> 框架,<em>Plait</em> 是我司开源的一款画图框架,代表着公司在知识库产品(<a href="https://pingcode.com/product/wiki?utm_source=drawnix" target="">PingCode Wiki</a>)上的重要技术沉淀。</p><p style="text-align: start;">Drawnix 是插件架构,与前面说到开源工具比技术架构更复杂一些,但是插件架构也有优势,比如能够支持多种 UI 框架(<em>Angular、React</em>),能够集成不同富文本框架(当前仅支持 <em>Slate</em> 框架),在开发上可以很好的实现业务的分层,开发各种细粒度的可复用插件,可以扩展更多的画板的应用场景。</p><p><br></p>

FLUX.1 Krea [dev]

FLUX.1 Krea [dev]

<p>FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 合作推出的最新文本到图像生成模型,支持生成更逼真、更多样化的图像,实现照片级真实感水平。模型具有独特的美学风格,避免过度饱和的纹理,同时与 FLUX.1 [dev] 生态系统兼容,支持diffusers库和ComfyUI。模型现已开源,商业许可可通过 BFL Licensing Portal 获取,且FAL、Replicate 等提供 API 接口,便于集成和应用开发。</p> <h2 style="font-size: 20px;">项目地址</h2> <ul> <li>项目官网:https://bfl.ai/announcements/flux-1-krea-dev</li> <li>GitHub仓库:https://github.com/krea-ai/flux-krea</li> <li>HuggingFace模型库:https://huggingface.co/black-forest-labs/FLUX.1-Krea-dev</li> </ul>

ScribbleDiff

ScribbleDiff

<p>文本到图像的扩散模型的最新进展已取得显著成功,但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导,常常导致对象方向错位或意外。为了解决这些限制,我们提出了涂鸦引导扩散(ScribbleDiff),这是一种无需训练的方法,它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而,将涂鸦纳入扩散模型存在挑战,因为涂鸦具有稀疏和单薄的特性,很难确保准确的方向对齐。为了克服这些挑战,我们引入了矩对齐和涂鸦传播,这使得生成的图像和涂鸦输入之间能够更有效、更灵活地对齐。在 PASCAL-Scribble 数据集上的实验结果显示空间控制和一致性的显著改善,展示了基于涂鸦的引导在扩散模型中的有效性。请查看此处的论文:<a href="https://arxiv.org/abs/2409.08026" rel="nofollow">Scribble-Guided Diffusion for Training-free Text-to-Image Generation</a></p> <h2 style="font-size: 20px;">ScribbleDiff的项目地址</h2> <ul> <li>GitHub仓库:<a class="external" href="https://github.com/kaist-cvml-lab/scribble-diffusion" target="_blank" rel="noopener nofollow">https://github.com/kaist-cvml-lab/scribble-diffusion</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2409.08026" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2409.08026</a></li> </ul>

CreateVision AI

CreateVision AI

<p>CreateVision AI 是AI图像生成平台,平台融合 Flux.1 Dev 和 GPT-Image-1 两大顶级模型,为用户提供开源与闭源技术路线的极致体验。平台支持用户将创意想法瞬间转化为高质量图像,轻松生成逼真照片、卡通、插画和抽象艺术。支持样式、颜色、光照、构图的 4D 精准控制,满足专业创作需求。CreateVision AI 生成的图像能用在商业用途,无数量限制。</p> <p>官方网站:https://createvision.ai/</p> <h2 style="font-size: 20px;">CreateVision AI的产品定价</h2> <ul> <li>免费版:每日提供20张生图配额,仅支持Flux Dev模型,无水印图像,基础生成速度,高峰期需排队等待。</li> <li>Premium会员:$10/月,每日提供100张生图配额,支持Flux Dev和GPT-Image-1模型,5倍快速生成,无水印图像,快速生成速度,优先生成。</li> <li>终极会员:$20/月,无限生成,专业级功能,支持Flux Dev和GPT-Image-1模型,最快生成速度,无水印图像,高清图像生成。</li> </ul>

ChatPs

ChatPs

<p>ChatPs 是创新的 Photoshop 插件,通过自然语言交互简化图像编辑流程。无需掌握复杂的 Photoshop 操作技巧或快捷键,只需用日常语言下达指令,ChatPs 可精准识别执行任务,例如选中图层、翻译文本、抠图、调整图像等。针对设计场景进行了专门训练,能满足从新手到资深设计师的多元需求,大幅减少重复性操作,提升设计效率。ChatPs 覆盖了 Photoshop 的核心功能,结合 AI 技术,支持生成创意图像和 3D 设计元素,为未来的设计工作方式提供了新的可能性。</p> <h2 style="font-size: 20px;">ChatPs的主要功能</h2> <ul> <li>文生图:输入简单的提示词,可生成创意的图像。</li> <li>图生图:根据选择的参考区域或图像类型,生成具有一定相似度的图像。</li> <li>局部重绘:输入提示词,可以对图片的某个区域进行重新绘制。</li> <li>线稿上色:根据选区的线稿图作为参考图,结合关键词进行上色,生成为彩色效果图。</li> <li>无损放大:支持将图片放大清晰不失真,细节更丰富,一键提高图片分辨率。</li> <li>扩图:识别图片内容,支持将画面一键扩展。</li> <li>艺术融合:一键融合特色艺术风格,快速完成风格转换。</li> <li>高清修复:一键修复模糊图片,拯救画质。</li> <li>背景移除:一键智能抠图,快速移除图像背景。</li> <li>AI商品图:上传商品原图或效果图,生成效果更好的产品图。</li> <li>AI换脸:通过选定需要替换的区域和上传人脸图,可生成效果较好的模特图。</li> <li>提示词生成器:提供热门提示词,帮助用户一键添加和翻译提示词。</li> <li>自然语言交互:ChatPs 支持通过自然语言指令完成复杂的 Photoshop 操作,用户无需记忆复杂的快捷键或工具路径。</li> </ul> <h2 style="font-size: 20px;">如何使用ChatPs</h2> <ul> <li>访问平台: <a href="https://www.chatps.com.cn/" target="_blank" rel="noopener">https://www.chatps.com.cn/</a> </li> </ul>

MeanFlow

MeanFlow

<p>全新的生成模型MeanFlow,最大亮点在于它彻底跳脱了传统训练范式——无须预训练、蒸馏或课程学习,仅通过一次函数评估(1-NFE)即可完成生成。</p> <p>MeanFlow在ImageNet 256×256上创下3.43 FID分数,实现从零开始训练下的SOTA性能。</p> <div class="ltx_flex_cell ltx_flex_size_many"> <div id="S0.F1.1" class="ltx_block ltx_figure_panel ltx_minipage ltx_align_middle"></div> </div> <div class="ltx_flex_cell ltx_flex_size_many"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://arxiv.org/html/2505.13447v1/extracted/6446835/imgs/sample_00591.png"></div> <div class="ltx_flex_cell ltx_flex_size_many"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://arxiv.org/html/2505.13447v1/extracted/6446835/imgs/sample_00093.png"></div> <div class="ltx_flex_cell ltx_flex_size_many"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://arxiv.org/html/2505.13447v1/extracted/6446835/imgs/sample_02409.png"></div> <div class="ltx_flex_cell ltx_flex_size_many"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://arxiv.org/html/2505.13447v1/extracted/6446835/imgs/sample_00072.png"></div> <p>图1(上):在ImageNet 256×256上从零开始的一步生成结果</p> <p>在ImageNet 256×256数据集上,MeanFlow在一次函数评估(1-NFE)下达到了3.43的FID分数,性能相比此前同类最佳方法有50%到70%的相对提升(见图1左)。</p> <p>此外,MeanFlow训练过程从零开始,无需预训练、蒸馏或课程学习。</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/23/1748024831_q9KIBx5EQu.png"></p> <p>图1(左):算力和一次函数评估FID分数</p> <p>其中iCT、Shortcut和MF都是一次函数评估(1-NFE),而IMM则使用了两次函数评估(2-NFE)的引导策略。</p> <p>此外,新方法还能自然地将「无分类器引导」(Classifier-Free Guidance,CFG)融入目标速度场,在采样阶段使用引导时不会带来额外的计算开销。</p> <p>地址:</p> <p>论文地址: <a href="https://arxiv.org/html/2505.13447v1" target="_blank" rel="noopener">https://arxiv.org/html/2505.13447v1</a></p> <p>github: <a href="https://github.com/haidog-yaqub/MeanFlow" target="_blank" rel="noopener">https://github.com/haidog-yaqub/MeanFlow</a> (非官方)</p> <p> </p>

Blip 3o

Blip 3o

<div class="detail-dl-div" data-v-0b757335=""> <div class="detail-dl-div-item" data-v-0b757335=""> <p>Blip 3o 是一个基于 Hugging Face 平台的应用程序,利用先进的生成模型从文本生成图像,或对现有图像进行分析和回答。该产品为用户提供了强大的图像生成和理解能力,非常适合设计师、艺术家和开发者。此技术的主要优点是其高效的图像生成速度和优质的生成效果,同时还支持多种输入形式,增强了用户体验。该产品是免费的,定位于开放给广大用户使用。</p> <p>需求人群:</p> <p>"该产品适合设计师、开发者和艺术爱好者,因其能够快速生成所需的图像,提升工作效率,激发创意。无论是进行视觉创作还是需要图像理解的任务,Blip 3o 都能提供有效支持。"</p> </div> <div class="detail-dl-div-item" data-v-0b757335=""> <p>使用场景示例:</p> <p>用户输入描述生成插画用于社交媒体</p> <p>艺术家利用该工具快速生成灵感图像</p> <p>开发者通过图像分析增强应用功能</p> </div> <div class="detail-dl-div-item" data-v-0b757335=""> <p>产品特色:</p> <p>根据文本生成高质量图像</p> <p>通过图片生成描述和答案</p> <p>支持多种输入格式,包括文本和图像</p> <p>快速响应,适合实时应用</p> <p>界面友好,易于使用</p> </div> <div class="detail-dl-div-item" data-v-0b757335=""> <p>使用教程:</p> <p>访问 Blip 3o 网站。</p> <p>选择输入模式:文本描述或上传图像。</p> <p>输入您想要的描述或选择图像。</p> <p>点击生成按钮,等待结果。</p> <p>查看生成的图像或获取图像的描述。</p> <p>Github:  <a href="https://github.com/JiuhaiChen/BLIP3o" target="_blank" rel="noopener">https://github.com/JiuhaiChen/BLIP3o</a> </p> <p>huggingface: <a href="https://huggingface.co/spaces/BLIP3o/blip-3o" target="_blank" rel="noopener">https://huggingface.co/spaces/BLIP3o/blip-3o</a> </p> <p> </p> </div> </div>

Hunyuan Image

Hunyuan Image

<p>腾讯混元图像2.0模型(Hunyuan Image2.0),AI图像生成进入“毫秒级”时代。</p> <p>模型主要有两大特点:实时生图、超写实画质。</p> <p>(👇https://hunyuan.tencent.com/)</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/16/1747424166_p5fwmkFgci.png"></p> <p>速度快</p> <p>相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型,在同类商业产品每张图推理速度需要5到10秒的情况下,腾讯混元可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了传统“抽卡—等待—抽卡”的方式,带来交互体验革新。</p> <p>超写实画质</p> <p>除了速度快以外,腾讯混元图像2.0模型图像生成质量提升明显,通过强化学习等算法以及引入大量人类美学知识对齐,生成的图像可有效避免AIGC图像中的“AI味”,真实感强、细节丰富、可用性高。</p> <div id="page-content"> <div id="js_mpvedio_wrapper_wxv_3989188759785979914"> <div class="feed-wrapper"> <div class="infinity-list__wrapper"> <div class=""> <div class="infinity-list__page destory-enter-to" data-key="wxv_3989188759785979914"> <div class="mp-video-player" data-v-bff4f6b6=""> <div id="js_mpvedio_1747424100962_338288127171" class="js_mpvedio page_video_wrapper" data-v-87156457="" data-v-bff4f6b6=""> <div class="js_page_video page_video ratio_primary align_upper_center page_video_without-control page_video_skin-normal" data-v-87156457=""> <div class="js_inner inner not_fullscreen" data-v-87156457=""> </div> </div> </div> </div> </div> </div> </div> </div> </div> </div> <p>在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准</p> <p>GenEval(Geneval Bench)上,腾讯混元图像2.0模型准确率超过95%,远超其他同类模型。</p> <p> </p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/17/1747424167_8Ugsv89laU.png"></p> <p>一起来看看模型生成的图片:</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/17/1747424167_nCiGNVsqOD.png"></p> <p>人像摄影风格</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/17/1747424167_fQ7yVjy8Jm.png"></p> <p>动物特写</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/17/1747424167_gLN9HrucG5.png"></p> <p>复古摄影</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/17/1747424167_9EcsKxF08Q.png"></p> <p>动漫风格</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/aisite/tinymce/2025/05/17/1747424167_sBLx3Ie4xg.png"></p> <p>真实人物风格</p>

IFAdapter

IFAdapter

<p>IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特定空间位置对齐,增强模型对实例特征的控制能力。IFAdapter的设计支持作为一个即插即用的模块,轻松集成到各种预训练的扩散模型中,无需重新训练,能为不同的社区模型提供灵活的空间控制能力。</p> <p><img src="https://img.medsci.cn/aisite/img//V5UUkzQblCcgZq9cI4SGAO1SI3HUK9wyt4Lgp35v.png"></p> <h2 style="font-size: 20px;">IFAdapter的主要功能</h2> <ul> <li>实例特征生成:确保生成的图像中的每个实例在空间位置上准确无误,并具有高保真的特征细节。</li> <li>即插即用模块:作为一个独立的模块,轻松集成到各种预训练的扩散模型中,无需对主模型进行重新训练。</li> <li>空间控制:提供精确的空间控制信号,改善实例的定位。</li> </ul> <h2 style="font-size: 20px;">IFAdapter的技术原理</h2> <ul> <li>外观标记(Appearance Tokens):基于可学习的外观查询与描述的交叉注意力交互,提取特定于实例的高频特征信息,形成外观标记,标记有助于生成更精细的实例特征。</li> <li>实例语义图(Instance Semantic Map, ISM):构建一个2D语义地图,将实例特征与在图像中的指定位置关联起来,提供更强的空间先验,防止特征混淆和泄漏。</li> <li>门控语义融合:在实例重叠的区域,用特征融合机制解决特征冲突,确保视觉特征由最靠前的实例主导。</li> <li>即插即用设计:IFAdapter作为一个独立的模块,通过交叉注意力层集成到不同的扩散模型中,实现对生成过程的精细控制。</li> <li>训练策略:在训练过程中,IFAdapter的参数被训练适应特定的任务,而基础模型的参数则保持冻结,在不破坏原有模型性能的前提下增强模型的控制能力。</li> </ul> <h2 style="font-size: 20px;">IFAdapter的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://ifadapter.github.io/?utm_source=ai-bot.cn" target="_blank" rel="noopener nofollow">ifadapter.github.io</a></li> <li>GitHub仓库:<a class="external" href="https://github.com/WUyinwei-hah/IFAdapter" target="_blank" rel="noopener nofollow">https://github.com/WUyinwei-hah/IFAdapter</a>(即将开放)</li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2409.08240v1" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2409.08240v1</a></li> </ul> <h2 style="font-size: 20px;">IFAdapter的应用场景</h2> <ul> <li>图形设计:在设计徽标、海报、邀请函等时,设计师用IFAdapter生成具有特定风格和布局要求的图像。</li> <li>时尚设计:设计师用IFAdapter创建服装或配饰的逼真效果图,展示不同的颜色、纹理和样式。</li> <li>游戏开发:在游戏设计中,IFAdapter帮助艺术家生成具有特定特征的游戏元素或背景。</li> <li>虚拟现实和增强现实:在VR/AR环境中,IFAdapter生成符合特定空间布局和风格要求的虚拟场景。</li> </ul>

Nexus-Gen

Nexus-Gen

<div class="markdown-heading" dir="auto"> <p>Nexus-Gen:图像理解、生成和编辑的统一模型,开源届的GPT-4o平替</p> <a id="user-content-nexus-gen-a-unified-model-for-image-understanding-generation-and-editing" class="anchor" href="https://github.com/modelscope/Nexus-Gen#nexus-gen-a-unified-model-for-image-understanding-generation-and-editing" aria-label="永久链接:Nexus-Gen:图像理解、生成和编辑的统一模型"></a></div> <div dir="auto" align="center"> <p>           </p> </div> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">待办事项</h2> <a id="user-content-todo" class="anchor" href="https://github.com/modelscope/Nexus-Gen#todo" aria-label="永久链接:TODO"></a></div> <ul class="contains-task-list"> <li class="task-list-item"><input id="" class="task-list-item-checkbox" checked="checked" disabled="disabled" type="checkbox">发布训练和推理代码。</li> <li class="task-list-item"><input id="" class="task-list-item-checkbox" checked="checked" disabled="disabled" type="checkbox">发布模型检查点。</li> <li class="task-list-item"><input id="" class="task-list-item-checkbox" checked="checked" disabled="disabled" type="checkbox">发布技术报告。</li> <li class="task-list-item"><input id="" class="task-list-item-checkbox" disabled="disabled" type="checkbox">发布训练数据集。</li> </ul> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">什么是Nexus-Gen</h2> <a id="user-content-what-is-nexus-gen" class="anchor" href="https://github.com/modelscope/Nexus-Gen#what-is-nexus-gen" aria-label="永久链接:什么是 Nexus-Gen"></a></div> <p>Nexus-Gen 是一个统一模型,它将 LLM 的语言推理能力与扩散模型的图像合成能力协同起来。为了对齐 LLM 和扩散模型的嵌入空间,我们进行了双阶段对齐训练。(1) 自回归 LLM 学习预测基于多模态输入的图像嵌入;(2) 视觉解码器则被训练从这些嵌入中重建高保真图像。在训练 LLM 的过程中,我们发现自回归范式的训练阶段和推理阶段之间存在一个关键差异,即连续嵌入空间中的误差累积严重降低了生成质量。为了避免这个问题,我们引入了一种预填充自回归策略,该策略使用位置嵌入的特殊标记(而非连续嵌入)预填充输入序列。通过双阶段训练,Nexus-Gen 已开发出能够全面解决图像理解、生成和编辑任务的集成能力,具体如下。 <a href="https://github.com/modelscope/Nexus-Gen/blob/main/assets/illustrations/gen_edit.jpg" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://github.com/modelscope/Nexus-Gen/raw/main/assets/illustrations/gen_edit.jpg"></a> <a href="https://github.com/modelscope/Nexus-Gen/blob/main/assets/illustrations/architecture.png" target="_blank" rel="noopener noreferrer"><img style="display: block; margin-left: auto; margin-right: auto;" src="https://github.com/modelscope/Nexus-Gen/raw/main/assets/illustrations/architecture.png"></a></p> <div class="markdown-heading" dir="auto"> <h2 class="heading-element" dir="auto" tabindex="-1">入门</h2> <a id="user-content-getting-started" class="anchor" href="https://github.com/modelscope/Nexus-Gen#getting-started" aria-label="永久链接:入门"></a></div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">安装</h3> <a id="user-content-installation" class="anchor" href="https://github.com/modelscope/Nexus-Gen#installation" aria-label="永久链接:安装"></a></div> <ol dir="auto"> <li>从源安装<a href="https://github.com/modelscope/DiffSynth-Studio.git">DiffSynth-Studio</a>:</li> </ol> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>git clone https://github.com/modelscope/DiffSynth-Studio.git cd DiffSynth-Studio pip install -e .</pre> <div class="zeroclipboard-container"> </div> </div> <ol dir="auto" start="2"> <li>安装要求</li> </ol> <div class="snippet-clipboard-content notranslate position-relative overflow-auto"> <pre class="notranslate"><code>pip install -r requirements.txt </code></pre> <div class="zeroclipboard-container"> </div> </div> <ol dir="auto" start="3"> <li>如果您想在 Nexus-Gen 上执行微调,请安装<a href="https://github.com/modelscope/ms-swift.git">ms-swift 。</a></li> </ol> <div class="snippet-clipboard-content notranslate position-relative overflow-auto"> <pre class="notranslate"><code>pip install ms-swift -U </code></pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">准备模型</h3> <a id="user-content-prepare-models" class="anchor" href="https://github.com/modelscope/Nexus-Gen#prepare-models" aria-label="永久链接:准备模型"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python download_models.py</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">图像理解</h3> <a id="user-content-image-understanding" class="anchor" href="https://github.com/modelscope/Nexus-Gen#image-understanding" aria-label="永久链接:图像理解"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python image_understanding.py</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">图像生成</h3> <a id="user-content-image-generation" class="anchor" href="https://github.com/modelscope/Nexus-Gen#image-generation" aria-label="永久链接:图像生成"></a></div> <p>生成带有详细提示的图像。(需要至少 37 GB 显存)</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python image_generation.py</pre> <div class="zeroclipboard-container"> </div> </div> <p>使用 Nexus-Gen 完善提示并生成图像。</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>image_generation_with_selfpolish.py</pre> <div class="zeroclipboard-container"> </div> </div> <p>通过 CPU 卸载,使用更少的 VRAM 生成图像。(需要至少 24 GB VRAM)</p> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python image_generation_offload.py</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">图像编辑</h3> <a id="user-content-image-editing" class="anchor" href="https://github.com/modelscope/Nexus-Gen#image-editing" aria-label="永久链接:图像编辑"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python image_editing.py</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">Gradio 演示</h3> <a id="user-content-gradio-demo" class="anchor" href="https://github.com/modelscope/Nexus-Gen#gradio-demo" aria-label="永久链接:Gradio 演示"></a></div> <div class="highlight highlight-source-shell notranslate position-relative overflow-auto" dir="auto"> <pre>python app.py</pre> <div class="zeroclipboard-container"> </div> </div> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">训练代码</h3> <a id="user-content-training-codes" class="anchor" href="https://github.com/modelscope/Nexus-Gen#training-codes" aria-label="永久链接:培训代码"></a></div> <p>Nexus-Gen 基于<a href="https://github.com/modelscope/ms-swift.git">ms-swift</a>和<a href="https://github.com/modelscope/DiffSynth-Studio.git">DiffSynth-Studio</a><code>train/scripts/train_decoder.sh</code>进行训练。您可以在和 中找到训练脚本<code>train_llm.sh</code>。</p> <div class="markdown-heading" dir="auto"> <h3 class="heading-element" dir="auto" tabindex="-1">引文</h3> <a id="user-content-citation" class="anchor" href="https://github.com/modelscope/Nexus-Gen#citation" aria-label="永久链接:引用"></a></div> <div class="snippet-clipboard-content notranslate position-relative overflow-auto"> <pre class="notranslate"><code>@article{zhang2025nexus-gen, title={Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing}, author={Hong Zhang and Zhongjie Duan and Xingjun Wang and Yingda Chen and Yuze Zhao and Yu Zhang}, journal={arXiv preprint arXiv:2504.21356}, year={2025} }</code></pre> </div>

Lovart

Lovart

<h1>Lovart 全球首个设计 Agent 体验</h1> <section><span data-pm-slice="1 1 ["para",{"tagName":"p","attributes":{"style":"font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;font-size: 15px;line-height: 2em;font-family: \"PingFang SC\", system-ui, -apple-system, BlinkMacSystemFont, \"Helvetica Neue\", \"Hiragino Sans GB\", \"Microsoft YaHei UI\", \"Microsoft YaHei\", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;"},"namespaceURI":"http://www.w3.org/1999/xhtml"},"node",{"tagName":"span","attributes":{"style":"color: rgb(31, 35, 41);"},"namespaceURI":"http://www.w3.org/1999/xhtml"}]">Lovart 的三个特点:</span></section> <h3>一、全链路设计和执行,一句话搞定</h3> <p>以前的文生图工具,它们所提供的任务是“生成图片”这一环。</p> <p>而设计 Agent,则像一位“设计执行官”,覆盖从创意拆解到专业交付的整个视觉流程。</p> <p>从意图拆解 → 任务链 → 最后成品,一句话全搞定。</p> <p>单次可以执行上百步,最多可以一次产出40张设计成品图。</p> <p>比如,我可以让它根据我家猫的照片做一套银渐层表情包,它会自己设计表情,挨个生图,还可以全部编辑,一键做出所有表情包的黑底渐变色版本。</p> <p> </p> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/om_bt/ORPkpWhOF_KMtPcoydMfk6zoBDmmg3KCqFlEd7j2vFDVIAA/1000" alt="图片" data-src="https://inews.gtimg.com/om_bt/ORPkpWhOF_KMtPcoydMfk6zoBDmmg3KCqFlEd7j2vFDVIAA/1000"></section> <p>Prompt:</p> <p>Use the cat in this picture as a template to design a set of 12 silver gradient emoji packs. Style 3D cartoon, to express the most popular and trendy emoji this year.</p> <p> </p> <p>再比如,为宣传智能家居扬声器的 30 秒视频广告创建一个 6 帧故事板。</p> <p>它会先根据需求,写出故事,然后开始进行角色设计。</p> <p>完成之后,会进行关键场景的设计。</p> <p>在最后把场景填充到故事板里,为每个画面配上光线、摄影机移动等信息。</p> <p><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/om_bt/G2tapNA9henwcYDaY6W7SIIYNY93t5vys-950CiJWwTkcAA/0" alt="图片" data-src="https://inews.gtimg.com/om_bt/G2tapNA9henwcYDaY6W7SIIYNY93t5vys-950CiJWwTkcAA/0"></p> <p data-pm-slice="0 0 []">Prompt:</p> <p>Create a 6-frame storyboard for a 30-second video ad promoting a smart home speaker.</p> <p>Scene progression:</p> <p>Modern living room, family interacting</p> <p>Voice command to the speaker</p> <p>Music starts playing</p> <p>Speaker answers a question</p> <p>Lighting adjusts automatically</p> <p>Close-up of product and brand tagline</p> <p>Style: clean, semi-realistic illustration, soft light.</p> <p> </p> <h3>二、图像视频音乐,自由调度</h3> <p>只有具备了充足的工具箱,<span data-pm-slice="1 1 ["para",{"tagName":"p","attributes":{"style":"font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: normal;text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;font-size: 15px;line-height: 2em;font-family: \"PingFang SC\", system-ui, -apple-system, BlinkMacSystemFont, \"Helvetica Neue\", \"Hiragino Sans GB\", \"Microsoft YaHei UI\", \"Microsoft YaHei\", Arial, sans-serif;color: rgb(31, 35, 41);margin: 0px 0px 4px;word-break: break-all;min-height: 20px;"},"namespaceURI":"http://www.w3.org/1999/xhtml"},"node",{"tagName":"span","attributes":{"style":"color: rgb(31, 35, 41);"},"namespaceURI":"http://www.w3.org/1999/xhtml"}]">Agent 才能更全面地完成任务。</span></p> <p>Lovart 集成了一系列前沿的 AI 模型,比如 GPT image-1, Flux pro, OpenAI-o3, Gemini Imagen 3, Kling AI, Tripo AI, Suno AI等。</p> <p>设计师可以在一个统一的界面内完成设计、编辑与生成,再也不必在多个软件和模型之间来回切换。</p> <p>我让它设计一个 "VIVIDPIX "的新生活科技品牌,并创建跨媒体发布活动。</p> <p>它不仅设计了logo、海报、周边,还用可灵制作了3D版本的logo动画,用suno制作了bgm。</p> <p>由于所有的模型都拥有相同的 Context 上下文,配合起来丝滑无缝。</p> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/om_bt/GCAo0LAx9FNM5OxMeFJpzbuSnyZ4legCKsC_oEMyW6mHcAA/0" alt="图片" data-src="https://inews.gtimg.com/om_bt/GCAo0LAx9FNM5OxMeFJpzbuSnyZ4legCKsC_oEMyW6mHcAA/0"></section> <p>Prompt:</p> <p data-pm-slice="0 0 []">Prompt:</p> <p>Create a cross-media launch campaign for a new lifestyle tech brand called “VIVIDPIX”.</p> <p>Visuals: Design two main brand posters in different styles (futuristic minimalism and playful retro), including editable text layers and logo integration.</p> <p>Video/3D: Generate a dynamic 10-second video loop of the brand logo morphing in 3D space, with smooth, modern animation, suitable for website and social sharing. Leverage Kling or equivalent video/animation AI tools.</p> <p>Music: Compose an original 15-second catchy theme music that matches the brand’s energetic and optimistic tone. Use Suno or other advanced AI music models.</p> <p>Packaging: Output a box and product mockup, harmonizing visuals across all touchpoints.</p> <p>Canvas: Bring all assets together onto a single editable Lovart canvas, allowing for integrated fine-tuning and end-to-end brand asset delivery.</p> <p>All elements—visuals, video, music, packaging—should have a cohesive color palette and brand personality, and be ready to use for a multi-platform product launch.</p> <p> </p> <h3>三、生成结果自动分图层,随心修改</h3> <p>在海报的生成中,最大的痛点是文字后期的编辑,Lovart 很好地解决了这一痛点。</p> <p>举例来说,我这里要为一种新的植物蛋白饮料设计一张宣传海报。</p> <p>一分钟后,它就生成了左侧的标准海报,同时在右侧附上了图文分离的版本。</p> <p>现在我可以自由修改文字的内容、大小、颜色,真的太方便了。</p> <section><img class="qnt-img-img qnr-img-lazy-load-img" src="https://inews.gtimg.com/om_bt/GzxWhUIVamAgAR50Ayk23PIkiTk6CwOeHZ3-GL7UhzA9EAA/0" alt="图片" data-src="https://inews.gtimg.com/om_bt/GzxWhUIVamAgAR50Ayk23PIkiTk6CwOeHZ3-GL7UhzA9EAA/0"></section> <p data-pm-slice="0 0 []">Prompt:</p> <p>Design a promotional poster for a new plant-based protein drink.</p> <p>Style: vibrant and energetic, modern editorial layout.</p> <p>Color palette: green, cream, and orange.</p> <p>Text: “Fuel Your Day, Naturally”.</p> <p>Aspect ratio: 3:4, for Instagram feed.</p> <p>Include editable text layers.</p> <p> </p> <h2>使用小技巧:</h2> <p>在使用 Lovart 的过程中也发现了一些小心得,在这里分享给大家:</p> <ol class="list-paddingleft-1"> <li> <section>1. Lovart 内置了很多图像、视频、音乐模型,但并不是每个模型都对中文支持够好,所以使用英文进行提示词会获得最佳体验。</section> </li> <li> <section>2. 设计的起点是需求,只有把需求描述好,Agent 才能设计好,所以建议在发布任务之前,先和 AI 聊一下需求,让 AI 输出最后的提示词。提示词里可以包含风格、颜色、文字、比例等结构化信息,结构化信息本身是对复杂需求的一种拆解,这样写出来的提示词,Lovart 在执行的时候效果也最好。</section> </li> <li> <section>3. 如果需要独立的文字图层,只需要在指令中加上这句话即可: Include editable text layers.</section> </li> </ol> <p> </p> <h2>结语</h2> <p>Lovart 的出现,代表 AI 在设计领域的角色,正在从单纯的“图像生成器”向更深层次的“设计执行官”转变。</p> <p>它试图解决的,不仅仅是“画出一张图”,更是“完成一个设计任务”的问题。</p> <p> </p> <p>有人曾问我,4o 生图的出现是否会干掉图像的工作流。</p> <section>我所看到的情况,不是干掉,而是解放。</section> <section>这种解放,将图像工作流推向设计 Agent 的新范式。</section> <section></section> <section>技术的发展总是在不断挑战我们的想象边界。</section> <p>当 AI Agent 开始尝试理解并执行更复杂的设计流程时,</p> <p>我们与 AI ,<span data-pm-slice="0 0 []">也将迎来全新的</span>协作方式。</p>

MD2Card

MD2Card

Supporting multiple themes, automatic long text splitting, one-click image export, making your content creation easier and more efficient. Completely free, start using now! MD2Card is a simple and easy-to-use Markdown to knowledge card tool, supporting multiple beautiful styles, helping you quickly create beautiful knowledge cards. Whether it's study notes, knowledge organization, or content sharing, it's easy to handle. MD2Card 是一款简洁易用的 Markdown 转知识卡片工具,支持多种精美样式,帮你快速制作精美的知识卡片。无论是学习笔记、知识整理,还是内容分享,都能轻松搞定。

xstech.one

xstech.one

基于midjourney,GPT-4o等大语言模型为基座,进一步完善应用开发的xstech.one,能生成海报,支持中文。不仅可以打开就用现成的Prompt对话,也提供了绘图类的prompt生成器,可以直接绘图。

HiDream-I1

HiDream-I1

HiDream-I1是vivago.ai公司最新开源图像生成基础模型,拥有 17B 参数,可在数秒内达到最先进的图像生成质量。

TusiArt

TusiArt

<p>简单好用的在线生图工具:操作界面友好且直观,即使是艺术创作的新手也能快速上手,提供经典的输入框提示词生图和基于ComfyUI的工作流两种生图模式。</p> <p><a href="https://tusiart.com/?utm_source=medsci" target="_blank" rel="noopener">吐司TusiArt</a>是上海必有回响智能科技推出的一个AI绘画模型分享社区和在线生图平台,吐司TusiArt不仅提供了一个方便用户下载和体验各种AI绘画模型的渠道,还允许用户在不安装任何额外软件或硬件的情况下,免费在线运行这些模型进行图片生成。吐司TusiArt为用户提供了丰富的模型选择,无论是专业艺术家还是业余爱好者,都能在这个平台上找到适合自己的创作工具。</p> <p> </p> <h2 style="font-size: 20px;">吐司TusiArt的主要功能</h2> <ul class="text-md"> <li>简单好用的在线生图工具:操作界面友好且直观,即使是艺术创作的新手也能快速上手,提供经典的输入框提示词生图和基于ComfyUI的工作流两种生图模式。</li> <li>开放的模型分享平台:所有模型不仅能下载还能在线运行,无需昂贵的硬件支持就能享受高质量的AI绘画体验,在移动设备上,用户也能轻松运行这些AI模型。</li> <li>海量庞大的模型库:平台支持的AI模型多样化,覆盖了从动漫风格到现实主义的各种绘画风格,让用户能够根据自己的喜好或项目需求选择合适的模型。</li> <li>社区互动分享:用户可以将生成的图片作品一键分享到社区,与其他用户分享艺术灵感和成果。社区内的作品还能一键做同款,制作与他人作品风格相似的图片。</li> <li>在线训练模型:允许用户上传自己的照片或图像,来训练和定制专属于自己的AI艺术模型</li> </ul> <p> </p> <h2 style="font-size: 20px;">如何使用吐司TusiArt</h2> <ol class="text-md"> <li>访问吐司TusiArt的官网(<a href="https://tusiart.com/?utm_source=medsci" target="_blank" rel="noopener">tusiart.com</a>),点击右上角的登录按钮</li> <li>登录成功后返回主页,点击在线生图-经典模式</li> <li>以文生图为例,选择模型、VAE、输入提示词,并设置图片大小、采样算法等参数</li> <li>最后点击在线生成按钮,等待片刻,图片便能生成啦</li> </ol> <h2 style="font-size: 20px;">吐司TusiArt的产品价格</h2> <ul class="text-md"> <li>免费版:每日赠送100算力,可进行和排队生图任务1个、单次最多生成2张图片、高清修复分辨率上限为207万像素(1920 * 1080)、高清/采样步数上线为30步、LoRA+ControlNet上限为3个、历史记录保存14天、模型需公开、每日发帖10个、并行训练任务1个</li> <li>付费会员版:每日可获得300算力,价格为1日体验3元(额外赠送100算力)、30日24.9元(额外赠送1000算力)、90日39.9元(额外赠送5000算力)。可并行生图任务3个、排队生图任务10个、单次最多生成4张图片、高清修复分辨率上限为830万像素(3840 * 2160)、高清/采样步数上线为60步、LoRA+ControlNet上限为6个、历史记录保存60天、模型可仅自己可见、每日发帖20个、并行训练任务2个</li> </ul> <h2 style="font-size: 20px;">常见问题</h2> <div id="accordion"> <div class="card"> <div class="card-header">吐司TusiArt是免费的吗?</div> <div class="card-body text-sm">吐司TusiArt提供免费版本,每日免费赠送100算力。</div> </div> <div class="card"> <div class="card-header">吐司TusiArt支持哪些平台?</div> <div class="card-body text-sm">吐司TusiArt支持通过在线网页版、微信小程序和iOS APP使用。</div> </div> <div class="card"> <div class="card-header">吐司TusiArt基于什么大模型?</div> <div class="card-body text-sm">吐司TusiArt基于Stable Diffusion、FLUX等图片生成模型。</div> </div> </div>