关键词 "文本到图像" 的搜索结果, 共 5 条, 只显示前 480 条
Yodayo是一个面向动漫爱好者和虚拟主播(VTubers)的在线AI艺术创作平台。用户可以通过输入提示词和选择模型,轻松生成高质量的动漫风格艺术作品。Yodayo提供探索页面和虚拟聊天室,鼓励创意分享和社区互动。Yodayo以其用户友好的界面和先进的AI技术,为艺术家提供了一个无缝的创作体验,激发创意灵感。 Yodayo的主要功能 文本到图像生成器:用户可以通过输入文本提示词,基于AI技
这款3D模型生成工具,不仅同样支持文本生成高精度的3D模型,更进一步实现了通过上传图片即可生成3D模型的功能。这一发展与绘画类AI工具的演进路径颇为相似,从最初的文本到图像的转化,到现在的图像到3D模型的转化。
IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
只显示前20页数据,更多请搜索