关键词 "文本生成交互式 3D 场景" 的搜索结果, 共 24 条, 只显示前 480 条
Blip 3o 是一个基于 Hugging Face 平台的应用程序,利用先进的生成模型从文本生成图像,或对现有图像进行分析和回答。该产品为用户提供了强大的图像生成和理解能力,非常适合设计师、艺术家和开发者。此技术的主要优点是其高效的图像生成速度和优质的生成效果,同时还支持多种输入形式,增强了用户体验。该产品是免费的,定位于开放给广大用户使用。 需求人群: "该产品适合设计师、开发者和
Perfect AI Headshots是一个通过上传自拍照片即可在几分钟内获得40多张专业AI头像照片的网站。该产品的主要优点是无需摄影师,快速生成高质量头像照片,具有隐私保护,样式选择多样,价格透明。定位于提供快速、高质量的头像照片生成服务。 需求人群: Perfect AI Headshots适合需要快速获取高质量专业头像照片的个人和专业人士。无需摄影师,保护隐私,样式多样,价格
Invoice Mama是一款免费的发票生成器,能够帮助用户快速创建和发送专业的发票给客户,方便跟踪付款和管理财务。其主要优点包括简单易用、快速生成发票、安全可靠等。Invoice Mama定位于为自由职业者和小型企业提供财务管理工具。 需求人群: Invoice Mama适合自由职业者和小型企业,帮助他们更轻松地管理财务,快速生成专业发票,并加快收款速度。其简单易用的功能和安全保障使
OutfitAI是一款AI服装搭配生成器,利用虚拟试衣技术帮助用户快速浏览各种时尚服装,适用于时尚购物。该产品的主要优点在于提供虚拟试穿功能,节省购物时间并帮助用户发现新款式。定位于时尚爱好者和购物者。 需求人群: OutfitAI适合时尚爱好者和购物者,帮助他们在购物前快速浏览并选择合适的服装,节省时间和提供个性化推荐。 使用场景示例: 用户A在OutfitAI上上传照片
AI Book Translate是一款高保真度的多通AI翻译工具,可在几小时内完成整本书的翻译,几乎达到出版标准。它使用递归精炼循环,模仿人类翻译者的工作方式,为作者、编辑和小团队提供高质量、经济实惠的翻译服务。 需求人群: 适合作者、编辑和小团队,希望获得高质量、保留原意和修辞忠实的书籍翻译服务。 使用场景示例: 作者需要将自己的作品翻译成多种语言进行出版。 出版商希
谷歌宣布开源全新医疗 AI 模型 ——MedGemma。这款基于 Gemma3架构的模型专为医疗领域设计,具备强大的多模态图像和文本理解能力,旨在提升医疗诊断与治疗效率。 MedGemma 提供两种配置选项,分别为4B 和27B 参数模型。4B 参数模型主要用于医疗图像的分类和解读,能够生成详细的诊断报告或回答与图像相关的问题;而27B 参数模型则专注于处理临床文本,特别适合于患者分诊和决策辅助
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
AIFlowy 是一个基于 Java 开发的企业级 AI 底层平台,致力于为中国开发者和企业提供高效、开放、本土化的 AI 工具与平台。我们对标字节 Coze、腾讯元器和 Dify 等产品,但更加聚焦于 toB 场景下的深度应用与落地实践。 我们的使命是: “成为中国最具有影响力的人工智能品牌之一,引领核心技术自主创新,推动中国 AI 技术生态繁荣发展和科技自立。” 我们的愿景是:
昆仑万维面向全球市场,同步发布天工超级智能体(Skywork Super Agents)。这款产品采用了AI agent架构和deep research技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。它具有强大的deep research能力,在GAIA榜单上排名全球第一,超过了OpenAI Deep Research和Manus。 天工超级智能体(Skywo
Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色,在SWE-Bench Verified基准测试中,得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级,能在单个RTX 4090或32GB内存的Mac上
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统
凹凸工坊是专业的在线 AI 手写稿件生成工具,支持将Word文档一键转换为真实的手写稿图片。工具提供多种手写字体、纸张背景及涂改率和凌乱度的调整功能,模拟真实的手写场景,生成的图片无水印且支持高清打印(600dpi)。工具的超级DIY功能和放宽的文件大小限制,进一步提升使用体验,适用于需要手写稿的多种场景,如作业、书信等。 凹凸工坊的主要功能 文档转换:将Word文档一键转换为手写稿图
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
DMind是DMind研究机构发布的专为Web3领域优化的大型语言模型。针对区块链、去中心化金融和智能合约等场景深度优化,使用Web3数据微调采用RLHF技术对齐。DMind在Web3专项基准测试中表现优异,性能远超一线通用模型,推理成本仅为主流大模型的十分之一。包含DMind-1和DMind-1-mini两个版本,前者适合复杂指令和多轮对话,后者轻量级,响应快、延迟低,适合代理部署和链上工具。
Joy Industrial是京东工业推出的行业首个供应链为核心的工业大模型。模型针对工业场景,依托京东工业在工业数智供应链领域的经验积累和数据沉淀,基于“工业大模型+供应链场景应用”双引擎,构建全栈产品矩阵。Joy Industrial首批推出需求代理、运营代理、商品专家、集成专家、关务代理等AI产品,能解决工业供应链中的数据孤岛、协同冲突等痛点,助力产业降本增效、合规保供,推动产业链结构性变革
ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格式,方便后续处理和存储。 Sc
II-Agent:一个用于构建和部署智能体的全新开源框架。II-Agent 是一款开源智能助手,旨在简化和增强跨领域的工作流程。它代表了我们与技术互动方式的重大进步——从被动工具转变为能够独立执行复杂任务的智能系统。作为简易的COZE,Dify平替。 ii-agent开源框架,擅长构建跨多个领域工作流的Agent,能独立执行复杂任务已是Agent标配 其技能覆盖研究与核查、内容生成、数据分析可视
fellou开源智能体工作流框架,Eko 2.0 在不同复杂程度上始终表现优异: 简单任务:成功率为 95%(其他产品的成功率为 80-90%) 平均成功率:78%(其他产品成功率为 56-61%) 中等复杂度:成功率为 76%(其他产品的成功率为 49-58%) 困难任务:成功率为 70%(其他产品的成功率为 32-43%) 这些数字背后隐藏着不可靠的自动化工具和企业真正可以依
Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气候变化和极端天气事件提
HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染(约155 FPS),为数
RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑,支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对,结合真实视频和3D渲染数据,在预训练的图像照明编辑扩散框架(IC-Light)基础上,插入可
CodeWave 是网易数帆推出的低代码开发平台,通过智能化手段提升软件开发效率。具备数据模型设计、页面搭建、逻辑与流程设计等核心功能,支持从简单应用到复杂系统的快速构建。平台提供大量标准化组件及扩展能力,满足不同行业和场景的开发需求。可视化设计器让开发过程更直观,降低技术门槛。CodeWave 支持应用源码导出和独立部署,确保代码级安全,满足企业对数据隐私和安全的严格要求。 CodeWave的
Google Beam是谷歌推出的AI驱动的3D视频通信平台。基于先进的AI技术和3D成像,将2D视频流转换为逼真的3D效果,让远程通话更自然、更直观。用户能像面对面一样进行眼神交流和读懂细微表情,增强沟通效果。Google Beam支持实时语音翻译,打破语言障碍,让全球用户无缝交流。平台基于Google Cloud的强大支持,具备企业级可靠性,支持无缝集成到现有工作流程中。 Google Be
只显示前20页数据,更多请搜索
Showing 289 to 312 of 371 results