关键词 "文本生成交互式 3D 场景" 的搜索结果, 共 24 条, 只显示前 480 条
Napkin主打简洁的AI思维记录工具,通过自动结构化与可视化功能,让想法捕捉更及时,方便用户快速迭代并与团队共享创意灵感。 Napkin诞生于前Google工程师Pramod Sharma与Jerome Scholler对商业沟通效率的革命性思考。创始团队曾成功打造儿童AI教育品牌Osmo,在长达十年的产品开发过程中,他们深刻体会到文字主导的沟通方式对创意的束缚——冗长的文档与PPT不仅降低信
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断 双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容 用来构建客服、教育或陪伴等等场景的AI语音助手比较实用 为低延迟交互而构建的复杂客户端-服务器系统: 🎙️捕获:您的声音被您的浏览器捕获。 ➡️流:音频块通过 WebSockets 传输到 Python 后端。 ✍️转
字节把他的基于节点的流程构建引擎开源了:http://flowgram.ai ! 支持固定布局和自由布局模式,提供了一套交互最佳实践,特别适合需要明确输入和输出的可视化工作流 flowgram会用AI技术来增强你的工作流程,比如,它可以帮你自动完成一些重复的任务,或者根据你的需求自动调整流程 支持扩展,你可以根据需求添加新的节点功能,也就是说可以把它应用到比如自动化办公、数据分析
MCP超级助手 MCP SuperAssistant 扩展是为了弥合 Perplexity、ChatGPT、Grok 等 AI 平台与模型上下文协议 (MCP) 工具之间的差距而创建的。虽然这些 AI 平台在常识和推理方面功能强大,但它们缺乏执行特定工具或直接访问外部系统的能力。此扩展通过提供一种无缝的方式来检测、执行和集成这些平台中的 MCP 工具,从而解决了该问题。 ## 安装说明 h
minion-agent的开源项目为开发者们提供了一个全新的AI智能体开发框架。 minion-agent的核心价值在于优雅地解决了「框架碎片化」的问题,开发者想要开发一款AI智能体的话,需要在OpenAI、LangChain、Google AI以及SmolaAgents等多种框架间切换,因为每种框架都有其独特的优势和局限性,也是当前AI智能体开发中的主要阻碍。 minion-agent通过提供
Muyan-TTS,一款低成本、具备良好二次开发支持的模型并完全开源,以方便学术界和小型应用团队的音频技术爱好者。 当前开源的Muyan-TTS版本由于训练数据规模有限,致使其仅对英语语种呈现出良好的支持效果。不过,得益于与之同步开源的详尽训练方法,从事相关行业的开发者能够依据自身实际业务场景,灵活地对Muyan-TTS进行功能升级与定制化改造。 01. H
docext Overview ‌docext‌是一个基于视觉语言模型(VLM)的本地无结构数据提取工具,特别适用于处理各种文档,如发票、护照等。它无需传统的OCR技术,通过深度学习的视觉语言模型,能够准确识别并提取文档图像中的字段数据和表格信息‌12。 技术特点和应用场景 ‌无需OCR‌:docext利用视觉语言模
Meta发布AssetGen 2.0 AI模型,可高效生成3D资产 Meta发布了AssetGet 2.0版本,Meta表示,2.0显著提升了细节和保真度,其中包括几何一致性和极其精细的细节。“AssetGen 2.0为行业树立了全新标准,并利用生成式AI突破了可能性的界限。” 从技术原理来看,AssetGen 1.0需要根据提示生成目标素材的多个2D图像视图,然后
Lovart 全球首个设计 Agent 体验 Lovart 的三个特点: 一、全链路设计和执行,一句话搞定 以前的文生图工具,它们所提供的任务是“生成图片”这一环。 而设计 Agent,则像一位“设计执行官”,覆盖从创意拆解到专业交付的整个视觉流程。 从意图拆解 → 任务链 → 最后成品,一句话全搞定。 单次可以执行上
昆仑万维正式开源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。 空间智能作为AI时代的重要前沿技术,正在重塑我们与虚拟世界的
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3
Poify是什么 Poify是快手推出的AI电商营销工具,帮助商家和创意工作者快速生成高质量的图片内容。包括 AI 模特试衣、换背景影棚风格、局部重绘等,能满足商家在商品展示图制作上的多样化需求。用户可以上传衣服原图并设置图片尺寸,快速生成 AI 模特试衣图。支持文生图和图生图,用户可以通过文字描述或上传图片进行创作。或生成圣诞主题的创意图片。降低了商家获取高质量商品展示图的成本,提升了商品在电
Asendia AI是什么 Asendia AI 是基于人工智能的求职辅导工具,帮助求职者提升求职技能,高效准备面试。提供个性化职业规划,根据个人情况推荐求职策略。智能职位匹配功能,能快速为求职者找到合适的职位。求职者可以选择100多个专家审核的面试模拟练习,涵盖各种职业和面试类型。在模拟面试后,Asendia AI 会提供详细的面试反馈报告,帮助求职者识别改进不足之处。AI职业咨询,求职者可以
DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架,专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本,基于优化文本提示和特征融合,提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令,生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成,降低使用门槛。 Dre
PRDKit是什么 PRDKit 是 AI 驱动的产品需求文档(PRD)生成工具,专为产品经理和团队设计。通过 AI 技术,将模糊的产品想法快速转化为清晰、结构化的文档,支持生成用户流程图、线框图等可视化内容,能自动生成社交媒体宣传文案、新闻稿等上市材料。PRDKit 能自动提取产品网页或截图中的信息,辅助文档编写,与多种协作和原型设计工具集成,方便团队协作和产品开发。提供一键分享功能,可将文档
信风AI(TradeWind AI)是专为制造业和工业品企业出海打造的AI拓客工具。基于前沿AI技术,能实时搜索全球企业数据,精准锁定潜力客户,在东南亚、中东、拉美、东欧等国家的数据覆盖率大幅提升。功能涵盖智能搜客、多渠道跟进、营销内容生成、展会客户对接以及邮件营销等,可帮助企业高效拓展海外市场。 信风AI的主要功能 智能搜客:基于Deepseek等前沿AI技术,信风AI能够实时搜
Paw Party(萌爪派对) 是 AI宠物养成社交游戏。玩家与各种可爱的AI宠物互动,体验钓鱼、烹饪、农场经营等多种趣味游戏。AI宠物具有独特的个性,玩家离线也能独立活动。游戏提供社交平台,玩家能与其他真实玩家和AI宠物共同玩耍,享受欢乐时光。Paw Party 用可爱的宠物角色、丰富的游戏内容和社交互动功能,吸引众多玩家,为用提供一个放松心情、享受乐趣的虚拟世界。 Paw Party的主
Zoe是百型智能推出的国内首个外贸行业垂类Agent,AI外贸员。能根据企业设定的目标自动拆解工作流程,独立完成外贸开发拓客的全链路操作,涵盖市场分析、潜在客户寻找、精准客户筛选、开发触达以及转化跟进等核心环节。Zoe基于先进的AI算法,快速处理大量市场数据,识别出最具潜力的市场和客户群体。通过联网检索,利用60多个付费数据库快速筛选出符合企业需求的潜在买家信息,将筛选出的买家信息系统化地存储,搭
Nooka是创新的AI驱动的听书应用,提供全球优质非虚构类书籍的20分钟音频摘要。用户能在通勤、运动等碎片化时间里高效吸收知识。应用最大特色是能对话,用户随时打断host提问,AI基于上下文即时回答,实现与书籍的深度互动。Nooka帮助用户高效学习,基于互动和社区交流提升学习的趣味性和深度。 Nooka的主要功能 20分钟音频摘要:将畅销非虚构类书籍的核心思想浓缩成20分钟音频,适合碎片化
响指HaiSnap是AI零代码应用开发平台,通过可视化操作和拖拽式界面,用户无需编写代码可快速搭建应用,简化了开发流程。响指HaiSnap支持调用多种预训练的AI模型,涵盖文本生成、图像识别等多种功能,满足不同场景的需求。响指HaiSnap提供一键部署功能,用户可以轻松将应用发布到云端,无需复杂的服务器配置。响指HaiSnap配备了任务管理、小工具以及小游戏等多种功能模块,方便用户高效完成任务,增
秒画趣拍是商汤科技推出的AI创意写真小程序,基于商汤科技的”日日新·秒画”文生图大模型,为用户提供了一种新颖的摄影体验。用户可通过上传一张照片,使用小程序提供的丰富多样的模板,生成具有不同风格和主题的高质量写真和自拍合照。秒画趣拍的模板包括校园毕业照、创意合照、名画风写真、旅拍照片、新国风、二次元等。 秒画趣拍的功能特色 AI创意生成:用户上传一张照片后,小程序能够快速生成具有不同风格
妙思是腾讯广告推出的基于腾讯混元大模型的一站式AI广告创意平台。为广告主提供文生图、图生图、商品背景合成、妙思衍生、特定风格LORA等多种创意工具,简化广告制作与投放流程。基于AIGC技术,妙思平台能快速生成高质量的创意内容,如人像、风景等,支持广告素材的高效生产和投放,让广告投放更加迅速和便捷。 妙思的主要功能 灵感提供:基于查看大盘创意内容热榜,获取不同行业、投放版位、比例的灵感内
TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,提出解决方案。TinyVLA基于轻量级的多模态模型和扩散策略解码器,显著提高推理速度,减少对大规模数据集的依赖。模型在模拟和真实机器人平台上经过广泛测试,证明在速度、数据效率以及多任务学习和泛化能力方面优于现有的先进模型OpenVLA。T
IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特
只显示前20页数据,更多请搜索
Showing 241 to 264 of 399 results