关键词 "文本生成交互式 3D 场景" 的搜索结果, 共 24 条, 只显示前 480 条
Quick BI 是阿里云推出的智能商业分析工具,对话式报表搭建、一键智能美化、智能洞察归因等功能,让数据分析更高效。内置 Quick 加速引擎,实现毫秒级查询响应,10 亿数据查询 + 计算仅需 0.3 秒。拖拽式报表搭建,ETL 引擎 0 代码完成数据准备,降低使用门槛适配 PC 端、移动端和大屏端,可集成至办公 IM 应用,覆盖企业数据分析的各种场景。Quick BI 拥有小Q报告 Agen
ReadyBase 是在线 AI 驱动的PDF生成工具,将原始数据或提示快速转换为精美的 PDF 文档。用户只需输入文字、数据或图片等信息,平台会根据内容自动生成排版清晰、逻辑合理的文档,提供多种模板供选择。支持直接接入 AI 模型和研究数据库,丰富文档内容,能以 PDF、高分辨率图片等多种格式导出。可根据反馈或新数据进行调整。适用于多种场景,如销售、市场、高管汇报、客户交付和教育领域等,支持自定
ROMA是一个元代理框架,它使用递归分层结构来解决复杂问题。通过将任务分解为可并行执行的组件,ROMA 使代理能够应对复杂的推理挑战,同时保持透明性,从而简化上下文工程和迭代。该框架提供并行问题解决功能,代理可以同时处理复杂任务的不同部分;其开发过程透明,结构清晰,易于调试;此外,我们搜索代理的强大基准测试结果也证明了其卓越的性能。我们已经展示了该框架的有效性,但这仅仅是个开始。作为一个开源且可扩
Drawnix 是一款免费开源、All in one 在线白板工具,集思维导图、流程图、自由画笔及多种导出和编辑功能于一体,支持跨平台使用和插件扩展,为个人和团队提供简洁高效的创作体验.开源白板工具(SaaS),一体化白板,包含思维导图、流程图、自由画等开源白板工具(SaaS),一体化白板,包含思维导图、流程图、自由画等All in one 白板,思维导图、流程图、自由画等English READ
数说Social Research是数说聚合团队打造的一款研究型AI Agent,基于庞大的社媒数据能力一键生成调研报告,可用于市场调研、社媒表现分析、营销活动效果复盘、营销策略分析等场景,解决营销人的二手数据之困。
微软开源的一个项目 MarkItDown,这么小的一个工具获得了 7w+ star。 但它干的事儿特别朴素,把各种格式的文件(Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包)一键变成结构化 Markdown。 是的,保留标题、列表、表格、链接结构的那种 Markdown。 为什么我会觉得这个工具值得讲讲?因为这其实解决了一个我们常常下意识忽略的问题: 在做
HuMo 是一个统一的、以人为本的视频生成框架,旨在通过多模态输入(包括文本、图像和音频)生成高质量、细粒度且可控的真人视频。它支持强大的文本提示跟随功能、一致的主体保留以及同步的音频驱动动作。来自文本图像的 VideoGen - 使用文本提示结合参考图像自定义角色外观、服装、化妆、道具和场景。VideoGen from Text-Audio - 仅通过文本和音频输入即可生成音频同步的视频
探索空间智能前沿的最新进展,并创建持久、可导航且可控制的 3D 世界。此外,还将在Marble.worldlabs.ai上推出 Marble 模型的有限访问 Beta 预览版,用户可以在此查看和创建 3D 世界。给定一个图像或文本提示,我们的模型就能生成一个 3D 世界,让你可以随心所欲地探索——没有时间限制、没有变形、没有不一致性。与我们之前的结果相比,我们生成的世界更大、风格更加多样,并且拥有
MiniMax发布新一代音乐生成模型Music 1.5,拓宽AI音乐创作新边界。Music 1.5 开启了“一人即乐队”的新时代,生成时长升至4分钟,并具备四大新突破:强控制力、人声自然饱满、编曲层次丰富、歌曲结构清晰。Music 1.5 支持长达4分钟的音乐创作,出品即成品,不再仅是demo小样,并可对歌曲的风格、情绪和场景进行自定义和强控制。只需给出一句简单的自然语言描述,Music 1.5
小美是美团正式发布的首款AI生活Agent。定位为“小而美的AI生活小秘书”,通过自然语言交互为用户提供便捷的生活服务。小美能快速响应用户指令,完成外卖点单、餐厅推荐、订座导航等操作。例如,用户只需说“给我点一份和府捞面的鸡丝凉面”,小美能迅速完成点单并支付。小美基于美团自研的龙猫大模型,能提供从决策辅助到直接代办的深度服务。支持定时任务,用户可以设置每天早上10点点一杯星巴克的冰美式送到公司,小
阿里巴巴推出FunAudio-ASR语音识别大模型,专为解决企业落地难题。模型通过创新的Context增强模块,有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下,其识别准确率显著提升,幻觉率从78.5%降至10.7%。目前,FunAudio-ASR 已在钉钉的“AI听记”、视频会议、DingTalk A1硬件等多个场景中应用,验证了其在真实企业环境中的稳定性和高精度识别能力,特别是在垂
腾讯优图实验室进一步开源 Youtu-GraphRAG——这是一款全新的图检索增强生成框架,主打大语言模型+GraphRAG模式,把知识组织成「图谱」,再交给大语言模型去检索和推理,帮助大模型在处理复杂问答类任务时减少「胡言乱语」,回答更精准、更可追溯。它尤其适用于企业知识库问答、科研文档解析、个人知识库、私域知识管理等知识密集型场景。要减少胡编乱造,关键在于更精准的检索与推理。Youtu-Gra
小米集团AI实验室新一代 Kaldi 团队发布了基于 Flow Matching 架构的ZipVoice系列语音合成(TTS)模型——ZipVoice(零样本单说话人语音合成模型)与ZipVoice-Dialog(零样本对话语音合成模型)。作为 zipformer 在语音生成任务上的应用和探索,ZipVoice解决了现有零样本语音合成模型的参数量大、合成速度慢的痛点,在轻量化建模和推理加速上取得了
通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic
YuLan-OneSim(玉兰-万象)是中国人民大学高瓴 AI 学院RUC-GSAI团队推出的新型社会模拟器。基于大型语言模型(LLM)Agents 模拟人类社会行为,无需编程构建模拟场景,基于自然语言交互生成代码。YuLan-OneSim提供50多个涵盖8个主要社会科学领域的默认场景,支持高达10万Agents的大规模模拟,基于外部反馈自动优化LLM。YuLan-OneSim具备AI社会研究者功
AI Quests 是谷歌研究团队与斯坦福学习加速器联合推出的游戏化教育工具,通过沉浸式冒险活动,让11至14岁的学生学习人工智能(AI)及在现实世界中的应用。学生将扮演谷歌研究人员的角色,解决与气候、健康和科学相关的问题。首个任务是洪水预测,未来将有糖尿病视网膜病变检测和大脑映射等任务。每个任务配有课程计划、教师指南和真实研究人员的视频信息,帮助学生理解AI的实际应用。AI Quests主要功能
Neovate Code 是蚂蚁集团开源的智能编程助手,专注于提升开发效率。工具能深度理解代码库,遵循既有编码习惯,精准完成代码生成、Bug修复和重构等任务。通过对话式界面,支持开发者用自然地描述需求,Neovate Code 提供安全、可控的实现方案。工具支持多种流行模型(如 OpenAI、Anthropic 等),可通过插件系统灵活扩展功能。目前以 CLI 工具形式提供,未来将适配更多客户端形
Mixboard 是谷歌实验室推出的全新 AI 画板工具,由 Nano Banana 提供支持。工具通过自然语言交互,让用户能轻松将任何想法即时可视化。用户输入文本提示或选择预置模板,AI 能生成一系列相关图片。Mixboard 支持批量编辑、组合图片、风格迁移,能对图片进行客观描述、调整文字格式。Mixboard 适用创意设计、家居装饰、派对策划等多种场景,帮助用户快速探索和优化创意。Mixbo
CWM(Code World Model)是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域,让模型能够通过模拟代码执行过程,更深层次地理解和生成代码,而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色,例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开,旨在推动代码生成和理解领域的研究,并帮助开发者更高效地
MiroMind:由陈天桥先生创立的预测型 AI 平台MiroMind 是由陈天桥推出的一个专注于 AI 领域的平台,致力于开发全球领先的预测型大模型。该平台的核心理念是让 AI “记住过去、洞察未来”,通过其独特的记忆驱动机制,帮助 AI 进行更精准的预测与决策。MiroMind 的主要产品包括:MiroThinker:一个开源的深度研究模型,在 GAIA 等基准测试中表现出色,超越了许多同类开
Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。核心功能多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实
Lessie AI 号称是全球首个**“人物搜索”AI 智能体**(People Search AI Agent),致力于帮助您高效连接任何人、链接世界。这款专注于网红营销的 AI 工具目前处于免费测试阶段,每月提供 1500 次免费网红搜索额度。Lessie AI 能在短短 30 秒内,为您在 TikTok、YouTube 和 Instagram 等主流社交媒体平台上,找到 500+ 位与您的品
Loomi 是一款专为创作者设计的 AI 工具,旨在通过其独特的多智能体协作模式,覆盖内容生产的全流程。从话题洞察、受众画像到创作策略,Loomi 能够全方位地为创作者提供支持,让内容创作更高效、更具深度。该工具的核心优势在于其自研的 Nexus 情境引擎,它能构建稳固的思维网络,支持长文创作和复杂并行思考,确保创作任务清晰、步骤精准,让您不再迷失方向。Loomi 的开发团队融入了 100 多位内
LatticeWorld 是一个开创性的多模态 3D 世界生成框架,由网易、香港城市大学、北京航空航天大学、清华大学等机构共同推出。它将大语言模型与工业级 3D 渲染引擎 Unreal Engine 5(UE5)相结合,能通过简单的文本描述和视觉指令,快速生成具备高动态环境、真实物理仿真和实时渲染的大规模交互式 3D 世界。与传统手工创作相比,LatticeWorld 的效率提升超过 90 倍,且
只显示前20页数据,更多请搜索
Showing 409 to 432 of 441 results