关键词 "HTTP requests" 的搜索结果, 共 24 条, 只显示前 480 条
ChatUI 是阿里团队推出的开源智能对话式 UI 组件库,能帮助开发者快速构建高质量的聊天应用,提供响应式设计、国际化、主题定制等功能。ChatUI 基于阿里巴巴 Alime Chatbot 的最佳实践,用 TypeScript 编写,支持无障碍功能,兼容多种浏览器。ChatUI 提供丰富的组件,如气泡、输入框等,满足不同场景需求。开发者基于简单配置实现多语言支持,打造符合品牌需求的聊天界面。
AlphaEvolve是谷歌DeepMind推出的通用科学Agent,基于结合大型语言模型(LLMs)的创造力和自动评估器来设计和优化高级算法。用Gemini Flash和Gemini Pro两种模型,基于进化框架不断改进最有潜力的算法。AlphaEvolve在数据中心调度、硬件设计、AI训练和复杂数学问题解决等领域取得显著成果,优化矩阵乘法算法,提升数据中心效率,在多个开放数学问题上取得突破。A
WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中,智能体在多样化场景中自由探索,生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模,模拟动态变化(如物体对环境的影响)。模型在 Minecraft 数据集上进行大规模训练,在真实
Being-M0 基于业界首个百万级动作数据集 MotionLib,用创新的 MotionBook 编码技术,将动作序列转化为二维图像进行高效表示和生成。Being-M0 验证了大数据+大模型在动作生成领域的技术可行性,显著提升动作生成的多样性和语义对齐精度,实现从人体动作到多款人形机器人的高效迁移,为通用动作智能奠定基础。 Being-M0的主要功能 文本驱动动作生成:根据输入的自然语言
MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖9个问题类别,基于3D场景图和视觉-语言模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入,减少单模态输入的歧义。引入MSNN(Multi-modal Next-step Navi
HealthBench是OpenAI推出的开源医疗测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话,用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境(如紧急情况、临床数据转换、全球健康)和行为维度(如准确性、指令遵循、沟通)。HealthBench能衡量模型的整体表现,按主题(如紧急
Co-Sight是中兴通讯开源的超级智能体项目,为协同视觉分析平台及智能自动化底座。采用多智能体架构,构建“数字团队”协同体系,通过DAG任务引擎驱动,实现任务的高效调度与执行。Co-Sight具备自我进化能力,能通过执行记录与模型推理自动生成智能总结报告,形成持续改进闭环。注重安全与可靠性,所有操作在沙箱环境中运行,支持日志追溯、权限管控与合规审计。 Co-Sight的主要功能 智能总结
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
GitFriend 是基于 React、TypeScript 和 AI 技术推出的 AI GitHub 辅助工具,能简化 GitHub 的使用流程,提升开发效率。GitFriend支持基于 AI 聊天功能为用户提供 Git 和 GitHub 的问题解答,自动生成定制化的 README 文件,帮助用户快速创建项目文档。工具用户友好的界面及动态交互体验,适合开发者、项目管理者及初学者使用。 GitF
Agent2Agent(A2A)协议 一种开放协议,支持不透明代理应用程序之间的通信和互操作性。 一种开放协议,支持不透明代理应用程序之间的通信和互操作性。 Agent2Agent (A2A) 协议解决了人工智能领域的一个关键挑战:使由不同公司基于不同框架构建、运行在独立服务器上的新一代人工智能代理能够有效地进行通信和协作——它们不仅仅是作为工具,而是作为代理。A2A 旨在为代理提供
腾讯混元图像2.0模型(Hunyuan Image2.0),AI图像生成进入“毫秒级”时代。 模型主要有两大特点:实时生图、超写实画质。 (👇https://hunyuan.tencent.com/) 速度快 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型,在同类商业产品每张图推理速度需要5到
Toolkami 是极简的 AI Agent 框架,用七种工具支持运行, 包括读(Read)、写(Write Diff)、浏览(Browse)、命令(Command)、提问(Ask)、思考(Think)。框架支持 Turbo 模式,实现完全自主操作,具备热重载功能,方便实时更新代码。框架易于上手,基于简单的安装和配置即可启动服务器和客户端。Toolkami 是高度可定制化的工具,适合希望快速搭建
OpenMemory MCP 是mem0推出的基于开放模型上下文协议(MCP)构建的开源工具,能解决 AI 工具记忆痛点,实现不同工具间共享上下文信息。OpenMemory MCP支持 100% 本地运行,数据存储在用户本地设备上,确保隐私和安全。OpenMemory MCP 具备跨平台支持、标准化内存操作、集中式仪表板等优势,广泛用在软件开发、项目管理、错误跟踪等场景,帮助用户提升工作效率,让
DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块,基于情感库捕获不同情感之间的关系,提升情感生成的准确性和多样性。框架设计情感判别目标,基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明,DICE-Talk在情感准确性、对口型和视觉质量方面均优于
Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架,能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术,用3D关键姿势、关节轨迹和动作词精确控制动画的生成。框架包含两个核心模块,多条件运动生成器和2D、3D神经映射器。Sketch2Anim能生成自然流畅的3D动画,支持交互式编辑,极大地提高动画制作的效率和灵活性。 Sketch2Anim
Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。具备影视级视频生成质量,能精细控制人物外貌、衣着、表情动作等细节,支持360度环绕、航拍、变焦等多种运镜技术,生成的视频画质细腻、美感十足。模型广泛用在电商广告、娱乐特效、影视创作、动态壁纸等领域,能有效降低制作成本和周期。
ZenCtrl 是 Fotographer AI 推出的 AI 图像生成工具,支持从单张图像生成高质量、多视角和多样化场景的图像,无需额外训练数据。基于先进算法和图像处理技术,支持实时元素再生,适用于产品摄影、虚拟试穿、人物肖像控制、插画等场景。ZenCtrl 为创意和商业领域中高效、灵活的视觉内容生成解决方案。 ZenCtrl的主要功能 多视角和多样化场景生成:从单张主题图像生成高质量、
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM 进行粗略布局规划,基于视觉模块细化布局生成图像指导,用优化模块调整物体姿态确保物理合理性,基于判断模块验证场景的空间连贯性。Scenethesis 能生成多样化的室内外场景,具有高度的真实感和物理合理性,广泛应用在虚拟内容
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。SuperEdit不需要额外的视觉语言模型(VLM)或预训练任务,仅依赖高质量的监督信号,在多个基准测试中实现显著的性能提升。 Super
FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型,结合 AWQ 量化技术,既节省 GPU 内存又提升推理速度。 FunGPT的主要功能 甜言蜜语模式:当用户情绪低
KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高
WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略,让LRMs能动态获取信息,实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinke
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
只显示前20页数据,更多请搜索
Showing 169 to 192 of 284 results