GitHub syncing - 梅斯AI导航站

FaceShot

FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块，为各种角色生成精确且鲁棒的地标序列，基于潜在扩散模型的语义对应关系，跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制，适用于任何风格化的角色和驱动视频，或作为插件与任何地

ChatUI

ChatUI 是阿里团队推出的开源智能对话式 UI 组件库，能帮助开发者快速构建高质量的聊天应用，提供响应式设计、国际化、主题定制等功能。ChatUI 基于阿里巴巴 Alime Chatbot 的最佳实践，用 TypeScript 编写，支持无障碍功能，兼容多种浏览器。ChatUI 提供丰富的组件，如气泡、输入框等，满足不同场景需求。开发者基于简单配置实现多语言支持，打造符合品牌需求的聊天界面。

WorldMem

WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制，解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中，智能体在多样化场景中自由探索，生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模，模拟动态变化（如物体对环境的影响）。模型在 Minecraft 数据集上进行大规模训练，在真实

Being-M0

Being-M0 基于业界首个百万级动作数据集 MotionLib，用创新的 MotionBook 编码技术，将动作序列转化为二维图像进行高效表示和生成。Being-M0 验证了大数据+大模型在动作生成领域的技术可行性，显著提升动作生成的多样性和语义对齐精度，实现从人体动作到多款人形机器人的高效迁移，为通用动作智能奠定基础。 Being-M0的主要功能文本驱动动作生成：根据输入的自然语言

MSQA

MSQA（Multi-modal Situated Question Answering）是大规模多模态情境推理数据集，提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对，覆盖9个问题类别，基于3D场景图和视觉-语言模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入，减少单模态输入的歧义。引入MSNN（Multi-modal Next-step Navi

HealthBench

HealthBench是OpenAI推出的开源医疗测试基准，用在评估大型语言模型（LLMs）在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话，用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境（如紧急情况、临床数据转换、全球健康）和行为维度（如准确性、指令遵循、沟通）。HealthBench能衡量模型的整体表现，按主题（如紧急

Co-Sight

Co-Sight是中兴通讯开源的超级智能体项目，为协同视觉分析平台及智能自动化底座。采用多智能体架构，构建“数字团队”协同体系，通过DAG任务引擎驱动，实现任务的高效调度与执行。Co-Sight具备自我进化能力，能通过执行记录与模型推理自动生成智能总结报告，形成持续改进闭环。注重安全与可靠性，所有操作在沙箱环境中运行，支持日志追溯、权限管控与合规审计。 Co-Sight的主要功能智能总结

ViLAMP

ViLAMP（VIdeo-LAnguage Model with Mixed Precision）是蚂蚁集团和中国人民大学联合推出的视觉语言模型，专门用在高效处理长视频内容。基于混合精度策略，对视频中的关键帧保持高精度分析，显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色，在长视频理解任务中，展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧（约3小时）

GitFriend

GitFriend 是基于 React、TypeScript 和 AI 技术推出的 AI GitHub 辅助工具，能简化 GitHub 的使用流程，提升开发效率。GitFriend支持基于 AI 聊天功能为用户提供 Git 和 GitHub 的问题解答，自动生成定制化的 README 文件，帮助用户快速创建项目文档。工具用户友好的界面及动态交互体验，适合开发者、项目管理者及初学者使用。 GitF

Toolkami

Toolkami 是极简的 AI Agent 框架，用七种工具支持运行，包括读(Read)、写(Write Diff)、浏览(Browse)、命令(Command)、提问(Ask)、思考(Think)。框架支持 Turbo 模式，实现完全自主操作，具备热重载功能，方便实时更新代码。框架易于上手，基于简单的安装和配置即可启动服务器和客户端。Toolkami 是高度可定制化的工具，适合希望快速搭建

OpenMemory MCP

OpenMemory MCP 是mem0推出的基于开放模型上下文协议（MCP）构建的开源工具，能解决 AI 工具记忆痛点，实现不同工具间共享上下文信息。OpenMemory MCP支持 100% 本地运行，数据存储在用户本地设备上，确保隐私和安全。OpenMemory MCP 具备跨平台支持、标准化内存操作、集中式仪表板等优势，广泛用在软件开发、项目管理、错误跟踪等场景，帮助用户提升工作效率，让

DICE-Talk

DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架，支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块，基于情感库捕获不同情感之间的关系，提升情感生成的准确性和多样性。框架设计情感判别目标，基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明，DICE-Talk在情感准确性、对口型和视觉质量方面均优于

Sketch2Anim

Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架，能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术，用3D关键姿势、关节轨迹和动作词精确控制动画的生成。框架包含两个核心模块，多条件运动生成器和2D、3D神经映射器。Sketch2Anim能生成自然流畅的3D动画，支持交互式编辑，极大地提高动画制作的效率和灵活性。 Sketch2Anim

ZenCtrl

ZenCtrl 是 Fotographer AI 推出的 AI 图像生成工具，支持从单张图像生成高质量、多视角和多样化场景的图像，无需额外训练数据。基于先进算法和图像处理技术，支持实时元素再生，适用于产品摄影、虚拟试穿、人物肖像控制、插画等场景。ZenCtrl 为创意和商业领域中高效、灵活的视觉内容生成解决方案。 ZenCtrl的主要功能多视角和多样化场景生成：从单张主题图像生成高质量、

BILIVE

BILIVE 是基于 AI 技术的开源工具，专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕，支持语音识别、自动切片精彩片段，生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站，综合多种模态模型，兼容超低配置机器，无需 GPU 即可运行，适合个人用户和小型服务器使用。 1. Introduction Have you notice

SuperEdit

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法，基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令，与原始图像和编辑图像对更准确地对齐，引入对比监督信号，进一步优化模型训练。SuperEdit不需要额外的视觉语言模型（VLM）或预训练任务，仅依赖高质量的监督信号，在多个基准测试中实现显著的性能提升。 Super

FunGPT

FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目，专为情感调节设计。具备两大核心功能：甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情，犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型，结合 AWQ 量化技术，既节省 GPU 内存又提升推理速度。 FunGPT的主要功能甜言蜜语模式：当用户情绪低

KuaiMod

KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架，能高效识别和过滤有害及低质量内容。框架借鉴普通法（Common Law）体系，基于案例驱动的方式动态更新审核策略，快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型（VLM）和链式推理（Chain-of-Thought,中 CoT）技术，基于用户反馈进行强化学习，实现精准的内容判别。KuaiMod 离线测试准确率高

WebThinker

WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型（LRMs）在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略，让LRMs能动态获取信息，实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinke

VoiceCanvas

VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务，支持超过 50 种语言，集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能，用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户，显著提升语音内容制作效率。 VoiceCanvas

crawl4ai

🚀🤖 Crawl4AI：开源 LLM 友好型网络爬虫和抓取工具。 Crawl4AI 是 GitHub 上排名第一的热门代码库，由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能，专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活，专为实时性能而构建，为开发者提供无与伦比的速度、精度和部署便捷性。 ✨ 查看最新更新 v0.6.0 🎉 0.6.

MathModelAgent

一款开源MathModelAgent的AI助手，专为数学建模设计的智能工具，能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程，展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手 MathModelAgent是一个多智能体协作系统，集成了多个专业模块，包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论

mujoco

Mujoco（Multi-Joint dynamics with Contact）是一款用于机器人学、生物力学等领域的高性能物理仿真引擎，其核心功能包括动力学模拟、接触力建模及多关节系统仿真。该工具提供直观的操作界面、丰富的物理参数配置以及灵活的约束条件设置，适用于复杂机械系统或生物运动的模拟分析。以下从操作功能、仿真交互机制、核心术语与参数三个维度展开说明。 MuJoCo是“多关节接触动力学”

NLWeb

微软发布了名为 “NLWeb” 的开源项目，旨在简化创建网站的自然语言对话界面，使任何网站都能轻松转变为 AI 驱动的应用程序。 NLWeb 定位为 “智能体 Web 时代的 HTML”，支持自定义模型与数据交互，旨在帮助开发者轻松将网站转化为支持自然语言交互的 AI 应用，可提供 “类似 ChatGPT 的聊天界面”。 NLWeb 开源地址：https://github.com/micr

搜索结果