关键词 "Github" 的搜索结果, 共 24 条, 只显示前 480 条
FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型,结合 AWQ 量化技术,既节省 GPU 内存又提升推理速度。 FunGPT的主要功能 甜言蜜语模式:当用户情绪低
KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高
WebThinker是中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构提出的深度研究智能体。WebThinker赋能大型推理模型(LRMs)在推理过程中自主进行网络搜索、网页导航和报告撰写。WebThinker基于深度网页探索器和自主思考、搜索、写作策略,让LRMs能动态获取信息,实时生成高质量研究报告。WebThinker基于强化学习的训练策略进一步优化工具使用效率。WebThinke
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。 Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活,专为实时性能而构建,为开发者提供无与伦比的速度、精度和部署便捷性。 ✨ 查看最新更新 v0.6.0 🎉 0.6.
一款开源MathModelAgent的AI助手,专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。 MathModelAgent:数学建模的革命性助手 MathModelAgent是一个多智能体协作系统,集成了多个专业模块,包括负责数学建模的“建模手”、代码编写与调试的“代码手”以及论
Mujoco(Multi-Joint dynamics with Contact)是一款用于机器人学、生物力学等领域的高性能物理仿真引擎,其核心功能包括动力学模拟、接触力建模及多关节系统仿真。该工具提供直观的操作界面、丰富的物理参数配置以及灵活的约束条件设置,适用于复杂机械系统或生物运动的模拟分析。以下从操作功能、仿真交互机制、核心术语与参数三个维度展开说明。 MuJoCo是“多关节接触动力学”
微软发布了名为 “NLWeb” 的开源项目,旨在简化创建网站的自然语言对话界面,使任何网站都能轻松转变为 AI 驱动的应用程序。 NLWeb 定位为 “智能体 Web 时代的 HTML”,支持自定义模型与数据交互,旨在帮助开发者轻松将网站转化为支持自然语言交互的 AI 应用,可提供 “类似 ChatGPT 的聊天界面”。 NLWeb 开源地址:https://github.com/micr
在 AI 浪潮中,如何高效管理海量信息、实现智能搜索与知识共享,已成为个人与企业共同面临的挑战。Coco AI —— 一款完全开源、免费的智能搜索与知识库工具,成为面对这一挑战的利器。 Coco AI 能够轻松连接本地文件数据源、S3 对象存储、Google Workspace、Dropbox、GitHub、Notion、Yuque、Hugo 等多种数据源,实现本地与云端数据的统一搜索与管理。无
超级麦吉是一个强大的通用型 AI Agent,专门面向复杂任务场景设计。通过多 Agent 设计体系以及丰富的工具能力支持,超级麦吉支持自主任务理解、自主任务规划、自主行动、自主纠错等智能的能力。它能够理解自然语言指令,执行各类业务流程,并交付最终的目标结果。作为麦吉产品矩阵的旗舰产品,超级麦吉通过开源的方式提供了强大的二次开发能力,让企业能够快速构建和部署符合特定业务需求的智能助手,大幅提升决策
卡内基梅隆大学的研究团队开发出一款名为 LegoGPT 的 AI 模型,能够根据文字指令生成可实际搭建的乐高设计。 比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。 团队训练了一种自回归大型语言模型,通过预测下一个 token 的方式,判断下一块该放置什么积木。团队还为模型增加了有效性校验和带有物理感知的回滚机制,确保生成的设计不会出现积木重叠或悬空等问题,也就是说最终结果始终可行
类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品,它是一个具有语音功能的大语言模型秘书,可以 Coding、访问你的电脑文件、浏览网页,并自动修正错误与反省,最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建,完全在本地硬体上运行,进而保证资料的隐私。 Features: 100% 本机运行:
谷歌推出了名为 Jules 的 AI 编程代理 (Coding Agent),目前处于公开 Beta 测试阶段,需要申请,用户可以免费使用。 Jules 旨在帮助开发者修复错误、更新依赖、迁移代码和添加新功能。它与 GitHub 集成,异步执行任务。用户分配任务后,Jules 会在虚拟机中创建开发环境、安装依赖、编写测试、进行更改、运行测试并提交拉取请求,同时展示工作进展。 简单来说,它能
Blip 3o 是一个基于 Hugging Face 平台的应用程序,利用先进的生成模型从文本生成图像,或对现有图像进行分析和回答。该产品为用户提供了强大的图像生成和理解能力,非常适合设计师、艺术家和开发者。此技术的主要优点是其高效的图像生成速度和优质的生成效果,同时还支持多种输入形式,增强了用户体验。该产品是免费的,定位于开放给广大用户使用。 需求人群: "该产品适合设计师、开发者和
英纬达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等,需要具备常识推理能
AnimeGamer 是基于多模态大型语言模型(MLLM)构建的,可以生成动态动画镜头和角色状态更新,为用户提供无尽的动漫生活体验。它允许用户通过开放式语言指令与动漫角色互动,创建独特的冒险故事。该产品的主要优点包括:动态生成与角色交互的动画,能够在不同动漫之间创建交互,丰富的游戏状态预测等。 快速入门 🔮 环境设置 要设置推理环境,您
Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色,在SWE-Bench Verified基准测试中,得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级,能在单个RTX 4090或32GB内存的Mac上
MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统
Context7 是 Upstash 推出的AI编程辅助工具,为大型语言模型(LLMs)和 AI 代码编辑器提供最新、版本特定的文档和代码示例。通过解析文档、丰富内容、向量化和重新排名等步骤,确保开发者能获取到准确且最新的代码示例和文档。Context7 支持多种工具,如 Cursor、Windsurf、Claude Desktop 等,通过模型上下文协议(MCP)实现集成。 使用 Contex
Graphiti 是一个用于构建和查询时序感知知识图谱的框架,专为在动态环境中运行的 AI 代理量身定制。与传统的检索增强生成 (RAG) 方法不同,Graphiti 持续将用户交互、结构化和非结构化企业数据以及外部信息集成到一个连贯且可查询的图中。该框架支持增量数据更新、高效检索和精确的历史查询,无需完全重新计算图谱,因此非常适合开发交互式、情境感知的 AI 应用程序。 使用 Graphiti
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调“氛围编码”(Vibe Coding),通过持续的用户反馈和编译器反馈来迭代优化代码。AutoBE 结合瀑布模型和螺旋模型的优点,确保代码的可靠性和安全性。 AutoBE的主要功能 需求分析(An
Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出,使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
只显示前20页数据,更多请搜索
Showing 385 to 408 of 446 results