Huggingface OpenAI detector - 梅斯AI导航站

SmolVLA

SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，模型小巧，可在CPU上运行，单个消费级GPU即可训练，能在MacBook上部署。SmolVLA 完全基于开源数据集训练，数据集标签为“lerobot”。 SmolVLA的主要功能多模态输入处理：SmolVLA 能处理多种输入，包括多幅图像、语言指令以及

LLPlayer

专注于字幕相关功能的视频播放器，例如双字幕、AI 生成字幕、实时翻译、单词查找等！ LLPlayer 具有许多普通视频播放器所不具备的语言学习功能。双字幕：可同时显示两个字幕。支持文本字幕和位图字幕。 AI 生成的字幕（ASR）：由OpenAI Whisper提供支持，从任何视频和音频实时自动生成字幕。支持whisper.cpp和fastest-whisper两个引擎。实时翻译：支

Kimi-Dev

Kimi-Dev是Moonshot AI推出的开源代码模型，专为软件工程任务设计。模型拥有 72B 参数量，编程水平比最新的DeepSeek-R1还强，和闭源模型比较也表现优异。在 SWE-bench Verified数据集上达到60.4%的性能，超越其他开源模型，成为当前开源模型中的SOTA。Kimi-Dev 基于强化学习和自我博弈机制，能高效修复代码错误、编写测试代码。模型基于MIT协议开源，

MiniMax-M1

MiniMax-M1是MiniMax团队最新推出的开源推理模型，基于混合专家架构（MoE）与闪电注意力机制（lightning attention）相结合，总参数量达 4560 亿，每个token激活 459 亿参数。模型超过国内的闭源模型，接近海外的最领先模型，具有业内最高的性价比。MiniMax-M1原生支持 100 万token的上下文长度，提供40 和80K两种推理预算版本，适合处理长输入

Lingshu

Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态，包括X光、CT扫描、MRI等，在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练，逐步嵌入医学专业知识，显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本，其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh

4D-LRM

4D-LRM（Large Space-Time Reconstruction Model）是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点，快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构，预测每个像素的4D高斯原语，实现空间和时间的统一表示，具有高效性和强大的泛化能力。4D-LRM在多种相机设

FLUX.1 Kontext

FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型，支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑，支持对象修改、风格转换、背景替换、角色一致性保持和文本编辑等多种任务。FLUX.1 Kontext Pro版本支持快速迭代图像编辑，能在多次编辑中保持图像质量和角色特征稳定。。Kontext Max版本在提示词遵循、排版生成和编辑一致性方

Fireplexity

Fireplexity是Firecrawl推出的开源AI问答引擎，基于Next.js构建。Fireplexity支持让开发者快速搭建和托管自己的AI驱动的问答应用。具有快速部署（5分钟内启动）、无供应商锁定（完全开源，可自由定制）、实时智能（基于Firecrawl可靠抓取网页内容，智能筛选并合成带引用的答案）等特点。Fireplexity用GPT-4o-mini生成实时答案，支持替换为任何兼容Op

ML-Master

ML-Master是上海交通大学人工智能学院Agents团队推出ML-Master – 上海交大推出的AI专家Agent的AI专家智能体。在OpenAI的权威基准测试MLE-bench中表现出色，以29.3%的平均奖牌率位居榜首，超越了微软的RD-Agent和OpenAI的AIDE等竞争对手。ML-Master通过“探索-推理深度融合”的创新范式，模拟人类专家的认知策略，整合广泛探索与深度推理，显

ThinkSound

ThinkSound是阿里通义语音团队推出的首个CoT（链式思考）音频生成模型，用在视频配音，为每一帧画面生成专属匹配音效。模型引入CoT推理，解决传统技术难以捕捉画面动态细节和空间关系的问题，让AI像专业音效师一样逐步思考，生成音画同步的高保真音频。模型基于三阶思维链驱动音频生成，包括基础音效推理、对象级交互和指令编辑。模型配备AudioCoT数据集，包含带思维链标注的音频数据。在VGGSoun

RoboBrain

RoboBrain 2.0 是强大的开源具身大脑模型，能统一感知、推理和规划，支持复杂任务的执行。RoboBrain 2.0 包含 7B（轻量级）和 32B（全规模）两个版本，基于异构架构，融合视觉编码器和语言模型，支持多图像、长视频和高分辨率视觉输入，及复杂任务指令和场景图。模型在空间理解、时间建模和长链推理方面表现出色，适用机器人操作、导航和多智能体协作等任务，助力具身智能从实验室走向真实场景

JoyAgent-JDGenie

业界首个开源高完成度轻量化通用多智能体产品(JoyAgent-JDGenie) 解决快速构建多智能体产品的最后一公里问题简介当前相关开源agent主要是SDK或者框架，用户还需基于此做进一步的开发，无法直接做到开箱即用。我们开源的JoyAgent-JDGenie是端到端的多Agent产品，对于输入的query或者任务，可以直接回答或者解决。例如用户query"给我做一个最

Mistral Voxtral

Mistral AI，最新发布了首个开源语音模型：Voxtral语音理解模型系列！该模型包含24B和3B两个参数规模的版本，均基于Apache 2.0许可证开源，同时提供API服务接口。 Voxtral模型支持32k token的上下文窗口，能够处理长达30分钟的音频转录任务或40分钟的语义理解任务，在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。

Detectordeia

Detector de IA y Humanizador online y gratuito. Compatible con ChatGPT, GPT-4, Gemini y Claude. Gratis, sin registro, y rápido.

FLUX.1 Krea [dev]

FLUX.1 Krea [dev] 是 Black Forest Labs 与 Krea AI 合作推出的最新文本到图像生成模型，支持生成更逼真、更多样化的图像，实现照片级真实感水平。模型具有独特的美学风格，避免过度饱和的纹理，同时与 FLUX.1 [dev] 生态系统兼容，支持diffusers库和ComfyUI。模型现已开源，商业许可可通过 BFL Licensing Portal 获取，且F

dots.ocr

dots.ocr 是小红书 hi lab 开源的多语言文档布局解析模型。模型基于 17 亿参数的视觉语言模型（VLM），能统一进行布局检测和内容识别，保持良好的阅读顺序。模型规模虽小，但性能达到业界领先水平（SOTA），在 OmniDocBench 等基准测试中表现优异，公式识别效果能与Doubao-1.5和 gemini2.5-pro 等更大规模模型相媲美，在小语种解析方面优势显著。dots.o

DispatchMail

DispatchMail 是开源的、本地运行的 AI 邮件助手，支持通过AI技术自动化收件箱管理。工具能实时监控邮件，用 OpenAI 的 AI Agent根据用户自定义的提示词对邮件进行智能处理和分析。工具提供本地运行的 Web 界面，支持邮件筛选、草稿生成、自动归档和深度发件人研究等功能。所有数据存储在本地 SQLite 数据库中，确保用户隐私和数据安全。项目地址 GitHub仓库：

AI-Researcher

AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具，基于大型语言模型（LLM）代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作：一是提供详细的研究想法描述，系统据此生成实现策略；二是提供参考文献，系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能，支持多领域研究，基于开源的

GPT-5

GPT-5 是 OpenAI 最新推出的人工智能模型，是目前最强模型，面向所有用户开放。GPT-5是一个统一系统，包括一个基础模型用在解答常见问题，一个深度推理模型（GPT-5 思维模块）用在处理复杂难题，一个实时路由模块根据对话类型、问题复杂度、工具需求和用户指令（如“仔细思考”）智能调度模型。GPT-5 在编程、写作、数学、健康等多个领域表现出色，大幅减少幻觉和错误，回答更贴近真实情况。GPT

LandPPT

LandPPT 是AI演示文稿生成平台，能将文档内容快速转换为专业的 PPT 演示文稿。LandPPT支持 OpenAI、Claude、Gemini 等多种 AI 模型，兼容 PDF、Word、Markdown 等文件格式，支持智能解析内容，生成结构清晰的大纲和精美的 PPT 页面。平台提供丰富的模板系统和自定义功能，用户基于现代化的 Web 界面进行可视化编辑、实时预览和多格式导出。LandPP

NeuralAgent

NeuralAgent 是开源的桌面 AI 个人助手，通过自然语言指令自动化执行多种复杂任务，如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化，在 Windows 平台上支持后台浏览器控制，实现高效任务处理。NeuralAgent 集成 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini 等多种主流语

NeuralAgent

NeuralAgent 是开源的桌面 AI 个人助手，通过自然语言指令自动化执行多种复杂任务，如模拟键盘输入、鼠标点击、浏览器导航、表单填写和邮件发送等。NeuralAgent 支持桌面自动化，在 Windows 平台上支持后台浏览器控制，实现高效任务处理。NeuralAgent 集成 Claude、GPT-4、Azure OpenAI、Bedrock、Ollama 和 Gemini 等多种主流语

WrenAI

WrenAI 是 Canner 推出的开源商业智能 AI Agent工具。通过自然语言交互，帮助用户快速查询、分析和可视化结构化数据，无需编写复杂的 SQL 代码。用户只需用普通语言提出问题，WrenAI 能生成精准的 SQL 查询语句，以图表、报告等多种形式输出结果。通过架构嵌入和相关性检索，确保查询的准确性和上下文对齐。支持多种主流数据库（如 PostgreSQL、MySQL、Snowflak

Glass

Glass 是Pickle 团队推出的开源隐形 AI 桌面助手。Glass能在后台实时捕捉屏幕内容和音频，将其转化为结构化知识。Glass核心功能包括实时会议记录、自动摘要生成、上下文理解及实时问答。Glass 的设计真正隐形，不会出现在屏幕录制、截图或 Dock 中，完全不干扰用户操作。Glass支持 macOS 和 Windows 系统，用户能免费使用，且无需注册。Glass开源特性成为 AI

搜索结果

SmolVLA

LLPlayer

Kimi-Dev

MiniMax-M1

Lingshu

4D-LRM

FLUX.1 Kontext

Fireplexity

ML-Master

ThinkSound

RoboBrain

JoyAgent-JDGenie

Mistral Voxtral

Detectordeia

FLUX.1 Krea [dev]

dots.ocr

DispatchMail

AI-Researcher

GPT-5

LandPPT

NeuralAgent

NeuralAgent

WrenAI

Glass