关键词 "Huggingface OpenAI detector" 的搜索结果, 共 24 条, 只显示前 480 条
Qwen-Image-Edit基于我们20B的Qwen-Image模型进⼀步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。如需体验最新模型,欢迎访问 Qwen Chat
MemU 是面向AI情感陪伴开源的AI记忆框架。MemU 能记住用户与 AI 的每一次对话,提取重点并建立知识图谱,让 AI 真正理解用户。MemU 的记忆会自主进化,随着使用不断优化。MemU 支持快速集成,只需几行代码能让 AI 拥有持久记忆。相比其他框架,MemU 准确率高达92%,成本降低90%,检索速度快至50毫秒。在情感陪伴、教育等其他场景,MemU 都能成为用户贴心的智能伙伴。 M
Open-Lovable 是 Firecrawl 团队推出的开源项目,通过 AI 技术快速将任意网站克隆为现代 React 应用。用户输入目标网站 URL 后,通过 Firecrawl 抓取内容,用 AI 模型生成 React 代码,最终输出完整应用。Open-Lovable用多个 AI 提供商的 API(如 Anthropic、OpenAI 等)实现自动化构建。使用时需注意版权和法律问题,确保行
Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reas
Baichuan-M2在HealthBench上得到60.1的高分,以32B的较小尺寸不仅反超OpenAI 最新开源模型gpt-oss120b(得分57.6),更是力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。 针对医疗领域用户隐私考虑下的模型私有化部署需求,我们对Baichuan-M2进行了极致轻量化,量化后的模型精度接近无损,可以在RTX409
ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具,几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术,将传统动画制作中的中间帧生成和上色环节整合为自动化过程,仅需一个草图和一个上色参考帧,能生成高质量的动画视频。工具支持稀疏草图注入和区域控制,让艺术家能准控制动画效果,大幅减少人工工作量,提高创作效率,为
DeepSeekMine是本地运行的智能知识管理软件。软件支持27种文件格式导入,构建个性化知识库,基于自研混合RAG算法实现秒级高精度检索。软件完全本地运行,确保数据安全,支持主流AI大模型接入,兼容OpenAI等API格式。DeepSeekMine提供Windows、Linux、Mac安装包及Docker镜像,方便多平台使用。DeepSeekMine设有用户交流群,方便用户分享心得和讨论问题。
Youtu-agent 是腾讯优图实验室推出的开源智能体框架,用在构建、运行和评估自主智能体。框架基于开源模型DeepSeek-V3实现领先性能,支持多种模型 API 和工具集成,具备强大的智能体能力,如数据分析、文件处理和深度研究。框架用灵活的架构设计,支持 YAML 配置和自动智能体生成,简化开发流程。Youtu-agent 在 WebWalkerQA 和 GAIA 基准测试中表现出色,适用智
ROMA是一个元代理框架,它使用递归分层结构来解决复杂问题。通过将任务分解为可并行执行的组件,ROMA 使代理能够应对复杂的推理挑战,同时保持透明性,从而简化上下文工程和迭代。该框架提供并行问题解决功能,代理可以同时处理复杂任务的不同部分;其开发过程透明,结构清晰,易于调试;此外,我们搜索代理的强大基准测试结果也证明了其卓越的性能。我们已经展示了该框架的有效性,但这仅仅是个开始。作为一个开源且可扩
MedResearcher-R1是蚂蚁集团开源的一款Agentic AI,旨在解决医疗领域的“稀疏知识”难题。它摒弃“数据投喂”模式,转而主动“设计”高质量训练:• 智能数据:通过KISA框架,从3000万+文献中筛选罕见实体,生成高难度多步推理任务。• 精准学习:配备优先考虑“权威性”的专用工具,并采用“蒙版引导”及复合奖励函数,训练AI掌握可泛化的“思考方法”。• 卓越表现:仅用约2100条“
一款本地运行 AI 模型的开源工具:Shimmy,全面超越 Ollama。 仅仅 5MB 大小单文件,便提供快速、可靠的本地 AI 推理,同时提供完整的 OpenAI 兼容 API。 基于 Rust 构建,性能优化达到了极致,启动时间不到 100ms、内存占用仅 50MB。 GitHub: https://github.com/Michael-A-Kuykendall/shimmy 并且无需配
GPT-5-Codex 是 OpenAI 推出的专为编程优化的模型,基于 GPT-5 进一步强化。模型聚焦于真实世界的软件工程任务,如从零搭建项目、代码重构、调试、测试和代码审查等。模型能根据任务复杂度动态调整思考时间,简单任务秒回,复杂任务深度思考,支持独立完成长达 7 小时的复杂任务。模型代码审查能力出色,能精准发现关键缺陷,减少无效评论。GPT-5-Codex 支持多模态输入,能在云端查看图
通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic
Neovate Code 是蚂蚁集团开源的智能编程助手,专注于提升开发效率。工具能深度理解代码库,遵循既有编码习惯,精准完成代码生成、Bug修复和重构等任务。通过对话式界面,支持开发者用自然地描述需求,Neovate Code 提供安全、可控的实现方案。工具支持多种流行模型(如 OpenAI、Anthropic 等),可通过插件系统灵活扩展功能。目前以 CLI 工具形式提供,未来将适配更多客户端形
Fish Speech 是一款由 Fish Audio 开源的文本转语音(TTS)工具,支持中、英、日三国语言。它经过 15 万小时的多语种数据训练,能生成接近人类水平的自然语音。其最新版本为 1.2,拥有以下核心优势:核心功能与技术亮点高效且低门槛:只需 4GB 显存即可运行,极大地降低了硬件要求。此外,快速的推理速度能让您在短时间内获得所需的语音输出,提升了整体使用体验。支持多种模型:集成了包
CWM(Code World Model)是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域,让模型能够通过模拟代码执行过程,更深层次地理解和生成代码,而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色,例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开,旨在推动代码生成和理解领域的研究,并帮助开发者更高效地
Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。核心功能多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实
GDPval 是由 OpenAI 推出的一个全新评估框架,旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中,选取了 44 种职业,设计了 1320 个贴近实际工作场景的真实任务(其中 220 个已开源)。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核,确保评估结果能真实反映 AI
Eliza 是由 ai16z 开源的一款多代理模拟框架,旨在帮助开发者创建、部署和管理自主 AI 智能体。该框架基于 TypeScript 开发,提供了一个灵活且可扩展的平台,让 AI 代理能够在多个社交平台上与人类进行互动,同时保持一致的个性和知识。核心功能多代理架构:Eliza 能够同时部署和管理多个拥有独特个性的 AI 代理,并支持在不同场景下的多代理交互。多平台集成:框架支持与 Disco
Sora2 AI is an intelligent video creation tool that turns your text or images into cinematic videos with natural motion and synchronized sound. Whether you’re a creator, educator, or designer, it help
lynx 是由字节跳动研发的高保真个性化视频生成模型,仅需输入一张人像照片,即可生成身份高度一致的动态视频。该模型基于扩散 transformer(dit)架构构建,并创新性地引入了 id-adapter 和 ref-adapter 两个轻量级适配模块,分别用于精准控制人物身份和精细保留面部细节。lynx 配备专用人脸编码器提取面部特征,结合 x-nemo 技术增强表情表现力,通过 lbm 算法模
PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂元素,输出结构化Markdown/
TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传统的 2D 模型,能将详细的形状、配置和时间变化纳入预测中。TesserAct 的核心优势在于其时空一致性,支持新视角合成,显著提升了策略学习的性能。TesserAct的主要功能4D 场景生成:TesserAct 能生成包含
SongBloom 是腾讯 AI Lab 开发的全长度歌曲生成框架,结合了自回归草图绘制和基于扩散的细化技术,通过交错生成范式(Interleaved Generation)交替生成语义和声学上下文,生成高质量的完整歌曲。模型只需输入 10 秒音频样本和对应歌词,即可生成长达 2 分 30 秒的双通道、48kHz 音频。SongBloom 在音频质量和歌词准确性方面表现出色,接近领域最佳水平(SO
只显示前20页数据,更多请搜索
Showing 457 to 480 of 482 results