关键词 "测试" 的搜索结果, 共 24 条, 只显示前 480 条
CodeRabbit is an AI tool that speeds up code reviews with AI insights.
CapMonster Cloud is an AI-powered CAPTCHA-solving service designed to automate the process of solving various types of CAPTCHAs, including reCAPTCHA, hCaptcha, and others.
医学成像分割比赛,用于通用算法的验证和测试,涵盖广泛的挑战,例如:小数据、不平衡标签、大范围对象尺度、多类别标签和多模态成像等。本次挑战赛和数据集旨在通过开源多个高度不同任务的大型医学成像数据集,并标准化分析和验证流程,提供此类资源。
FastGlioma 模型是一种用于胶质瘤术中检测的视觉基础模型,通过快速分析新鲜手术组织实现肿瘤浸润的精准评估,在 220 名患者测试中达到92.1±0.9% 的 AUC。该模型显著优于传统引导方法,并在不同患者群体和脑肿瘤类型中表现出一致性和零样本泛化能力。
多语言医学语料库 MMedC。该语料库涵盖六种主要语言、约 255 亿标记,并用于通用大语言模型的自回归训练和领域适配。同时,研究者开发了具有推理能力的多语言医学多选问答基准MMedBench,以评估多语言医学模型的性能。在此基础上,通过在 MMedC 上训练多个开源模型,研究者提出了多语言医学大模型MMed-Llama 3。该模型在MMedBench 和英语基准测试中表现出色,在推理能力和问答准
语料库数据集。为了实现多语言医学专用适配,我们构建了一个新的多语言医学语料库(MMedC),其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于对现有的通用 LLM 进行自回归训练。 基准。为了监测医学领域多语言法学硕士 (LLM) 的发展,我们提出了一个新的、具有合理性的多语言医学多项选择题答疑基准,称为 MMedBench。 模型评估。我们在基准测试中评估了许多流行的 LLM,以及在
Scanpy 是一个可扩展的工具包,用于分析与anndata联合构建的单细胞基因表达数据。它包含预处理、可视化、聚类、轨迹推断和差异表达测试等功能。该工具包基于 Python 实现,可高效处理超过一百万个细胞的数据集。
出于基准测试或研究目的,Giga-SSL 嵌入提供了一种在 TCGA 上执行分类任务的极其快速的方法。
InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型InternVL 家族:利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案InternVL3,一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第一的性能
sand.ai是清华大学曹越教授团队创立的视频生成AI平台,目前刚刚开源了全球首个自回归扩散视频生成模型 Magi-1 ,生成长视频效果在行业领先。 马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1,该模型权重和代码完全开源,支持无限生成,能将生成时长精确控制到每一秒,在基准测试中更是吊打 Sora,领先了 5 倍。
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团
Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等
UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本
CSM(对话语音模型)是Sesame推出的语音生成模型,它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干网络和一个较小的音频解码器,用于生成Mimi音频代码。 经过精细调整的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。 托管的Hugging Face 空间也可用于测试音频生成。目前开源的为CSM-1B
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 Q
Apifox MCP Server,可以将 Apifox 的接口文档提供给 Cursor 等支持 AI 编程的 IDE,或其他支持 MCP 的 AI 工具。 它集 API 设计、API 开发、API 调试、API 管理、 API 文档、API Mock 和自动化测试等功能于一体,为你的 API 项目提供一站式的解决方案。 有了 Apifox MCP Server,开发者就可以通过 AI 助
MCP Inspector是一款用于测试和调试 MCP 服务器的交互式开发者工具。虽然《调试指南》已将 Inspector 作为整个调试工具包的一部分进行了介绍,但本文档将详细介绍 Inspector 的功能和性能。
mcp-link是一个开源项目,旨在将任何OpenAPI V3 API自动转换为MCP(Machine Control Protocol)服务器。它通过自动化和标准化解决了现有生态系统中的一些关键问题,如大部分MCP服务器仅是Web API的简单封装,功能接口可能不完整,手动创建MCP接口既耗时又容易出错,以及缺乏标准化的转换流程。 项目技术分析 mcp-link的核心是基于OpenAPI
Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。
Paper2Code:机器学习中科学论文的自动代码生成 PaperCoder是一个多智能体 LLM 系统,可将论文转化为代码库。它遵循三阶段流程:规划、分析和代码生成,每个阶段均由专门的智能体处理。 我们的方法在 Paper2Code 和 PaperBench 上的表现均优于强大的基准测试,并能生成忠实、高质量的实现。
鲸智社区·大模型公共服务平台提供丰富的开闭源AI模型、数据集、开发工具等资源,构建大模型生态一站式解决方案,助力开发者探索和应用大模型技术,帮助企业快速选型和部署大模型应用。
在本研究中,我们推出了 MiMo-7B 系列模型,这一系列模型从零开始训练,专为推理任务而生。我们基于 MiMo-7B-Base 进行的强化学习实验表明,我们的模型拥有非凡的推理潜力,甚至超越了规模更大的 32B 模型。此外,我们还对冷启动的 SFT 模型进行了强化学习训练,最终形成了 MiMo-7B-RL,它在数学和代码推理任务上均表现出色,性能堪比 OpenAI o1-mini。 我们开
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非
Prompt Optimizer是一个强大的AI提示词优化工具,帮助你编写更好的AI提示词,提升AI输出质量。支持Web应用和Chrome插件两种使用方式。 核心特性 🎯 智能优化:一键优化提示词,支持多轮迭代改进,提升AI回复准确度 🔄 对比测试:支持原始提示词和优化后提示词的实时对比,直观展示优化效果 🔄 多模型集成:支持OpenAI、Gemini、DeepSeek等主流AI模型,满足
只显示前20页数据,更多请搜索
Showing 49 to 72 of 183 results