关键词 "测试" 的搜索结果, 共 24 条, 只显示前 480 条
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
腾讯混元图像2.0模型(Hunyuan Image2.0),AI图像生成进入“毫秒级”时代。 模型主要有两大特点:实时生图、超写实画质。 (👇https://hunyuan.tencent.com/) 速度快 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型,在同类商业产品每张图推理速度需要5到
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。SuperEdit不需要额外的视觉语言模型(VLM)或预训练任务,仅依赖高质量的监督信号,在多个基准测试中实现显著的性能提升。 Super
KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高
🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。 Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活,专为实时性能而构建,为开发者提供无与伦比的速度、精度和部署便捷性。 ✨ 查看最新更新 v0.6.0 🎉 0.6.
腾讯云自研自研的腾讯云代码助手(Tencent Cloud CodeBuddy,以下简称CodeBuddy),就是一款开发编程提效辅助工具,基于腾讯混元 + DeepSeek双轮模型驱动,构建对开发者友好,好用易用的代码助手,为开发者提供AI技术问答、Craft软件编码智能体、智能代码补全、单元测试、智能评审、代码修复等Agent智能体拓展能力,兼容MCP开放生态,并可支持团队知识库管理、自定义智
技术:TYK2抑制剂 疾病领域:自身免疫和自身炎症疾病 最新消息:已发表的结果展示了 AtomNet 的药物发现能力 Atomwise 正利用人工智能的力量,试图彻底改变小分子药物的研发。该公司希望攻克最具挑战性、看似不可能攻克的难题,并简化药物研发流程,为药物开发者提供更多机会。 Atomwise 的药物发现方法将药物发现模式从偶然发现转向基于结构的搜索,使药物发现过程更加合
技术:药物-脂质结合纳米分散体 疾病领域:肿瘤学、神经病学和罕见疾病 最新消息:与牛津大学建立为期五年的合作伙伴关系,共同开发新型蛋白质降解技术 BPGbio 被生物技术突破奖 (BioTech Breakthrough Awards)评为2024 年度“年度生物技术 AI 公司”。该公司拥有一个名为 NAi Interrogative Biology 的 AI 平台,该平台利用全球
技术:PI3Kα抑制剂 重大并购活动:收购 ZebiAI 及其机器学习-DEL 技术 最新消息:在PIPE融资轮中获得3000万美元 Relay Therapeutics 的 Dynamo 平台集成了一系列计算和实验方法,旨在针对此前难以解决或未得到充分解决的蛋白质靶点进行药物治疗。为了配合自身的技术,Relay 还于 2021 年收购了ZebiAI 及其机器学习-DEL(ML-DE
专长:RNA 疗法的基因洞察。Deep Genomics 利用人工智能解码基因组数据,并识别 RNA 疗法的靶点。其专有平台 SPIDEX 已为罕见遗传疾病的治疗开发出有前景的候选药物。Deep Genomics 在利用人工智能设计下一代 RNA 药物方面处于领先地位。 2015年,Brendan Frey与Hannes Bretschneider等人成立了Deep Genomics。公司有20
FutureHouse是指一个非营利组织,它刚刚发布了四个超人类的AI科学家智能体,包括Crow(乌鸦)、Falcon(猎鹰)、Owl(猫头鹰)和Phoenix(凤凰)。这些智能体专门用于科学研究,已经通过了严格的基准测试,在搜索精度和准确性上超越了目前顶级的搜索模型,如o3-mini、GPT-4.5、Claude-3.7。此外,它们在直接文献搜索任务中,检索和综合能力比博士水平的研究人员更高。这
微软发布了名为 “NLWeb” 的开源项目,旨在简化创建网站的自然语言对话界面,使任何网站都能轻松转变为 AI 驱动的应用程序。 NLWeb 定位为 “智能体 Web 时代的 HTML”,支持自定义模型与数据交互,旨在帮助开发者轻松将网站转化为支持自然语言交互的 AI 应用,可提供 “类似 ChatGPT 的聊天界面”。 NLWeb 开源地址:https://github.com/micr
Codex 是一款支持并行处理多个任务的云端编程 Agent,能够提供如编程功能、回答代码库的问题、修复错误等功能。 Codex 基于 codex-1 模型驱动,OpenAI 方面表示这一模型由 o3 模型针对编程进行优化而得来。codex-1 通过强化学习在各种环境中,对现实世界的编码任务进行训练,从而能够生成接近人类风格和 PR 偏好的代码。 在 OpenAI 自己的代码评估和内部
flowith 团队推出了其最新的 AI 智能体产品Agent Neo。是世界首个可以支持无限步骤・无限上下文・无限工具的 AI Agent。 据称,Agent Neo 具备处理无限工作流步骤的能力,支持长时间云端执行,并拥有嵌套代理层级结构。用户还可以通过其知识市场将专业知识变现。 官方演示展示了通过单一提示生成完整游戏设计文档的案例,并强调其能够处理超过 1000 个逻辑步骤,7
谷歌推出了名为 Jules 的 AI 编程代理 (Coding Agent),目前处于公开 Beta 测试阶段,需要申请,用户可以免费使用。 Jules 旨在帮助开发者修复错误、更新依赖、迁移代码和添加新功能。它与 GitHub 集成,异步执行任务。用户分配任务后,Jules 会在虚拟机中创建开发环境、安装依赖、编写测试、进行更改、运行测试并提交拉取请求,同时展示工作进展。 简单来说,它能
美团正在加速其 AI 战略布局,即将推出一款名为 “NoCode” 的 AI 编程工具,并已悄然注册了 “nocode.cn” 域名,目前该网站正处于灰度测试阶段,预示这款面向非技术用户的全新产品即将正式面世。 该工具由美团研发质量与效率团队打造,定位于新兴的 “Vibe Coding(氛围编程)” 赛道,通过对话式交互实现应用构建,主打 “人人可用” 的 AI 编程体验。 不同于 Curso
英纬达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等,需要具备常识推理能
Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色,在SWE-Bench Verified基准测试中,得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级,能在单个RTX 4090或32GB内存的Mac上
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调“氛围编码”(Vibe Coding),通过持续的用户反馈和编译器反馈来迭代优化代码。AutoBE 结合瀑布模型和螺旋模型的优点,确保代码的可靠性和安全性。 AutoBE的主要功能 需求分析(An
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
DMind是DMind研究机构发布的专为Web3领域优化的大型语言模型。针对区块链、去中心化金融和智能合约等场景深度优化,使用Web3数据微调采用RLHF技术对齐。DMind在Web3专项基准测试中表现优异,性能远超一线通用模型,推理成本仅为主流大模型的十分之一。包含DMind-1和DMind-1-mini两个版本,前者适合复杂指令和多轮对话,后者轻量级,响应快、延迟低,适合代理部署和链上工具。
只显示前20页数据,更多请搜索
Showing 97 to 120 of 183 results