关键词 "编码" 的搜索结果, 共 24 条, 只显示前 480 条
QRBTF 是 Latent Cat 团队推出的 AI 二维码生成器。基于生成式 AI 技术,结合 ControlNet 和 Stable Diffusion,根据用户输入的关键词和参数生成具有独特风格的二维码。用户能调整控制强度、画面修复比例、尺寸、边距比例、纠错等级等参数,生成既美观又能扫描的二维码。QRBTF 支持 SVG、JPG、PNG 等多种输出格式,适用于品牌营销、数字内容链接和互动体
一款轻量级终端运行编码智能体 —— Codex CLI,该工具现已在 GitHub 完全开源。是OpenAI开发的。 Codex CLI 可以直接在用户的计算机上工作,旨在最大化 o3 和 o4-mini 等模型的推理能力,并即将支持 GPT-4.1 等额外的 API 模型。 Codex CLI 可以在 macOS 12+、Ubuntu 20.04+/Debian 10+、Windows 11
OpenHands提供强大的兼容性,支持任意大型语言模型(LLM),支持多智能体协作提高开发效率,减少开发者的编码工作量。并且提供了强大的交互机制、安全的沙箱环境、多代理协作能力及全面的评估框架,支持用户实现新代理的开发、安全的代码执行、多代理间的协调及在多种任务上的评估。
香港中文大学的生物医学团队为8个特定的眼科图像模态设计编码器,并为不同任务设计解码器,整合超过50万名患者的340万张图像,训练了眼科疾病基础模型VisionFM。该模型在多个眼科疾病诊断任务上超过基线方法,准确率接近中级眼科医师。该模型还具备强大的数据泛化能力,能够扩展到新的图像模态和设备,甚至能从眼底图像预测青光眼进展和颅内肿瘤。
PathChat,一个专为人类病理学设计的视觉-语言通用AI助手。PathChat结合了专门适应病理学的视觉编码器与预训练的大语言模型,在超过456,000个多样化的视觉-语言指令上进行微调,展现出卓越的性能。
TANGLE,一种幻灯片 + 表达 (S+E) 预训练的方法。从概念上讲,这种方法遵循视觉语言模型中广泛采用的 CLIP 原理。在这里,我们将幻灯片与其相应的基因表达谱对齐。生成的幻灯片编码器嵌入了组织的底层分子景观,因此可以用于各种下游任务。在这项工作中,我们专注于乳腺癌和肺癌的形态学亚型以及临床前药物安全性研究中的形态学病变检测。
InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族:利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3,一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第
国产 Magi-1,在物理真实性上,断层第一,能够无限制生成长视频。 它采用的是一种叫做 chunk-by-chunk 的自回归生成 方法。视频被划分为一个个时间片段(chunk),每段比如 24 帧,相当于 1 秒的视频。 每生成一段,才会进入下一段。下一段的内容,要基于上一段的内容来生成。Magi-1 的结构不是从 Diffusion Transformer 拿过来直接用,而是在 atten
Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 Q
DeTikZify是一款创新工具,专为科学家、学者以及任何需要创建精准数学或科学插图的人设计。它基于先进的语言模型,能够理解手绘草图或现有图片,并转换它们成为可直接用于LaTeX文档的TikZ代码,这一过程无需手动编码,大大节省了时间并提高了效率。 项目技术分析 该系统利用深度学习与蒙特卡洛树搜索(MCTS)的巧妙结合,实现智能迭代优化输出。这意味着,即使初始生成可能不完美,DeTikZi
Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。
AgentLed AI 使用协作代理实现无需编码的工作流自动化。它具有“执行智能体”功能,用于监督业务运营。这些代理会分析数据,为决策提供依据并提出改进建议。用户可以使用简单的英语命令构建自动化序列。 代理一旦设置完成即可自主运行,设定月度目标并执行相关任务。该系统包含持续学习功能,可随着时间的推移不断完善策略。AgentLed AI 致力于提高整体业务效率和增长,帮助企业从 AI 试验走向
Code 是一款面向团队的开发者 AI,它将您组织的专业知识和实践融入到每一次交互中。我们将您团队的集体编码知识放在您指尖,帮助每位开发人员更智能、更快速地工作。 Augment 是一个开发者 AI 平台,它能够理解您的代码库,帮助您理解代码、调试问题并加快交付速度。使用聊天、下一步编辑和代码补全功能,您可以完成更多工作。
phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语
天地图MCP Server,包含3个符合MCP协议标准的API接口,涵盖地理编码、逆地理编码、周边检索等核心地图服务功能。
ACE-Step,这是一个用于音乐生成的全新开源基础模型,它克服了现有方法的关键局限性,并通过整体架构设计实现了最佳性能。当前的方法在生成速度、音乐连贯性和可控性之间面临着固有的权衡。例如,基于 LLM 的模型(例如 Yue、SongGen)在歌词对齐方面表现出色,但推理速度慢且存在结构性伪影。另一方面,扩散模型(例如 DiffRhythm)虽然能够实现更快的合成速度,但通常缺乏长距离的结构连贯性
<p>Overview Spark-TTS 是由出门问问(Mobvoi)联合多所顶尖学术机构(如香港科技大学、上海交通大学)最新推出的新一代语音合成模型,其核心创新在于BiCodec编码技术和与文本大模型的结构统一性,利用大型语言模型 (LLM) 的强大功能实现高度准确且自然的语音合成。</p> <p>Spark-TTS is an advanced text
minion-agent的开源项目为开发者们提供了一个全新的AI智能体开发框架。 minion-agent的核心价值在于优雅地解决了「框架碎片化」的问题,开发者想要开发一款AI智能体的话,需要在OpenAI、LangChain、Google AI以及SmolaAgents等多种框架间切换,因为每种框架都有其独特的优势和局限性,也是当前AI智能体开发中的主要阻碍。 minion-agent通过提供
苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊! 视觉语言模型的 “成长烦恼” 现在的视觉语
字节开源DreamO,统一图像定制框架,把图像换装、换脸、换造型、换风格以及组合操作装在了一起 支持ID、IP、Try-On等组合,支持16GB/24GB显卡运行,用于虚拟试穿、商品广告、营销广告什么的比较实用 四个能力: IP,处理角色形象,支持人物、物体、动物等输入 ID,人脸身份处理 Try-On,虚拟试穿,可以同时换多件衣服 Style,风格迁移,目前还不能和其他任务组合 DreamO正
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3
DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架,专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本,基于优化文本提示和特征融合,提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令,生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成,降低使用门槛。 Dre
VACE(Video Creation and Editing)是阿里巴巴通义实验室推出的一站式视频生成与编辑框架。基于整合多种视频任务(如参考视频生成、视频到视频编辑、遮罩编辑等)到一个统一模型中,实现高效的内容创作和编辑功能。VACE的核心在于Video Condition Unit(VCU),将文本、图像、视频和遮罩等多种模态输入整合为统一的条件单元,支持多种任务的灵活组合。开源的 Wan2
只显示前20页数据,更多请搜索
Showing 1 to 24 of 53 results