Multimodal Diffusion Transformer

AlphaGenome

AlphaGenome是谷歌DeepMind推出的全新AI模型，能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入，预测数千种表征其调控活性的分子特性，评估基因变异的影响。模型基于卷积层、Transformer架构，训练数据来自大型公共数据库。模型具有长序列上下文与高分辨率、全面多模态预测、高效变异评分和新颖剪接点建模等优势，在多项基准测试中表现顶尖，基于API向非商业研究领域开

4D-LRM

4D-LRM（Large Space-Time Reconstruction Model）是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点，快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构，预测每个像素的4D高斯原语，实现空间和时间的统一表示，具有高效性和强大的泛化能力。4D-LRM在多种相机设

ScribbleDiff

文本到图像的扩散模型的最新进展已取得显著成功，但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导，常常导致对象方向错位或意外。为了解决这些限制，我们提出了涂鸦引导扩散(ScribbleDiff)，这是一种无需训练的方法，它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而，将涂鸦纳入扩散模型存在挑战，因为涂鸦具有稀疏和单薄的特性，很难确保准确的

GAMA

深度生成序列模型的归因分配使得仅使用正数据进行可解释性分析成为可能１．本文介绍了 GAMA（生成归因度量分析），这是第一个基于积分梯度的归因方法，适用于仅基于正样本数据训练的自回归生成模型。即使没有负样本，GAMA 也能解释此类生成模型所学习的特征。２．与大多数为监督学习开发的可解释性工具不同，GAMA 适用于单类生成模型，例如长短期记忆（LSTM），这类模型常用于抗体设计，因为负样本（非

PDeepPP

1. PDeepPP 通过将 ESM-2 蛋白质语言模型嵌入与混合 Transformer-CNN 架构融合，引入了统一的肽识别深度学习框架。该设计在各种生物信息学任务中均实现了高精度和可扩展性。 2. PDeepPP 在 33 项基准生物学任务中的表现显著优于先前的方法，包括抗菌、抗癌和糖基化位点识别。在抗菌肽检测中，其准确率达到 97.26%，PR AUC 为 0.9977，在抗疟药检测

MirageLSD

MirageLSD 是 Decart AI 团队推出的全球首个 Live-Stream Diffusion（实时流扩散）AI 视频模型，能实现无限时长的实时视频生成，延迟低至 40 毫秒以内，支持 24 帧/秒的流畅输出。通过 Diffusion Forcing 技术和历史增强训练，解决了传统自回归模型在长时间生成中的误差累积问题，实现了视频的无限生成。基于Hopper 优化的 Mega Kern

Seed Diffusion

Seed Diffusion是字节跳动Seed团队推出的实验性扩散语言模型，专注于代码生成任务。模型通过两阶段扩散训练、约束顺序学习和强化高效并行解码等关键技术，实现显著的推理加速。模型的推理速度达到2146 tokens/s，比同等规模的自回归模型快5.4倍，在多个代码基准测试中表现与自回归模型相当，在代码编辑任务上超越自回归模型。Seed Diffusion展示了离散扩散模型作为下一代生成模型

DreamVVT

DreamVVT 是字节跳动和清华大学（深圳）联合推出的视频虚拟试穿（Video Virtual Try-On, VVT）技术，基于扩散 Transformer（DiTs）框架，通过两阶段方法实现高保真且时间连贯的虚拟试穿效果。第一阶段从输入视频中采样关键帧，结合视觉语言模型（VLM）生成语义一致的试穿图像；第二阶段利用骨骼图和运动信息，结合预训练视频生成模型，确保视频的动态连贯性。DreamVV

Waver 1.0 – 字节跳动推出的AI视频生成模型

Waver 1.0 是字节跳动推出的新一代视频生成模型，基于修正流 Transformer 架构，支持文本到视频（T2V）、图像到视频（I2V）和文本到图像（T2I）生成，可在单一框架内完成，无需切换模型。支持高达 1080p 的分辨率和 2-10 秒的灵活视频长度，擅长捕捉复杂运动，生成的视频在运动幅度和时间一致性上表现出色。在 Waver-Bench 1.0 和 Hermes 运动测试集上，W

RustGPT-用 Rust 编写的 Transformer 架构语言模型

RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建，不依赖任何外部机器学习框架，仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离，便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者，是一个优秀的学习项目。Rust

Flux AI Pro - 人工智能图像与视频生成平台

# FluxAI.pro - 人工智能图像与视频生成平台FluxAI.pro是一个强大的AI平台，提供尖端的图像和视频生成工具。从令人惊叹的肖像到动态视频，我们的AI工具套件可帮助创作者、设计师和企业将他们的愿景变为现实。## 主要特点* 简洁易用的界面设计* 强大的数据分析和可视化功能* 丰富的数据源支持* 多种数据可视化方式可供选择* 强大的数据挖掘和机器学习功能* 强大的数据安全保障措施##

Lynx - 一张照片就能生成逼真个人视频

lynx 是由字节跳动研发的高保真个性化视频生成模型，仅需输入一张人像照片，即可生成身份高度一致的动态视频。该模型基于扩散 transformer（dit）架构构建，并创新性地引入了 id-adapter 和 ref-adapter 两个轻量级适配模块，分别用于精准控制人物身份和精细保留面部细节。lynx 配备专用人脸编码器提取面部特征，结合 x-nemo 技术增强表情表现力，通过 lbm 算法模

nanochat – Karpathy开源的低成本ChatGPT项目

nanochat是AI领域专家Andrej Karpathy发布的开源项目，以极低成本和高效流程训练小型语言模型，实现类似ChatGPT的对话功能。仅需约100美元（使用8张H100 GPU训练4小时），即可训练出能进行基础对话、创作故事/诗歌、回答简单问题的小型模型。若增加预算至1000美元（训练约41.6小时），模型性能可显著提升，能解决简单数学/代码问题并参与多项选择题测试。项目包含从数据准

搜索结果