关键词 "Multimodal Diffusion Transformer" 的搜索结果, 共 5 条, 只显示前 480 条
4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点,快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构,预测每个像素的4D高斯原语,实现空间和时间的统一表示,具有高效性和强大的泛化能力。4D-LRM在多种相机设
文本到图像的扩散模型的最新进展已取得显著成功,但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导,常常导致对象方向错位或意外。为了解决这些限制,我们提出了涂鸦引导扩散(ScribbleDiff),这是一种无需训练的方法,它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而,将涂鸦纳入扩散模型存在挑战,因为涂鸦具有稀疏和单薄的特性,很难确保准确的
深度生成序列模型的归因分配使得仅使用正数据进行可解释性分析成为可能 1.本文介绍了 GAMA(生成归因度量分析),这是第一个基于积分梯度的归因方法,适用于仅基于正样本数据训练的自回归生成模型。即使没有负样本,GAMA 也能解释此类生成模型所学习的特征。 2.与大多数为监督学习开发的可解释性工具不同,GAMA 适用于单类生成模型,例如长短期记忆(LSTM),这类模型常用于抗体设计,因为负样本(非
1. PDeepPP 通过将 ESM-2 蛋白质语言模型嵌入与混合 Transformer-CNN 架构融合,引入了统一的肽识别深度学习框架。该设计在各种生物信息学任务中均实现了高精度和可扩展性。 2. PDeepPP 在 33 项基准生物学任务中的表现显著优于先前的方法,包括抗菌、抗癌和糖基化位点识别。在抗菌肽检测中,其准确率达到 97.26%,PR AUC 为 0.9977,在抗疟药检测
MirageLSD 是 Decart AI 团队推出的全球首个 Live-Stream Diffusion(实时流扩散)AI 视频模型,能实现无限时长的实时视频生成,延迟低至 40 毫秒以内,支持 24 帧/秒的流畅输出。通过 Diffusion Forcing 技术和历史增强训练,解决了传统自回归模型在长时间生成中的误差累积问题,实现了视频的无限生成。基于Hopper 优化的 Mega Kern
只显示前20页数据,更多请搜索
Showing 241 to 245 of 245 results