关键词 "数据集" 的搜索结果, 共 24 条, 只显示前 480 条
Graphiti 是一个用于构建和查询时序感知知识图谱的框架,专为在动态环境中运行的 AI 代理量身定制。与传统的检索增强生成 (RAG) 方法不同,Graphiti 持续将用户交互、结构化和非结构化企业数据以及外部信息集成到一个连贯且可查询的图中。该框架支持增量数据更新、高效检索和精确的历史查询,无需完全重新计算图谱,因此非常适合开发交互式、情境感知的 AI 应用程序。 使用 Graphiti
Moondream是一个免费开源的小型的人工智能视觉语言模型,虽然参数量小(Moondream1仅16亿,Moondream2为18.6亿)但可以提供高性能的视觉处理能力,可在本地计算机甚至移动设备或 Raspberry Pi 上运行,能够快速理解和处理输入的图像信息并对用户提出的问题进行解答。该模型由开发人员vikhyatk推出,使用SigLP、Phi-1.5和LLaVa训练数据集和模型权重初始
NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准测试中达到或超越当前领先模型的准确性,包括Qwen2VL、InternVL和Pixtral在内的多种顶尖开源模型,及GPT-4o和Gemini等专有模型。NVILA引入时间定位、机器人导航和医学成像等
全新的生成模型MeanFlow,最大亮点在于它彻底跳脱了传统训练范式——无须预训练、蒸馏或课程学习,仅通过一次函数评估(1-NFE)即可完成生成。 MeanFlow在ImageNet 256×256上创下3.43 FID分数,实现从零开始训练下的SOTA性能。 图1(上):在ImageNet 256×256上从零开始的一步生成结果 在ImageNet 256×25
FaceAge是一款AI人脸识别扫描模型,它通过数万张患者照片和公共图像数据库进行训练,能够精准判断个人衰老迹象。 模型描述 FaceAge 深度学习流程包括两个阶段:面部定位和提取阶段,以及带有输出线性回归器的特征嵌入阶段,可提供生物年龄的连续估计。 第一阶段通过在照片中定位人脸并在其周围定义一个边界框来预处理输入数据。然后对图像进行裁剪、调整大小,并在所有 RGB 通道上对像
II-Agent:一个用于构建和部署智能体的全新开源框架。II-Agent 是一款开源智能助手,旨在简化和增强跨领域的工作流程。它代表了我们与技术互动方式的重大进步——从被动工具转变为能够独立执行复杂任务的智能系统。作为简易的COZE,Dify平替。 ii-agent开源框架,擅长构建跨多个领域工作流的Agent,能独立执行复杂任务已是Agent标配 其技能覆盖研究与核查、内容生成、数据分析可视
RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑,支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对,结合真实视频和3D渲染数据,在预训练的图像照明编辑扩散框架(IC-Light)基础上,插入可
Qlib 是一个开源的、面向 AI 的量化投资平台,旨在利用 AI 技术挖掘量化投资的潜力,赋能研究,创造价值,涵盖从探索想法到落地生产的全过程。Qlib 支持多种机器学习建模范式,包括监督学习、市场动态建模和强化学习。 越来越多不同范式的 SOTA Quant 研究成果/论文正在 Qlib 中发布,以协作解决量化投资领域的关键挑战。例如,1)使用监督学习从丰富且异构的金融数据中挖掘市场复杂的非
Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成
TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型的高保真 3D 形状合成技术, 通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集,实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色,生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能
OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
普林斯顿与复旦推出HistBench和HistAgent,首个人文AI评测基准 普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。 历史是关于时间中的人的
Kimi-Dev是Moonshot AI推出的开源代码模型,专为软件工程任务设计。模型拥有 72B 参数量,编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。在 SWE-bench Verified数据集上达到60.4%的性能,超越其他开源模型,成为当前开源模型中的SOTA。Kimi-Dev 基于强化学习和自我博弈机制,能高效修复代码错误、编写测试代码。模型基于MIT协议开源,
MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不同病症表现,通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%,具备良好的泛化能力,可应用于不同LLM基模型。MedRAG支持多模态输入,能实时解析症状并生成精准诊断建议。 MedRAG的主要功能
文本到图像的扩散模型的最新进展已取得显著成功,但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导,常常导致对象方向错位或意外。为了解决这些限制,我们提出了涂鸦引导扩散(ScribbleDiff),这是一种无需训练的方法,它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而,将涂鸦纳入扩散模型存在挑战,因为涂鸦具有稀疏和单薄的特性,很难确保准确的
ThinkSound是阿里通义语音团队推出的首个CoT(链式思考)音频生成模型,用在视频配音,为每一帧画面生成专属匹配音效。模型引入CoT推理,解决传统技术难以捕捉画面动态细节和空间关系的问题,让AI像专业音效师一样逐步思考,生成音画同步的高保真音频。模型基于三阶思维链驱动音频生成,包括基础音效推理、对象级交互和指令编辑。模型配备AudioCoT数据集,包含带思维链标注的音频数据。在VGGSoun
深度生成序列模型的归因分配使得仅使用正数据进行可解释性分析成为可能 1.本文介绍了 GAMA(生成归因度量分析),这是第一个基于积分梯度的归因方法,适用于仅基于正样本数据训练的自回归生成模型。即使没有负样本,GAMA 也能解释此类生成模型所学习的特征。 2.与大多数为监督学习开发的可解释性工具不同,GAMA 适用于单类生成模型,例如长短期记忆(LSTM),这类模型常用于抗体设计,因为负样本(非
1. 本研究介绍了 PrefixProt,这是一个新颖的框架,它通过利用预训练蛋白质语言模型 (ProtLM) 上的前缀调整来实现可控蛋白质设计。它使用学习到的虚拟标记作为模块化控制标签,引导蛋白质生成朝着所需的结构和功能特性发展。 2. PrefixProt 最引人注目的特性在于它能够通过组合不同的虚拟标记来生成具有多种用户自定义属性(例如结构和功能)的蛋白质,而无需重新训练基础模型。这种组合
1. VarDrug 引入了一个机器学习框架,用于预测基因变异如何影响药物反应,重点关注精神类药物。它使用来自 PharmGKB 的数据来解决变异体-药物相互作用问题,并比基于规则的方法取得了显著的性能提升。 2. 其核心是一个自监督变异编码器,该编码器基于 100,000 个人类基因组变异体进行训练,并使用 DNABERT2 嵌入对每个变异体的基因组背景进行编码。将此变异编码器添加到标准机器学
1.PRO-LDM 引入了一种模块化潜在扩散模型,用于全长蛋白质序列设计,该模型兼具无条件生成和功能优化,将准确性与计算效率完美结合。 2. 一项重大创新在于在潜在空间中应用扩散,显著降低采样成本,同时保持生成序列的保真度和多样性。 3. PRO-LDM 通过将条件潜在扩散与监督适应度预测相结合,实现了具有目标特性(例如荧光、溶解度、热/化学稳定性)的蛋白质序列的可控设计。 4. 通过无分类
1. PDeepPP 通过将 ESM-2 蛋白质语言模型嵌入与混合 Transformer-CNN 架构融合,引入了统一的肽识别深度学习框架。该设计在各种生物信息学任务中均实现了高精度和可扩展性。 2. PDeepPP 在 33 项基准生物学任务中的表现显著优于先前的方法,包括抗菌、抗癌和糖基化位点识别。在抗菌肽检测中,其准确率达到 97.26%,PR AUC 为 0.9977,在抗疟药检测
1.本研究提出了蛋白质折叠进化模拟器(PFES),这是一个从随机氨基酸序列开始,以原子分辨率模拟蛋白质进化的计算框架。 2.作者利用PFES证明,稳定的球状蛋白质折叠可以相对容易地从随机序列进化而来,每个位点只需0.2到3个突变,与LUCA以来观察到的进化变化相当或更少。 3.值得注意的是,大约一半进化出的蛋白质与已知的自然折叠(例如HTH、SH3和β三明治)相似,而其余的则是独一无二的,这凸
AI-Researcher 是香港大学数据科学实验室推出的开源自动化科学研究工具,基于大型语言模型(LLM)代理实现从研究想法到论文发表的全流程自动化。AI-Researcher 支持用户在两种模式下操作:一是提供详细的研究想法描述,系统据此生成实现策略;二是提供参考文献,系统自主生成创新想法实施。平台集成文献综述、想法生成、算法设计与验证、结果分析和论文撰写等核心功能,支持多领域研究,基于开源的
只显示前20页数据,更多请搜索
Showing 49 to 72 of 72 results