关键词 "数据集" 的搜索结果, 共 24 条, 只显示前 480 条
TCMLLM由北京交通大学计算机与信息技术学院医学智能团队开发的中医药大语言模型项目,旨在通过大模型方式实现中医临床辅助诊疗(病证诊断、处方推荐等)中医药知识问答等任务,推动中医知识问答、临床辅助诊疗等领域的快速发展。目前针对中医临床智能诊疗问题中的处方推荐任务,发布了中医处方推荐指令微调大模型TCMLLM-PR。研发团队整合了8个数据来源,涵盖4本中医经典教科书《中医内科学》、《中医外科学》、《
医学成像分割比赛,用于通用算法的验证和测试,涵盖广泛的挑战,例如:小数据、不平衡标签、大范围对象尺度、多类别标签和多模态成像等。本次挑战赛和数据集旨在通过开源多个高度不同任务的大型医学成像数据集,并标准化分析和验证流程,提供此类资源。
中国科学院深圳先进技术研究院的团队提出了MaCo,通过引入掩蔽对比学习,同时实现了胸部X光图像的细粒度理解和零样本学习。MaCo在6个公开的胸部X光数据集上验证了其效果,在分类、分割、检测等多个任务中超越了10种现有的最先进方法
语料库数据集。为了实现多语言医学专用适配,我们构建了一个新的多语言医学语料库(MMedC),其中包含约 255 亿个标记,涵盖 6 种主要语言,可用于对现有的通用 LLM 进行自回归训练。 基准。为了监测医学领域多语言法学硕士 (LLM) 的发展,我们提出了一个新的、具有合理性的多语言医学多项选择题答疑基准,称为 MMedBench。 模型评估。我们在基准测试中评估了许多流行的 LLM,以及在
Aignostics公司发布了目前最大规模的腹部CT数据集AbdomenAtlas。该数据集涵盖了广泛的人群特征及多种设备类型,共收录了来自112家医疗机构的20,460例三维CT影像。研究团队由10名放射科医生组成,采用人工智能辅助标注方法,完成了67.3万个高质量解剖结构掩码的标注工作。他们首先对5,246例影像中的22种解剖结构进行人工标注,随后利用半自动化流程,由放射科医生优化模型预测的标
我们见证了许多新型特征提取器的出现,它们使用自监督学习在大型病理数据集上进行训练。本存储库旨在提供这些模型的完整列表以及它们的关键信息。
HEST-1k:用于空间转录组学和组织学图像分析的数据集
模型SurvPath利用转录组学中的生物通路标记和 WSI 中的组织学补丁标记,通过多模态 Transformer 促进记忆有效的融合。SurvPath 在来自癌症基因组图谱的五个数据集中超越了单模态和多模态基线,展示了最先进的性能。此外,我们的可解释性框架识别了关键的多模态预后因素,为基因型-表型相互作用和潜在的生物学机制提供了更深入的见解。
MAPS(用于空间生物学中蛋白质组学分析的机器学习),这是一种机器学习方法,能够从空间蛋白质组学数据中快速、精确地识别细胞类型,并达到人类水平的精度。经多个内部和公开的 MIBI 和 CODEX 数据集验证,MAPS 在速度和精度方面均优于现有的注释技术,即使对于通常具有挑战性的细胞类型(包括免疫来源的肿瘤细胞),也能达到病理学家级别的精度。通过实现快速部署和可扩展的机器学习注释的普及,MAPS
CZ CELLxGENE Annotate(发音为“cell-by-gene”)是一款用于单细胞数据集(例如来自人类细胞图谱 (Human Cell Atlas)的数据集)的交互式数据探索器。我们利用现代 Web 开发技术,快速可视化至少 100 万个细胞,希望能够帮助生物学家和计算研究人员探索他们的数据。
Tangram 是一个基于scanpy的 Python 包,用PyTorch编写,用于将单细胞(或单核)基因表达数据映射到空间基因表达数据上。单细胞数据集和空间数据集应来自同一解剖区域/组织类型,理想情况下来自同一生物学重复,并且需要共享一组基因。Tangram 通过拟合共享基因的基因表达来在空间上对齐单细胞数据。
Scanpy 是一个可扩展的工具包,用于分析与anndata联合构建的单细胞基因表达数据。它包含预处理、可视化、聚类、轨迹推断和差异表达测试等功能。该工具包基于 Python 实现,可高效处理超过一百万个细胞的数据集。
组织病理学图像评估对于癌症诊断和亚型分类至关重要。用于组织病理学图像分析的标准人工智能方法专注于优化针对每个诊断任务的专门模型 。尽管此类方法已取得一些成功,但它们对由不同数字化协议生成的图像或从不同人群采集的样本的普遍性通常有限。在此,为了应对这一挑战,我们设计了临床组织病理学影像评估基础 (CHIEF) 模型,这是一个通用的弱监督机器学习框架,用于提取病理影像特征以进行系统的癌症评估。CHIE
此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 1/7000,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO
GraphRAG使用知识图谱,在推理复杂信息时显著提高问答性能。RAG 技术在帮助 LLM 推理私有数据集方面表现出色——这些数据是 LLM 未经训练且从未见过的数据,例如企业的专有研究、商业文档或通信内容。
NLP民工的乐园,收集了大量的数据库和知识库信息,包括 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件词库、连续英文切割、各种中文词向量、公司名字大全
“毕升”是活字印刷术的发明者,活字印刷术在推动人类知识传播方面发挥了至关重要的作用。我们希望毕升也能为智能应用的广泛落地提供强有力的支持。欢迎大家积极参与。 BISHENG 是一个面向下一代企业 AI 应用的开放式 LLM DevOps 平台。其强大而全面的功能包括:GenAI 工作流、RAG、Agent、统一模型管理、评估、SFT、数据集管理、企业级系统管理、可观察性等。
MAI-DS-R1 是 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,提高了其对受阻主题的响应能力和风险状况,同时保持了其推理能力和竞争性能。基于 DeepSeek-R1,这是一种基于 Transformer 的自回归语言模型,利用多头自注意力和混合专家 (MoE) 进行可扩展和高效的推理。 MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团
ChatTS专注于对时间序列的理解和推理,类似于视觉/视频/音频 MLLM 的功能。此 repo 提供了以下代码、数据集和模型ChatTS:ChatTS:通过合成数据将时间序列与 LLM 对齐,以增强理解和推理。 ChatTS原生支持任意长度和值范围的多变量时间序列数据。借助ChatTS,您可以轻松理解和推理时间序列中的 形状特征和值ChatTS特征。此外,它还可以集成到现有的 LLM 流程
鲸智社区·大模型公共服务平台提供丰富的开闭源AI模型、数据集、开发工具等资源,构建大模型生态一站式解决方案,助力开发者探索和应用大模型技术,帮助企业快速选型和部署大模型应用。
我们在 Lean 4 中引入了 DeepSeek-Prover-V2,这是一个专为形式化定理证明而设计的开源大型语言模型,其初始化数据通过 DeepSeek-V3 驱动的递归定理证明流程收集。冷启动训练过程首先促使 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决子目标的证明被合成为一个思路链,并结合 DeepSeek-V3 的逐步推理,为强化学习创建初始冷启动。这一过程使我们能够将非
phi-4是一个最先进的开放模型,它基于合成数据集、来自筛选过的公共领域网站的数据以及获取的学术书籍和问答数据集构建而成。该方法的目标是确保小型模型能够使用专注于高质量和高级推理的数据进行训练。该模型 phi-4经过了严格的增强和校准过程,结合了监督微调和直接偏好优化,以确保精确的指令遵循和强大的安全措施。 14B 参数,密集解码器专用 Transformer 模型 我们的模型旨在加速语
空间语音翻译:利用双耳可听设备进行跨空间翻译 🗣️ 空间语音翻译 CHI 2025 论文“空间语音翻译:利用双耳可听设备进行跨空间翻译”的官方仓库 Youtube 视频演示: 💡 功能 我们首先实现多说话人和干扰条件下的语音翻译。 我们的同步和富有表现力的语音翻译模型可以在 Apple 芯片上实时运行。 首先,语音翻译的双耳渲染可以保留从输入到翻译输出的空间提示。 📑 开源
阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。 研究人员在 NQ、TriviaQA、Pop
只显示前20页数据,更多请搜索
Showing 1 to 24 of 59 results