关键词 "视觉" 的搜索结果, 共 24 条, 只显示前 480 条
AI model creating stunning videos from multi-modal inputs. 拍我AI是爱诗科技推出的PixVerse的国内版,是强大的AI视频生成平台。用户基于简单的文本提示或上传图片,快速生成高质量的动态视频内容。平台支持最新发布的V4.5版本,在视频质量、动画流畅度和现实转换方面取得显著进步,提供更逼真、更自然的视觉效果。拍我AI包含多种热门模板,如
An AI tool for creating stunning presentations and media content. PageOn.ai是AI驱动的内容创作平台,帮助用户通过AI技术快速生成高质量的视觉内容。通过AI Agent理解用户的需求,自动进行研究和设计,能生成动态视觉元素,如互动图表、3D模型和媒体内容。用户只需描述想要的外观和感觉,AI Agent能将目标转化为视觉表达
ClipZap provides the best AI video models and tools for Clipping, Editing and Translating. makes video creation more easier, and Pro-Level. ClipZap AI 是AI视频创作与编辑平台,专为创作者和企业设计,通过强大的 AI 技术简化视频制作流程。支持视频
Kive是基于AI技术的创意内容生成平台,专注于帮助品牌和创作者快速生成、管理和扩展符合品牌形象的视觉内容。用户基于简单的文字描述,让AI生成高质量的图片和视频,涵盖产品展示、生活方式场景等多种类型。Kive支持将真实产品图片融入AI生成的场景中,生成更具吸引力的视觉效果。Kive提供创意资产管理功能,无需手动标记,能快速搜索和管理所有视觉资产,极大地提升创意工作的效率。
AI marketing platform for swift, personalized campaigns. ZEPIC是AI驱动自动化营销平台。基于统一数据和渠道,帮助营销人员建立更深层次的客户联系。平台的核心是AI引擎Zenie,提供从数据管理到活动交付的端到端营销自动化服务。ZEPIC提供跨电子邮件和WhatsApp渠道的全方位营销能力。ZEPIC提供受众细分、全渠道互动、团队邮箱和实
Transform text into stunning images — free, fast, and customizable. BYLO AI是免费的在线AI图像生成器,用户能用简单的文本提示快速生成高质量的图像。BYLO AI支持包括Flux模型在内的多种模型,BYLO AI提供灵活的图像设置,包括风格、尺寸和输出数量的自定义,适应不同项目需求。BYLO AI用快速输出性能和高分辨率输
Unleash your creativity with Illustrate AI, the innovative tool designed to elevate your design process. This advanced AI-driven platform enables artists and designers of all skill levels to transform
Claude,美国人工智能初创公司Anthropic发布的大型语言模型家族,拥有高级推理、视觉分析、代码生成、多语言处理、多模态等能力,该模型对标ChatGPT、Gemini等产品。 2023年3月15日,Anthropic正式发布Claude的最初版本,并开始不断升级迭代;同年7月,Claude 2正式发布;同年11月,Claude 2.1正式发布;次年3月4日,Claude 3系列正式发布。
开源轻量级通用生物医学视觉-语言基础模型BiomedGPT,则在多种生物医学任务上展现先进性能。BiomedGPT在25项实验中有16项达到先进水平,并在人类评估中表现出色,总结能力接近人类专家。
FastGlioma 模型是一种用于胶质瘤术中检测的视觉基础模型,通过快速分析新鲜手术组织实现肿瘤浸润的精准评估,在 220 名患者测试中达到92.1±0.9% 的 AUC。该模型显著优于传统引导方法,并在不同患者群体和脑肿瘤类型中表现出一致性和零样本泛化能力。
PathChat,一个专为人类病理学设计的视觉-语言通用AI助手。PathChat结合了专门适应病理学的视觉编码器与预训练的大语言模型,在超过456,000个多样化的视觉-语言指令上进行微调,展现出卓越的性能。
TANGLE,一种幻灯片 + 表达 (S+E) 预训练的方法。从概念上讲,这种方法遵循视觉语言模型中广泛采用的 CLIP 原理。在这里,我们将幻灯片与其相应的基因表达谱对齐。生成的幻灯片编码器嵌入了组织的底层分子景观,因此可以用于各种下游任务。在这项工作中,我们专注于乳腺癌和肺癌的形态学亚型以及临床前药物安全性研究中的形态学病变检测。
此开源项目旨在完全从0开始,仅用3块钱成本 + 2小时!即可训练出仅为25.8M的超小语言模型MiniMind。 MiniMind系列极其轻量,最小版本体积是 GPT-3 的 1/7000,力求做到最普通的个人GPU也可快速训练。 项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调, 直接偏好强化学习(DPO
百川智能核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI顶尖人才组成。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型。2025年1月24日,百川智能发布全场景深度思考模型Baichuan-M1-preview,该模型同时具备语言、视觉和搜索三大领域推理能力,现已在百小应中正式上线。
InternVL Family: A Pioneering Open-Source Alternative to GPT-4o. 接近GPT-4o表现的开源多模态对话模型 InternVL 家族:利用开源套件缩小与商业多模态模型的差距——GPT-4o 的先驱开源替代方案 InternVL3,一个性能强大的开源多模态大模型。其中InternVL3-78B同时在感知能力和推理能力上同时达到了开源第
Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等
UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本
ChatTS专注于对时间序列的理解和推理,类似于视觉/视频/音频 MLLM 的功能。此 repo 提供了以下代码、数据集和模型ChatTS:ChatTS:通过合成数据将时间序列与 LLM 对齐,以增强理解和推理。 ChatTS原生支持任意长度和值范围的多变量时间序列数据。借助ChatTS,您可以轻松理解和推理时间序列中的 形状特征和值ChatTS特征。此外,它还可以集成到现有的 LLM 流程
DeTikZify是一款创新工具,专为科学家、学者以及任何需要创建精准数学或科学插图的人设计。它基于先进的语言模型,能够理解手绘草图或现有图片,并转换它们成为可直接用于LaTeX文档的TikZ代码,这一过程无需手动编码,大大节省了时间并提高了效率。 项目技术分析 该系统利用深度学习与蒙特卡洛树搜索(MCTS)的巧妙结合,实现智能迭代优化输出。这意味着,即使初始生成可能不完美,DeTikZi
Napkin主打简洁的AI思维记录工具,通过自动结构化与可视化功能,让想法捕捉更及时,方便用户快速迭代并与团队共享创意灵感。 Napkin诞生于前Google工程师Pramod Sharma与Jerome Scholler对商业沟通效率的革命性思考。创始团队曾成功打造儿童AI教育品牌Osmo,在长达十年的产品开发过程中,他们深刻体会到文字主导的沟通方式对创意的束缚——冗长的文档与PPT不仅降低信
苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊! 视觉语言模型的 “成长烦恼” 现在的视觉语
docext Overview ‌docext‌是一个基于视觉语言模型(VLM)的本地无结构数据提取工具,特别适用于处理各种文档,如发票、护照等。它无需传统的OCR技术,通过深度学习的视觉语言模型,能够准确识别并提取文档图像中的字段数据和表格信息‌12。 技术特点和应用场景 ‌无需OCR‌:docext利用视觉语言模
ContextGem:轻松从文档中提取 LLM ContextGem 是一个免费的开源 LLM 框架,它可以让您以最少的代码更轻松地从文档中提取结构化数据和见解。 💎 为什么选择 Contex
Lovart 全球首个设计 Agent 体验 Lovart 的三个特点: 一、全链路设计和执行,一句话搞定 以前的文生图工具,它们所提供的任务是“生成图片”这一环。 而设计 Agent,则像一位“设计执行官”,覆盖从创意拆解到专业交付的整个视觉流程。 从意图拆解 → 任务链 → 最后成品,一句话全搞定。 单次可以执行上
只显示前20页数据,更多请搜索
Showing 1 to 24 of 85 results