关键词 "编码" 的搜索结果, 共 24 条, 只显示前 480 条
Being-M0 基于业界首个百万级动作数据集 MotionLib,用创新的 MotionBook 编码技术,将动作序列转化为二维图像进行高效表示和生成。Being-M0 验证了大数据+大模型在动作生成领域的技术可行性,显著提升动作生成的多样性和语义对齐精度,实现从人体动作到多款人形机器人的高效迁移,为通用动作智能奠定基础。 Being-M0的主要功能 文本驱动动作生成:根据输入的自然语言
DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块,基于情感库捕获不同情感之间的关系,提升情感生成的准确性和多样性。框架设计情感判别目标,基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明,DICE-Talk在情感准确性、对口型和视觉质量方面均优于
Sketch2Anim 是爱丁堡大学联合Snap Research、东北大学推出的自动化框架,能将2D草图故事板直接转换为高质量的3D动画。基于条件运动合成技术,用3D关键姿势、关节轨迹和动作词精确控制动画的生成。框架包含两个核心模块,多条件运动生成器和2D、3D神经映射器。Sketch2Anim能生成自然流畅的3D动画,支持交互式编辑,极大地提高动画制作的效率和灵活性。 Sketch2Anim
Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。具备影视级视频生成质量,能精细控制人物外貌、衣着、表情动作等细节,支持360度环绕、航拍、变焦等多种运镜技术,生成的视频画质细腻、美感十足。模型广泛用在电商广告、娱乐特效、影视创作、动态壁纸等领域,能有效降低制作成本和周期。
KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
腾讯云自研自研的腾讯云代码助手(Tencent Cloud CodeBuddy,以下简称CodeBuddy),就是一款开发编程提效辅助工具,基于腾讯混元 + DeepSeek双轮模型驱动,构建对开发者友好,好用易用的代码助手,为开发者提供AI技术问答、Craft软件编码智能体、智能代码补全、单元测试、智能评审、代码修复等Agent智能体拓展能力,兼容MCP开放生态,并可支持团队知识库管理、自定义智
疾病领域:神经科学和代谢疾病 近期融资:C轮融资4亿美元 最新消息:与礼来公司合作,推进包括MASLD在内的代谢疾病的新型治疗方法 通过生成与患者数据一致的高通量功能基因组数据集,并通过新颖的机器学习方法解读这些数据,insitro 构建了能够加速靶点选择和有效疗法设计的预测模型。这项人工智能辅助药物研发为 insitro 的研发管线奠定了基础,该管线涵盖神经科学和代谢疾病领域的候选
专长:RNA 疗法的基因洞察。Deep Genomics 利用人工智能解码基因组数据,并识别 RNA 疗法的靶点。其专有平台 SPIDEX 已为罕见遗传疾病的治疗开发出有前景的候选药物。Deep Genomics 在利用人工智能设计下一代 RNA 药物方面处于领先地位。 2015年,Brendan Frey与Hannes Bretschneider等人成立了Deep Genomics。公司有20
Terray Therapeutics 拥有一批高质量的实验数据,想要进一步训练自己的小分子化学基础模型,用生成式 AI 来解决复杂的药物发现问题,但稀缺的计算资源是他们面临的一大障碍。英伟达承诺,将为 Terray 提供 NVIDIA DGX™ Cloud 平台,利用 NVIDIA AI 软件堆栈和 NVIDIA 的全栈计算专业知识,协助 Terray 优化和扩展其基础模型的开发。
Codex 是一款支持并行处理多个任务的云端编程 Agent,能够提供如编程功能、回答代码库的问题、修复错误等功能。 Codex 基于 codex-1 模型驱动,OpenAI 方面表示这一模型由 o3 模型针对编程进行优化而得来。codex-1 通过强化学习在各种环境中,对现实世界的编码任务进行训练,从而能够生成接近人类风格和 PR 偏好的代码。 在 OpenAI 自己的代码评估和内部
类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品,它是一个具有语音功能的大语言模型秘书,可以 Coding、访问你的电脑文件、浏览网页,并自动修正错误与反省,最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建,完全在本地硬体上运行,进而保证资料的隐私。 Features: 100% 本机运行:
谷歌推出了名为 Jules 的 AI 编程代理 (Coding Agent),目前处于公开 Beta 测试阶段,需要申请,用户可以免费使用。 Jules 旨在帮助开发者修复错误、更新依赖、迁移代码和添加新功能。它与 GitHub 集成,异步执行任务。用户分配任务后,Jules 会在虚拟机中创建开发环境、安装依赖、编写测试、进行更改、运行测试并提交拉取请求,同时展示工作进展。 简单来说,它能
英纬达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。物理 AI 的应用领域包括机器人和自动驾驶车辆等,需要具备常识推理能
谷歌宣布开源全新医疗 AI 模型 ——MedGemma。这款基于 Gemma3架构的模型专为医疗领域设计,具备强大的多模态图像和文本理解能力,旨在提升医疗诊断与治疗效率。 MedGemma 提供两种配置选项,分别为4B 和27B 参数模型。4B 参数模型主要用于医疗图像的分类和解读,能够生成详细的诊断报告或回答与图像相关的问题;而27B 参数模型则专注于处理临床文本,特别适合于患者分诊和决策辅助
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调“氛围编码”(Vibe Coding),通过持续的用户反馈和编译器反馈来迭代优化代码。AutoBE 结合瀑布模型和螺旋模型的优点,确保代码的可靠性和安全性。 AutoBE的主要功能 需求分析(An
mPLUG-Owl3是阿里巴巴推出的通用多模态AI模型,专为理解和处理多图及长视频设计。在保持准确性的同时,显著提升了推理效率,能在4秒内分析完2小时电影。模型采用创新的Hyper Attention模块,优化视觉与语言信息的融合,支持多图场景和长视频理解。mPLUG-Owl3在多个基准测试中达到行业领先水平,其论文、代码和资源已开源,供研究和应用。 mPLUG-Owl3的主要功能 多
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,
FaceAge是一款AI人脸识别扫描模型,它通过数万张患者照片和公共图像数据库进行训练,能够精准判断个人衰老迹象。 模型描述 FaceAge 深度学习流程包括两个阶段:面部定位和提取阶段,以及带有输出线性回归器的特征嵌入阶段,可提供生物年龄的连续估计。 第一阶段通过在照片中定位人脸并在其周围定义一个边界框来预处理输入数据。然后对图像进行裁剪、调整大小,并在所有 RGB 通道上对像
Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气候变化和极端天气事件提
Pocket Flow 是极简的 LLM(大型语言模型)框架,仅用 100 行代码实现。具有轻量级、无依赖、无厂商锁定的特点。Pocket Flow支持多Agents、工作流、检索增强生成(RAG)等强大功能,帮助开发者快速构建基于 LLM 的应用程序。基于Agentic Coding范式,AI Agents协助开发,大幅提升开发效率。Pocket Flow 适合希望用极简方式开发 LLM 应用的
HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染(约155 FPS),为数
RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑,支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对,结合真实视频和3D渲染数据,在预训练的图像照明编辑扩散框架(IC-Light)基础上,插入可
只显示前20页数据,更多请搜索
Showing 25 to 48 of 53 results