关键词 "Visualize space" 的搜索结果, 共 10 条, 只显示前 480 条
绘蛙AI文案是阿里巴巴推出的种草文案写作工具,支持用户通过输入商品链接或ID,提供商品卖点、人设、笔记话题等信息,绘蛙AI文案将自动生成适合商品的营销文案,如种草文案、爆文改写等,提高商品/种草笔记的吸引力和销量。绘蛙AI文案是电商从业者、达人KOL的文案创作好帮手。 绘蛙AI文案的主要功能 单商品种草:专注于为单个商品创作吸引人的推广文案,帮助提升商品的吸引力和销量。 爆文改写:提供将
视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。 Pixel R
MoonCast 是零样本播客生成系统,从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练,能生成几分钟长的播客音频,支持中文和英文。生成语音的自然性和连贯性,在长音频生成中能保持高质量。MoonCast 使用特定的LLM提示来生成播客脚本,通过语音合成模块将其转换为最终的播客音频。用户可以通过简单的命令和预训练权重快速生成播客。 MoonCast的项目地址 项目官
4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点,快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构,预测每个像素的4D高斯原语,实现空间和时间的统一表示,具有高效性和强大的泛化能力。4D-LRM在多种相机设
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址 项目官网:https:/
Gradio 是一个开源的 Python 库,简化机器学习模型的演示和共享过程。支持开发者基于简单的代码快速创建出友好的网页界面,任何人、任何地点能轻松使用机器学习模型。Gradio 支持多种输入和输出组件,如文本、图像、音频等,适用于演示、教学和原型开发。Gradio 支持服务器端渲染(SSR),使应用更快地在浏览器中加载。Gradio提供与 Hugging Face Spaces 更紧密的集成
ToonComposer 是香港中文大学、腾讯 PCG ARC 实验室和北京大学研究人员共同推出的生成式 AI 工具,几秒能将草图转化成专业级动画。ToonComposer基于生成式后关键帧技术,将传统动画制作中的中间帧生成和上色环节整合为自动化过程,仅需一个草图和一个上色参考帧,能生成高质量的动画视频。工具支持稀疏草图注入和区域控制,让艺术家能准控制动画效果,大幅减少人工工作量,提高创作效率,为
AI招聘
BodyVisualizer.org is a fitness - focused platform centered on body visualization, boasting advanced 3D technology. Function - wise, it offers real - time 3D body modeling for instant accurate body mo
PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂元素,输出结构化Markdown/
只显示前20页数据,更多请搜索
Showing 289 to 298 of 298 results