关键词 "20 styles" 的搜索结果, 共 20 条, 只显示前 480 条
Qwen-Image-Edit基于我们20B的Qwen-Image模型进⼀步训练,成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。此外,Qwen-Image-Edit将输⼊图像同时输⼊到Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。如需体验最新模型,欢迎访问 Qwen Chat
Aluo AI 是专为电商卖家和内容创作者设计的 AI 图像处理平台。通过先进的 AI 技术,帮助用户在短短 30 秒内将普通产品图片转变为专业级的营销视觉内容。平台的核心功能包括高精度的背景去除、智能产品图片生成以及强大的 AI 图片编辑工具。用户无需任何设计经验或复杂软件,只需上传图片,AI 能自动识别去除背景,生成高质量的产品展示图,提供丰富的场景模板供选择。 Aluo AI的主要功能
Baichuan-M2在HealthBench上得到60.1的高分,以32B的较小尺寸不仅反超OpenAI 最新开源模型gpt-oss120b(得分57.6),更是力压Qwen3-235B、Deepseek R1、Kimi K2等当前世界所有开源大模型。 针对医疗领域用户隐私考虑下的模型私有化部署需求,我们对Baichuan-M2进行了极致轻量化,量化后的模型精度接近无损,可以在RTX409
OmniHuman-1.5 字节推出的先进的AI模型,能从单张图片和语音轨道生成富有表现力的数字人动画。模型基于双重系统认知理论,融合多模态大语言模型和扩散变换器,模拟人类的深思熟虑和直觉反应。模型能生成动态的多角色动画,支持通过文本提示进行细化,实现更精准的动画效果。OmniHuman-1.5 的动画具有复杂的角色互动和丰富的情感表现,为动画制作和数字内容创作带来全新的可能性,大大提升创作效率和
微软研究院的一个研究团队探索了使用主动式强化学习(agentic reinforcement learning)来实现这一目标,也就是说,模型会与专用工具环境中的工具进行交互,并根据收到的反馈调整其推理方式。而他们的探索成果便是 rStar2-Agent,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B 的推理模型 rStar2-Agent-14B—— 该模型达到前沿级
Generate high-quality, royalty-free music with AI. Create songs from text prompts in seconds. No musical experience required. 20 free credits daily.
上海交通大学等开源了一款半结构化表格问答工具:ST-Raptor,无需微调,准确率超GPT-4o 做文档智能、财务审核、报表自动化、医疗质控、法律合规的可以看看 它通过视觉理解、结构化解析以及语言推理,来解决复杂、不规则表格的问答问题 也就是说可以用它对Excel报表、网站上的表格以及Markdown、csv文件进行问答,比如学术表、财务报表 ST-Raptor先用VLM识别表格整体和单元格内容,
LLaSO:大型语言和语音模型中可重复研究的基础框架完全开放的语料库+基准+参考模型,用于组合语音语言理解。LLaSO-Base 在涵盖语言、语义和副语言类别的 20 项任务中获得LLaSO-Eval 的最佳标准化总体得分。???? LLaSO 是什么?LLaSO 是第一个完全开放的端到端大规模语音语言建模堆栈,在一个框架中统一数据、评估和建模。LLaSO-Align (12.0M):基于 ASR 的对
Spark Chemistry-X1-13B 是科大讯飞开源的化学专业大型语言模型。模型基于讯飞星火X1-0420大模型,经过多种化学任务数据集的微调,具备卓越的复杂化学问题解决能力,同时保持强大的通用性。模型基于新的注意力掩码机制,结合长思维链和快思考,有效防止不同推理模式之间的干扰。模型在高等知识问答、化学名称转换和分子性质预测等任务上表现出色,能助力化学科研工作的高效推进,激发跨领域创新,推
CWM(Code World Model)是 Meta 开源的一个拥有 320 亿参数的代码语言模型。它率先将“世界模型”的概念引入代码生成领域,让模型能够通过模拟代码执行过程,更深层次地理解和生成代码,而不仅仅是基于模式匹配。CWM 在多项基准测试中表现出色,例如在 Math-500 数据集上取得了 96.6% 的准确率。该模型的权重已公开,旨在推动代码生成和理解领域的研究,并帮助开发者更高效地
Loomi 是一款专为创作者设计的 AI 工具,旨在通过其独特的多智能体协作模式,覆盖内容生产的全流程。从话题洞察、受众画像到创作策略,Loomi 能够全方位地为创作者提供支持,让内容创作更高效、更具深度。该工具的核心优势在于其自研的 Nexus 情境引擎,它能构建稳固的思维网络,支持长文创作和复杂并行思考,确保创作任务清晰、步骤精准,让您不再迷失方向。Loomi 的开发团队融入了 100 多位内
GDPval 是由 OpenAI 推出的一个全新评估框架,旨在衡量 AI 模型在真实经济价值任务上的表现。该框架从对美国 GDP 贡献最大的 9 个行业中,选取了 44 种职业,设计了 1320 个贴近实际工作场景的真实任务(其中 220 个已开源)。这些任务涵盖了软件开发、法律文书、机械工程、护理计划等多个领域。每项任务都由平均拥有 14 年经验的专业人士设计和审核,确保评估结果能真实反映 AI
Vibecode 是一款专为 AI 编程开发者设计的移动应用构建平台,它能让您通过简单的自然语言描述,快速构建和部署功能完善的 React Native 移动应用。该平台提供了一个集成的开发环境,您无需 API 密钥即可使用多种 AI 工具,并能在本地即时预览和测试应用,通过 App Clip 快速分享以获取反馈。Vibecode 旨在让应用开发变得简单快捷,尤其适合初学者和非技术用户快速实现创意
Fast Wan - 闪电般快速的AI视频生成平台 Fast Wan以突破性的速度彻底改变了视频创作的方式-仅需5秒即可生成5秒的视频。采用最新的Wan 2.2和经过验证的Wan 2.1模型,通过专业级AI视频生成和卓越的质量,创建令人惊叹的视频。 主要特点: • FastWan 2.2模型 - 超快速720P视频生成,具有增强的质量和闪电般的速度 • FastWan 2.1模型
# Framepack AI:革命性的AI视频生成模型Framepack AI是一种突破性的神经网络结构,用于AI视频生成。它采用创新的“下一帧预测”技术,并结合独特的固定长度上下文压缩机制,使用户能够生成高质量、高帧率(30fps)的视频,长度可达120秒,且硬件门槛极低(仅需配备6GB VRAM的消费级NVIDIA GPU)。## Framepack AI的独特之处是什么?Framepack
RankAI – AI 营销机构从 Google、ChatGPT 等渠道获取数百万访问量为什么选择 RankAI?在服务了 100 多家企业后,我们构建了唯一一个始终如一带来成果的 AI 优先 SEO 系统。人工审核的关键词与主题策略(每月更新)每月生成 20+ 页面内容(是传统机构的 3 倍)持续改写,直到关键词排名稳定每周影响报告(不讲废话,只看结果)经验证的成果为各行业客户带来 超100万访
Percify 是强大的 AI 数字人生成平台,专注于创建逼真的虚拟形象(avatar)视频内容。用户上传一张人脸图片和音频,通过简单的文字描述,能生成具有自然表情、精准口型同步和高质量语音的无限时长视频。平台能满足从初学者到专业创作者的需求,支持高清视频导出和语音克隆等功能。Percify 适用艺术家、品牌、游戏开发者等,帮助用户快速生成高质量的虚拟形象和视频内容,提升创作效率。Percify的
Veo 3.1 是谷歌推出的最新 AI 视频生成模型,在Veo 3基础上进行了重大升级,带来更丰富的音频支持、更强的叙事控制及更逼真的质感还原。通过原生音频生成和更精细的编辑能力,Veo 3.1 让用户能直接在生成阶段完成视频创作,无需后期处理。模型支持多种输入类型,包括文本提示、图像和视频片段,能生成高质量的 720p 或 1080p 视频。Veo 3.1 的目标是简化创意生产流程,为创作者提供
TesserAct 是创新的 4D 具身世界模型,能预测 3D 场景随时间的动态演变,响应具身代理的动作。通过训练 RGB-DN(RGB、深度和法线)视频数据来学习,超越了传统的 2D 模型,能将详细的形状、配置和时间变化纳入预测中。TesserAct 的核心优势在于其时空一致性,支持新视角合成,显著提升了策略学习的性能。TesserAct的主要功能4D 场景生成:TesserAct 能生成包含
WISEPIM 将杂乱的产品数据转化为适用于销售的内容,支持无限语言和渠道。专为拥有 100 至 100,000 件产品的电商企业打造。传统的 PIM 只是存储数据,WISEPIM 则提升数据质量。我们的 AI 自动撰写描述,修正供应商错误,翻译内容,并即时更新成千上万的产品。生成经过 SEO 优化且具有转化力的内容。零售商的转化率提升 30%,退货率降低 41%。翻译机构每种语言每件产品收费 1
只显示前20页数据,更多请搜索
Showing 361 to 380 of 380 results