关键词 "http" 的搜索结果, 共 24 条, 只显示前 480 条
Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍塌问题,显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色,在GPTEval3D基准测试中取得优异的定量结果,证明了在生成高质量、多样化3D资产方面的强大能力。 Dive3D的项目
Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练,逐步嵌入医学专业知识,显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本,其中32B版本在多个医学多模态问答任务中超越GPT-4.1等专有模型。Lingsh
CreateVision AI 是AI图像生成平台,平台融合 Flux.1 Dev 和 GPT-Image-1 两大顶级模型,为用户提供开源与闭源技术路线的极致体验。平台支持用户将创意想法瞬间转化为高质量图像,轻松生成逼真照片、卡通、插画和抽象艺术。支持样式、颜色、光照、构图的 4D 精准控制,满足专业创作需求。CreateVision AI 生成的图像能用在商业用途,无数量限制。 官方网站:h
Miniwork是高效的AI工具平台,聚焦提升工作、学习、内容创作、运营营销等多个方向,专为提升工作与学习效率的用户打造。Miniwork涵盖SEO分析及优化、写作辅助、图像生成、PDF处理、营销策划及运营管理等多元化AI工具,通过前沿技术集成包括GPT-4o、Claude 3.7 sonnet、Gemini 1.5 Flash、Llama 3.1、DeepSeek-R1、GLM-4-plus等在
Gemini CLI 是谷歌开源的 AI Agent,将 Gemini 大模型融入开发者终端。Gemini CLI提供强大 AI 功能,如代码理解、文件操作、命令执行及动态排查问题,助力开发者高效编写代码、修复错误、构建功能和迁移代码。Gemini CLI内置谷歌搜索,支持 MCP 协议,支持扩展数千功能,Gemini CLI支持用户定制提示和指令,能集成到脚本中实现自动化任务。Gemini CL
AlphaGenome是谷歌DeepMind推出的全新AI模型,能更深入地理解基因组。模型能接收长达100万个碱基对的DNA序列输入,预测数千种表征其调控活性的分子特性,评估基因变异的影响。模型基于卷积层、Transformer架构,训练数据来自大型公共数据库。模型具有长序列上下文与高分辨率、全面多模态预测、高效变异评分和新颖剪接点建模等优势,在多项基准测试中表现顶尖,基于API向非商业研究领域开
DAMO GRAPE是浙江省肿瘤医院与阿里巴巴达摩院联合推出的全球首个基于平扫CT识别早期胃癌的AI模型。DAMO GRAPE突破传统影像学限制,基于深度学习分析非增强CT影像,实现对胃癌的高效筛查。在大规模临床研究中,DAMO GRAPE展现出85.1%的敏感性和96.8%的特异性,显著优于人类放射科医生。模型能提前6个月发现早期胃癌病灶,为胃癌的早期诊断和治疗提供新的高效手段,有望大幅提高胃癌
AiBiao 是基于大语言模型技术的AI图表处理工具,通过自然语言交互帮助用户高效完成数据处理和分析工作。支持用户通过对话的方式进行数据查询、清洗、合并、计算和分析,无需复杂的公式或代码,大大降低了数据处理的门槛。AiBiao 具备“一句话生成图表”的功能,用户只需简单描述需求,可快速生成多种类型的图表,可以智能联网搜索数据填充表格。 AiBiao的主要功能 智能数据对话:用户可以通过自然
QuickCreator是为中国出海企业推出的AI SEO写作工具。基于AI技术,能快速生成高质量、符合搜索引擎优化标准的内容,涵盖博客、落地页等多种形式。工具操作简单,提供如关键词框架搭建、自动插入外部引用等实用功能,支持一键导出至WordPress。QuickCreator帮助用户用更低的成本和更短的时间完成SEO工作,显著提升网站自然流量和搜索引擎排名,是出海企业提升内容创作效率和营销效果的
MultiAgentPPT 是多智能体演示文稿生成系统,基于 A2A(Ask-to-Answer)、MCP(Multi-agent Control Protocol)和 ADK(Agent Development Kit)架构。MultiAgentPPT 基于多Agent协作和流式并发机制,从用户输入的主题自动生成高质量的 PPT 内容。系统包括大纲生成、主题拆分、并行调研和内容汇总等步骤,具备多
Doppl是谷歌推出的实验性应用,基于AI技术帮助用户虚拟试穿服装。用户上传全身照片后,支持将服装照片或截图“穿”在数字版自己身上,Doppl能将静态图片转换为AI生成的视频,让用户更真切地感受服装上身效果。应用已在美国地区的iOS和安卓平台上线,帮助用户探索穿搭风格。 官网地址:https://labs.google/doppl/
Bob是为macOS平台设计的翻译和OCR软件。Bob支持多种翻译方式,包括划词翻译、截图翻译、输入翻译等,支持10+翻译服务,如Apple翻译、Google翻译、百度翻译等。Bob具备语音朗读功能,支持朗读原文和译文。Bob的OCR功能强大,支持截图OCR、静默截图OCR、访达选图OCR等,支持离线识别、二维码识别、智能分段等功能。Bob操作便捷,基于快捷键能快速调用功能,适合在各种应用程序中使
智声云配(DubbingX) 是 AI 智能配音工具,提供语音合成(TTS)、音色迁移、歌声转换等多种功能。工具支持中文、英文、日文、粤语等多语言,拥有近2500种情绪语态,支持高度定制,满足游戏、影视、动漫、有声书等多场景需求。工具音色版权合规,支持商用,能显著降低配音成本。智声云配结合专业高校和全球配音演员资源,致力于为用户提供高质量、多样化的音频解决方案。 智声云配官网:https://d
迅雷MCP是迅雷推出的创新服务,将AI与数字内容下载深度融合。用户只需在支持该服务的AI应用(如纳米AI、扣子空间等)中发出指令,AI能自动找到所需资源启动下载。迅雷MCP支持PC版迅雷和NAS迅雷,打破传统下载模式,让智能下载更高效便捷。目前所有用户均可免费使用,基于简单的配置,享受AI带来的下载便利,让每一次资源获取快人一步。 迅雷MCP管理主页:https://pan.xunlei.com
4D-LRM(Large Space-Time Reconstruction Model)是Adobe研究公司、密歇根大学等机构的研究人员共同推出的新型4D重建模型。模型能基于稀疏的输入视图和任意时间点,快速、高质量地重建出任意新视图和时间组合的动态场景。模型基于Transformer的架构,预测每个像素的4D高斯原语,实现空间和时间的统一表示,具有高效性和强大的泛化能力。4D-LRM在多种相机设
Rosebud是AI驱动的在线心理健康日记应用,基于互动式日记、习惯养成和情感支持等功能,帮助用户快速改善心理健康。用户能记录日常情绪、设定目标并获得实时反馈。Rosebud的AI技术能识别长期行为模式,为用户提供深度报告和个性化建议。Rosebud提供隐私保护,确保用户数据安全。Rosebud是日记应用,更是心理健康工具,适合希望用低成本改善心理健康的用户。 Rosebud的主要功能 互
FLUX.1 Kontext 是由 Black Forest Labs 推出的图像生成与编辑模型,支持上下文感知的图像处理。模型基于文本和图像提示进行生成与编辑,支持对象修改、风格转换、背景替换、角色一致性保持和文本编辑等多种任务。FLUX.1 Kontext Pro版本支持快速迭代图像编辑,能在多次编辑中保持图像质量和角色特征稳定。。Kontext Max版本在提示词遵循、排版生成和编辑一致性方
ComputerX是基于人工智能的AI Agent工具,通过自然语言指令帮助用户自动化处理各种计算机任务,提升工作效率。能处理多种任务,如旅行规划、数据分析、报告生成、网页应用创建等,支持文本、表格、图像和代码等多种输出格式。ComputerX基于 AI 技术整合来自多个在线来源的信息,提供全面且准确的结果,保持任务执行过程的透明性。 ComputerX的官网地址 官网地址: https:
Voxiyo是AI语音笔记管理应用,帮助用户高效记录、整理和利用语音信息。基于强大的 AI 功能,将语音笔记转化为文字、摘要、关键点和待办事项,实现一键生成和管理。用户可以与语音笔记进行交互式对话,通过语音指令获取笔记的总结、关键信息或任务安排,AI 会自动帮助整理和回忆内容。 Voxiyo的官网地址 官网地址:https://voxiyo.com/ 苹果AppStore应用商店:htt
MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不同病症表现,通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%,具备良好的泛化能力,可应用于不同LLM基模型。MedRAG支持多模态输入,能实时解析症状并生成精准诊断建议。 MedRAG的主要功能
文本到图像的扩散模型的最新进展已取得显著成功,但它们往往难以完全捕捉用户的意图。现有的使用文本输入结合边界框或区域蒙版的方法无法提供精确的空间引导,常常导致对象方向错位或意外。为了解决这些限制,我们提出了涂鸦引导扩散(ScribbleDiff),这是一种无需训练的方法,它利用用户提供的简单涂鸦作为视觉提示来引导图像生成。然而,将涂鸦纳入扩散模型存在挑战,因为涂鸦具有稀疏和单薄的特性,很难确保准确的
Mysite.ai 是专为小型企业设计的AI网站构建器。基于简单的AI驱动的方式帮助用户快速创建网站。用户只需回答一些问题,AI 快速生成网站的初始版本,支持用户在此基础上进行调整和修改。工具操作简单,让没有技术背景的用户也能轻松上手。与传统网站构建工具相比,Mysite.ai 更加直观,能快速生成专业外观的网站,节省时间和精力。 Mysite.ai的官网地址 官网地址:https://m
FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(MLLM)进行故事规划,基于风格传播适配器将角色的视觉风格应用到背景中,用 3D Agent重建角色生成真实的运动序列,基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色,为个性化
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现对多种生成任务的统一处理。优势在于开源免费、高性能以及强大的上下文生成能力,适用于商业、创意设计和研究开发等场景。 OmniGen2的项目地址 项目官网:https:/
只显示前20页数据,更多请搜索
Showing 265 to 288 of 325 results