关键词 "HTTP requests" 的搜索结果, 共 24 条, 只显示前 480 条
QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升在长文本场景下的推理能力。模型在多个长文本文档问答(DocQA)基准测试中表现优异,平均准确率达到了70.7%,超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型,且与Cla
Company Research Agent是基于多智能体框架的公司研究工具,支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据中收集信息,基于Gemini 2.5 Flash和GPT-4.1-mini等模型进行高语境研究综合及精确的报告格式化和编辑。工具具备AI内容过滤功能,确保信息的相关性和准确性,基于WebSocket实现实时进度流,为用户提供高效、便
Slidev 是开源的PPT制作模型,基于 Markdown + Vue 技术栈实现。工具支持用简单的 Markdown 语法创建幻灯片,支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能,提供丰富的主题和样式选项。Slidev 提供快速启动命令 npm init slidev,支持在线编辑器 sli.dev/new,无需安装软件简单易用。Slidev 的核心优势在于开发友好性和强大的交互性
TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MH
PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结构化的对话内容。PodAgent构建了多样化的声音库,用在精准匹配角色与声音,确保音频的自然度和沉浸感。PodAgent 引入基于大语言模型(LLM)的语音合成技术,生成富有表现力和情感的语音,让播客更具吸引力。PodAgent 推出了全面的评
Onit的主要功能 高亮文本自动加载:支持用户在任何应用程序中高亮选择文本,Onit自动将文本加载到聊天窗口中,无需手动复制粘贴。 自动上下文提取:Onit能自动读取当前活动窗口的内容,作为上下文加载到聊天窗口中,方便用户快速获取AI的帮助。 自由切换模型:支持用户自由切换不同的AI模型(如OpenAI、Anthropic、xAI等),根据需求选择最适合的模型。 本地模式:Onit支持
Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多个模态基准测试中表现出色,在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出,能实现自然流畅的多模态交互,为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性,可广泛用在OCR识别、知识问
Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成
幻舟AI是一站式AI短片创作平台,支持批量生成广告片、宣传片、动画片等。基于Midjourney、Runway等全球领先的AI模型,实现剧本创作、角色设计、分镜生成及视频制作的全流程服务。平台支持多种模型切换,满足不同风格和场景需求。幻舟AI高效整合创作资源,简化操作流程,提升创作效率,是影视创作者的有力工具。 幻舟AI的主要功能 剧本创作:自动生成故事剧本和分镜图,支持自定义编辑。 角
TripoSG 是 VAST-AI-Research 团队推出的基于大规模修正流(Rectified Flow, RF)模型的高保真 3D 形状合成技术, 通过大规模修正流变换器架构、混合监督训练策略以及高质量数据集,实现了从单张输入图像到高保真 3D 网格模型的生成。TripoSG 在多个基准测试中表现出色,生成的 3D 模型具有更高的细节和更好的输入条件对齐。 TripoSG的主要功能
字节跳动旗下剪映团队近期推出了一款面向短视频创作者、电商营销人员以及普通用户的视频内容创作 Agent,名为「小云雀 AI」,主打“灵感即所得,创作零门槛”。「小云雀AI」已经接入豆包和DeepSeek,目前仅安卓可下载,iOS 预计 6 月发布。 不同于传统 AI 工具仅提供一个通用输入框,「小云雀AI」先让用户明确选择场景(如智能成片、数字人视频、AI 设计、AI 换背景等),以此避免生成内
Jaaz 是开源的AI设计Agent,本地免费 Lovart 平替项目。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术,在对话中编辑图像,进行对象移除、风格转换等操作。Jaaz 提供无
Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术,结合 OpenAI GPT-4o 的搜索规划和内容生成能力,将复杂的查询分解为多个子问题,分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证(置信度 0.7 以上)、自动重试、完整引用和上下文记忆等功能,帮助用户高效地获取准确、全面的研究结果
OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种音频事件,总时长288小时,为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段:自监督的coarse-to-fine流匹配预训练,基于大规模非空间音频资源进行自监
VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,专注于提升视觉语言模型(VLMs)在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间,让模型能从粗粒度到细粒度逐步获取信息,更有效地激活模型的推理能力。VRAG-RL引入综合奖励机制,结合检索效率和基于模型的结果奖励,优化模型的检索和生成能力。在多个基准测试中,VRAG-RL显著优于现有方法,展现在视
OCode 是终端原生 AI 编程助手,为开发者提供深度代码库智能和自动任务执行功能。与本地 Ollama 模型无缝集成,将企业级 AI 辅助直接融入开发流程中。终端原生工作流,能直接在你的 shell 环境中运行;深度代码库智能,可自动映射并理解整个项目;自动任务执行,能端到端处理多步骤开发任务;可扩展的插件层,通过模型上下文协议(MCP)启用第三方集成,帮助开发者提高编程效率和质量。 OCo
DecipherIt是AI驱动的研究助手工具,基于智能化手段简化和优化研究过程。工具支持将各种主题、链接和文件转化为AI生成的研究笔记本,提供全面的总结、互动问答、音频概述、可视化思维导图及自动化的FAQ生成等功能。基于Bright Data的MCP服务器,DecipherIt突破地理限制和反爬虫检测,获取全球范围内的信息。DecipherIt是多智能体AI框架CrewAI支持高效地分析和整合来自
MoonCast 是零样本播客生成系统,从纯文本源合成自然的播客风格语音。通过长上下文语言模型和大规模语音数据训练,能生成几分钟长的播客音频,支持中文和英文。生成语音的自然性和连贯性,在长音频生成中能保持高质量。MoonCast 使用特定的LLM提示来生成播客脚本,通过语音合成模块将其转换为最终的播客音频。用户可以通过简单的命令和预训练权重快速生成播客。 MoonCast的项目地址 项目官
Food Mood 是 Google AI 推出的创意菜谱生成工具。支持用户将两种不同国家的菜系进行融合,创造出独特的食谱。用户可以根据自己的需求选择菜品类别(如前菜、主菜、甜点等)、用餐人数、添加特定食材,指定饮食偏好(如素食、无麸质等)。用户可以选择随机生成,获得灵感。生成的食谱包含详细的食材清单和制作步骤,附有精致的插图和实用的贴士建议。 Food Mood的主要功能 融合菜系:
PandaWiki 是开源的AI知识库搭建系统,基于 AI 大模型的能力,帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。核心功能包括 AI 辅助创作、AI 问答和 AI 搜索,显著提升知识管理的效率和智能化水平。PandaWiki 提供强大的富文本编辑能力,支持 Markdown 和 HTML 编辑,可导出为 Word、PDF、Markdown 等多种格式。支持与第三方应用集成,
钉钉宜搭是阿里巴巴推出的低代码应用开发平台,帮助企业快速、高效地搭建数字化业务应用。通过可视化拖拽和配置的方式,让不懂代码的业务人员也能开发出符合自身需求的应用系统,降低了开发门槛和成本。用户可以用丰富的组件库,快速构建出各类业务表单,通过自定义流程规则实现高效的业务审批和流转。宜搭具备强大的数据统计和分析能力,能帮助企业更好地进行决策支持。 钉钉宜搭的主要功能 应用可视化搭建:提供大
National Gallery Mixtape 是伦敦国家美术馆联合 Google Arts & Culture 推出的 AI 音乐实验工具。汇集了伦敦国家美术馆精选的200幅世界名画,涵盖从文艺复兴时期到现代的各种风格和主题。用户可从这些画作中最多选择6幅,拖放到指定区域,AI会分析画作的色彩、主题、情感和历史背景等元素,生成与之匹配的音乐片段。能通过调整音乐片段的音量、顺序和叠加方式
VTable: 不只是高性能的多维数据分析表格,更是行列间创作的方格艺术家!免费,开源,基于Canvas 的 百万数据秒级渲染前端表格组件库 VTable是字节跳动开源可视化解决方案 VisActor 的组件之一。 在现代应用程序中,表格组件是不可或缺的一部分,它们能够快速展示大量数据,并提供良好的可视化效果和交互体验。VTable是一款基于可视化渲染引擎VRender的高性能表格组件库,为用
小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型,在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累,并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练
只显示前20页数据,更多请搜索
Showing 265 to 288 of 382 results