关键词 "OpenAI token counter" 的搜索结果, 共 24 条, 只显示前 480 条
IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特
BetterYeah AI是一个企业级AI智能体平台,通过简化AI Agent的开发流程,使企业能快速构建和部署AI应用。平台的核心产品能力包括零代码搭建Agent、一站式模型集成、知识库管理、数据库连接、可视化工作流(Flow)、丰富的官方插件(Plugin)、多模态ChatBot支持以及简单的开发运维工具。 BetterYeah AI的主要功能 零代码搭建Agent:允许用户无需编写代
HealthBench是OpenAI推出的开源医疗测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话,用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境(如紧急情况、临床数据转换、全球健康)和行为维度(如准确性、指令遵循、沟通)。HealthBench能衡量模型的整体表现,按主题(如紧急
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 1. Introduction Have you notice
VoiceCanvas 是开源的多语言语音合成平台。基于 AI 技术提供高质量的文字转语音服务,支持超过 50 种语言,集成 OpenAI TTS、AWS Polly 和 MiniMax 等多种语音服务。VoiceCanvas 提供个人声音克隆功能,用户上传几秒音频样本能创建个性化声音。VoiceCanvas适合内容创作者、教育工作者和企业用户,显著提升语音内容制作效率。 VoiceCanvas
Codex 是一款支持并行处理多个任务的云端编程 Agent,能够提供如编程功能、回答代码库的问题、修复错误等功能。 Codex 基于 codex-1 模型驱动,OpenAI 方面表示这一模型由 o3 模型针对编程进行优化而得来。codex-1 通过强化学习在各种环境中,对现实世界的编码任务进行训练,从而能够生成接近人类风格和 PR 偏好的代码。 在 OpenAI 自己的代码评估和内部
卡内基梅隆大学的研究团队开发出一款名为 LegoGPT 的 AI 模型,能够根据文字指令生成可实际搭建的乐高设计。 比如输入文本「基本款沙发」,一眨眼的功夫,乐高沙发就拼好了。 团队训练了一种自回归大型语言模型,通过预测下一个 token 的方式,判断下一块该放置什么积木。团队还为模型增加了有效性校验和带有物理感知的回滚机制,确保生成的设计不会出现积木重叠或悬空等问题,也就是说最终结果始终可行
类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品,它是一个具有语音功能的大语言模型秘书,可以 Coding、访问你的电脑文件、浏览网页,并自动修正错误与反省,最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建,完全在本地硬体上运行,进而保证资料的隐私。 Features: 100% 本机运行:
flowith 团队推出了其最新的 AI 智能体产品Agent Neo。是世界首个可以支持无限步骤・无限上下文・无限工具的 AI Agent。 据称,Agent Neo 具备处理无限工作流步骤的能力,支持长时间云端执行,并拥有嵌套代理层级结构。用户还可以通过其知识市场将专业知识变现。 官方演示展示了通过单一提示生成完整游戏设计文档的案例,并强调其能够处理超过 1000 个逻辑步骤,7
昆仑万维面向全球市场,同步发布天工超级智能体(Skywork Super Agents)。这款产品采用了AI agent架构和deep research技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。它具有强大的deep research能力,在GAIA榜单上排名全球第一,超过了OpenAI Deep Research和Manus。 天工超级智能体(Skywo
Graphiti 是一个用于构建和查询时序感知知识图谱的框架,专为在动态环境中运行的 AI 代理量身定制。与传统的检索增强生成 (RAG) 方法不同,Graphiti 持续将用户交互、结构化和非结构化企业数据以及外部信息集成到一个连贯且可查询的图中。该框架支持增量数据更新、高效检索和精确的历史查询,无需完全重新计算图谱,因此非常适合开发交互式、情境感知的 AI 应用程序。 使用 Graphiti
BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,其中70亿为活跃参数。采用混合变换器专家架构(MoT),通过两个独立编码器分别捕捉图像的像素级和语义级特征。BAGEL遵循“下一个标记组预测”范式进行训练,使用海量多模态标记数据进行预训练,包括语言、图像、视频和网络数据。在性能方面,BAGEL在多模态理解基准测试中超越了Qwen2.5-VL和InternVL-2.5等顶级开源视觉语言模型
ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格式,方便后续处理和存储。 Sc
II-Agent:一个用于构建和部署智能体的全新开源框架。II-Agent 是一款开源智能助手,旨在简化和增强跨领域的工作流程。它代表了我们与技术互动方式的重大进步——从被动工具转变为能够独立执行复杂任务的智能系统。作为简易的COZE,Dify平替。 ii-agent开源框架,擅长构建跨多个领域工作流的Agent,能独立执行复杂任务已是Agent标配 其技能覆盖研究与核查、内容生成、数据分析可视
Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具,可以自动完成各种在线任务,如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent(CUA)的新模型驱动,模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页,使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段,仅对美国的Cha
FinRobot是一个超越 FinGPT 范畴的 AI 代理平台,是专为金融应用精心设计的综合解决方案。它集成了多种 AI 技术,超越了单纯的语言模型。这种广阔的视野凸显了平台的多功能性和适应性,能够满足金融行业的多方面需求。 AI代理的概念:AI代理是一种智能体,它使用大型语言模型作为大脑来感知环境、做出决策并执行动作。与传统的人工智能不同,AI代理具有独立思考和利用工具逐步实现既定目标的能力
LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎,运行必要的测试,节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能,直
QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升在长文本场景下的推理能力。模型在多个长文本文档问答(DocQA)基准测试中表现优异,平均准确率达到了70.7%,超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型,且与Cla
TokenSwift 是北京通用人工智能研究院团队推出的超长文本生成加速框架,能在90分钟内生成10万Token的文本,相比传统自回归模型的近5小时,速度提升了3倍,生成质量无损。TokenSwift 通过多Token生成与Token重用、动态KV缓存更新以及上下文惩罚机制等技术,减少模型加载延迟、优化缓存更新时间并确保生成多样性。支持多种不同规模和架构的模型,如1.5B、7B、8B、14B的MH
Onit的主要功能 高亮文本自动加载:支持用户在任何应用程序中高亮选择文本,Onit自动将文本加载到聊天窗口中,无需手动复制粘贴。 自动上下文提取:Onit能自动读取当前活动窗口的内容,作为上下文加载到聊天窗口中,方便用户快速获取AI的帮助。 自由切换模型:支持用户自由切换不同的AI模型(如OpenAI、Anthropic、xAI等),根据需求选择最适合的模型。 本地模式:Onit支持
Jaaz 是开源的AI设计Agent,本地免费 Lovart 平替项目。具备强大的 AI 设计能力,能智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。用户可以通过 GPT-4o、Flux Kontext 等技术,在对话中编辑图像,进行对象移除、风格转换等操作。Jaaz 提供无
Firesearch 是 Mendable AI 团队推出的 AI 驱动的深度研究工具。基于 Firecrawl 多源网络内容提取技术,结合 OpenAI GPT-4o 的搜索规划和内容生成能力,将复杂的查询分解为多个子问题,分别进行搜索和内容提取。Firesearch 支持实时进度更新、答案验证(置信度 0.7 以上)、自动重试、完整引用和上下文记忆等功能,帮助用户高效地获取准确、全面的研究结果
小红书hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源文本大模型 dots.llm1。 dots.llm1是一个中等规模的Mixture of Experts (MoE)文本大模型,在较小激活量下取得了不错的效果。该模型充分融合了团队在数据处理和模型训练效率方面的技术积累,并借鉴了社区关于 MoE 的最新开源成果。hi lab团队开源了所有模型和必要的训练
只显示前20页数据,更多请搜索
Showing 433 to 456 of 463 results