关键词 "Still frame extraction" 的搜索结果, 共 22 条, 只显示前 480 条
Web Search tools are a series of tools that allow Claude to acces de internet via MCP Server
This is a simple MCP Server Framework that enables data to be passed through a structured messaging protocol, allowing seamless communication between clients and servers. It supports efficient data ex
Mirror of
A server using FastMCP framework to generate images based on prompts via a remote Comfy server.
MCP server for analyzing claims, validating sources, and detecting manipulation using multiple epistemological frameworks
MCP-Server tool use project concept for Claude and compatible AI.
An MCP server that provides safe access to your iMessage database through Model Context Protocol (MCP). This server is built with the FastMCP framework and the imessagedb library, enabling LLMs to que
An MCP server that provides safe, read-only access to SQLite databases through Model Context Protocol (MCP). This server is built with the FastMCP framework, which enables LLMs to explore and query SQ
mcp server connected to us treasury data, built with mcp-framework
GUARDRAIL - MCP Security - Gateway for Unified Access, Resource Delegation, and Risk-Attenuating Information Limits
This project is a Java-based UI automation framework that integrates with Appium and utilizes LLMs (like Claude) to drive intelligent test actions on mobile devices and simulators.
前端实现搜索文本高亮的技术,十分简单易用,明了. mark.js 是一个用 JavaScript 编写的文本高亮器。它可以用来动态标记搜索词或自定义正则表达式,并提供一些内置选项,例如变音符号支持、单词搜索、自定义同义词、iframe 支持、自定义过滤器、精度定义、自定义元素、自定义类名等等。
FramePack 是一个渐进式生成视频的下一帧(下一帧部分)预测神经网络结构。 FramePack 将输入上下文压缩为恒定长度,以便生成工作量不受视频长度的影响。 即使在笔记本电脑 GPU 上,FramePack 也可以使用 13B 模型处理大量帧。 FramePack 可以使用更大的批量大小进行训练,类似于图像扩散训练的批量大小。
Lovart 全球首个设计 Agent 体验 Lovart 的三个特点: 一、全链路设计和执行,一句话搞定 以前的文生图工具,它们所提供的任务是“生成图片”这一环。 而设计 Agent,则像一位“设计执行官”,覆盖从创意拆解到专业交付的整个视觉流程。 从意图拆解 → 任务链 → 最后成品,一句话全搞定。 单次可以执行上
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
🚀🤖 Crawl4AI:开源 LLM 友好型网络爬虫和抓取工具。 Crawl4AI 是 GitHub 上排名第一的热门代码库,由充满活力的社区积极维护。它提供速度超快、AI 就绪的 Web 爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活,专为实时性能而构建,为开发者提供无与伦比的速度、精度和部署便捷性。 ✨ 查看最新更新 v0.6.0 🎉 0.6.
Devstral是Mistral AI和All Hands AI推出的专为软件工程任务设计的编程专用模型。Devstral在解决真实世界软件问题上表现出色,在SWE-Bench Verified基准测试中,得分46.8%大幅领先其他开源模型。Devstral支持处理复杂代码库中的上下文关系、识别组件间联系及发现细微的代码错误。Devstral轻量级,能在单个RTX 4090或32GB内存的Mac上
fellou开源智能体工作流框架,Eko 2.0 在不同复杂程度上始终表现优异: 简单任务:成功率为 95%(其他产品的成功率为 80-90%) 平均成功率:78%(其他产品成功率为 56-61%) 中等复杂度:成功率为 76%(其他产品的成功率为 49-58%) 困难任务:成功率为 70%(其他产品的成功率为 32-43%) 这些数字背后隐藏着不可靠的自动化工具和企业真正可以依
视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。 Pixel R
概述 LandingAI Agentic 文档提取API 从视觉复杂的文档(如表格、图片和图表)中提取结构化数据,并返回具有精确元素位置的分层 JSON。 这个 Python 库包装了该 API 以提供: 长文档支持——一次调用即可处理 100 多页 PDF 自动重试/分页——处理并发、超时和速率限制 辅助实用程序——边界框代码片段、可视化调试器等 特征
Todai 是AI个人情绪健康助手,通过智能日记、语音/文本记录和幸福生活指数(HLI)动态追踪,帮助用户了解自身情绪模式,发现变化规律,提供科学支持的实用工具(如正念练习、目标设定等)实现情绪平衡和幸福感提升。由心理学家和认知行为专家参与开发,确保方法专业有效,支持用户随时随地获得个性化的全天候支持,无需等待或担心评判。 Todai的主要功能 AI 情绪日记:随时用文字或语音记录当下
MirageLSD 是 Decart AI 团队推出的全球首个 Live-Stream Diffusion(实时流扩散)AI 视频模型,能实现无限时长的实时视频生成,延迟低至 40 毫秒以内,支持 24 帧/秒的流畅输出。通过 Diffusion Forcing 技术和历史增强训练,解决了传统自回归模型在长时间生成中的误差累积问题,实现了视频的无限生成。基于Hopper 优化的 Mega Kern
只显示前20页数据,更多请搜索
Showing 433 to 454 of 454 results