关键词 "PDF parsing" 的搜索结果, 共 24 条, 只显示前 480 条
A suite of Model Context Protocol (MCP) servers designed to enhance AI agent capabilities. Provides tools for media search/understanding (images, video), web information retrieval, PDF generation, and
An MCP server built with Node.js/TypeScript that allows AI agents to securely read PDF files (local or URL) and extract text, metadata, or page counts. Uses pdf-parse.
MCP server for analyzing PDFs and recommending study problems
A MCP server that supports mainstream eBook formats including EPUB, PDF and more. Simplify your eBook user experience with LLM.
Baidu Search MCP Server I A Model Context Protocol (MCP) server that provides web search capabilities through Baidu, with additional features for content fetching and parsing.
MCP server that extracts text content from webpages, YouTube videos, and PDFs for LLMs to use.
A MCP Server for pdffigures2: This server processes scholarly PDFs to extract figures, tables, captions, and section titles with high accuracy. It is designed to support researchers and developers in
This MCP server lets AI assistants access and search your private documents, codebases, and latest tech info. It processes Markdown, text, and PDFs into a searchable database, extending AI knowledge b
A Model Context Protocol (MCP) server that provides web search capabilities through DuckDuckGo, with additional features for content fetching and parsing.
An MCP server extension for Zed that retrieves relevant pieces from a PDF file
⚙️ A Model Context Protocol (MCP) server for accessing Amazon S3 buckets. This server provides seamless integration with S3 storage through MCP, allowing efficient handling of large files including PD
OCRmyPDF 为扫描的 PDF 文件添加光学字符识别 (OCR) 文本层,以便于搜索。 PDF 是存储和交换扫描文档的最佳格式。遗憾的是,PDF 格式的修改可能比较困难。OCRmyPDF 可以轻松地将图像处理和 OCR(可识别、可搜索的文本)应用于现有 PDF。 OCRmyPDF 是一款 Python 应用程序和库,它为 PDF 中的图像添加文本“图层”,使扫描的图像 PDF 可搜索。
Stirling-PDF是一款基于 Docker 的本地托管、功能强大的 Web PDF 处理工具。它支持您对 PDF 文件执行各种操作,包括拆分、合并、转换、重组、添加图像、旋转、压缩等等。这款本地托管的 Web 应用程序功能强大,功能全面,可满足您所有的 PDF 需求。 所有文件和 PDF 要么仅存在于客户端,要么仅在任务执行期间驻留在服务器内存中,要么仅在任务执行期间临时驻留在某个文件
苹果 FastVLM 的模型让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊! 视觉语言模型的 “成长烦恼” 现在的视觉语
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3
DreamFit是什么 DreamFit是字节跳动团队联合清华大学深圳国际研究生院、中山大学深圳校区推出的虚拟试衣框架,专门用在轻量级服装为中心的人类图像生成。框架能显著减少模型复杂度和训练成本,基于优化文本提示和特征融合,提高生成图像的质量和一致性。DreamFit能泛化到各种服装、风格和提示指令,生成高质量的人物图像。DreamFit支持与社区控制插件的无缝集成,降低使用门槛。 Dre
TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,提出解决方案。TinyVLA基于轻量级的多模态模型和扩散策略解码器,显著提高推理速度,减少对大规模数据集的依赖。模型在模拟和真实机器人平台上经过广泛测试,证明在速度、数据效率以及多任务学习和泛化能力方面优于现有的先进模型OpenVLA。T
IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特
FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱动视频,或作为插件与任何地
WorldMem 是南洋理工大学、北京大学和上海 AI Lab 推出的创新 AI 世界生成模型。模型基于引入记忆机制,解决传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中,智能体在多样化场景中自由探索,生成的世界在视角和位置变化后能保持几何一致性。WorldMem 支持时间一致性建模,模拟动态变化(如物体对环境的影响)。模型在 Minecraft 数据集上进行大规模训练,在真实
Being-M0 基于业界首个百万级动作数据集 MotionLib,用创新的 MotionBook 编码技术,将动作序列转化为二维图像进行高效表示和生成。Being-M0 验证了大数据+大模型在动作生成领域的技术可行性,显著提升动作生成的多样性和语义对齐精度,实现从人体动作到多款人形机器人的高效迁移,为通用动作智能奠定基础。 Being-M0的主要功能 文本驱动动作生成:根据输入的自然语言
MSQA(Multi-modal Situated Question Answering)是大规模多模态情境推理数据集,提升具身AI代理在3D场景中的理解与推理能力。数据集包含251K个问答对,覆盖9个问题类别,基于3D场景图和视觉-语言模型在真实世界3D场景中收集。MSQA用文本、图像和点云的交错多模态输入,减少单模态输入的歧义。引入MSNN(Multi-modal Next-step Navi
HealthBench是OpenAI推出的开源医疗测试基准,用在评估大型语言模型(LLMs)在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话,用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境(如紧急情况、临床数据转换、全球健康)和行为维度(如准确性、指令遵循、沟通)。HealthBench能衡量模型的整体表现,按主题(如紧急
只显示前20页数据,更多请搜索
Showing 385 to 408 of 452 results