关键词 "OCR magic" 的搜索结果, 共 8 条, 只显示前 480 条
普林斯顿与复旦推出HistBench和HistAgent,首个人文AI评测基准 普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。 历史是关于时间中的人的
专注于字幕相关功能的视频播放器,例如双字幕、AI 生成字幕、实时翻译、单词查找等! LLPlayer 具有许多普通视频播放器所不具备的语言学习功能。 双字幕:可同时显示两个字幕。支持文本字幕和位图字幕。 AI 生成的字幕(ASR):由OpenAI Whisper提供支持,从任何视频和音频实时自动生成字幕。支持whisper.cpp和fastest-whisper两个引擎。 实时翻译:支
Bob是为macOS平台设计的翻译和OCR软件。Bob支持多种翻译方式,包括划词翻译、截图翻译、输入翻译等,支持10+翻译服务,如Apple翻译、Google翻译、百度翻译等。Bob具备语音朗读功能,支持朗读原文和译文。Bob的OCR功能强大,支持截图OCR、静默截图OCR、访达选图OCR等,支持离线识别、二维码识别、智能分段等功能。Bob操作便捷,基于快捷键能快速调用功能,适合在各种应用程序中使
dots.ocr 是小红书 hi lab 开源的多语言文档布局解析模型。模型基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,保持良好的阅读顺序。模型规模虽小,但性能达到业界领先水平(SOTA),在 OmniDocBench 等基准测试中表现优异,公式识别效果能与Doubao-1.5和 gemini2.5-pro 等更大规模模型相媲美,在小语种解析方面优势显著。dots.o
微软开源的一个项目 MarkItDown,这么小的一个工具获得了 7w+ star。 但它干的事儿特别朴素,把各种格式的文件(Word、PDF、Excel、PPT、图片、音频、HTML、JSON、甚至 zip 包)一键变成结构化 Markdown。 是的,保留标题、列表、表格、链接结构的那种 Markdown。 为什么我会觉得这个工具值得讲讲?因为这其实解决了一个我们常常下意识忽略的问题: 在做
Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR、教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。核心功能多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实
PaddleOCR-VL是百度飞桨团队开源的多模态文档解析模型,参数量仅0.9B,专为低算力设备优化。在国际权威评测OmnidocBench V1.5中以92.6分登顶全球第一,超越GPT-4o等主流模型。模型采用双阶段架构:PP-DocLayoutV2负责版面分析,PaddleOCR-VL-0.9B完成内容识别,支持109种语言,能精准处理表格、公式、图表等复杂元素,输出结构化Markdown/
Mathpix 是先进的光学字符识别(OCR)工具,专注于将手写或打印的数学公式、化学方程式和表格从图像和PDF文件中提取、转换为可编辑的格式,如LaTeX和Markdown。工具为学生、教师、研究人员和开发者提供强大的API和生产力应用,支持多种语言和深度STEM功能。Mathpix提供企业级的安全转换服务,及专为科研人员设计的协作编辑环境,极大地促进科学交流和文档数字化。Mathpix的官网地
只显示前20页数据,更多请搜索
Showing 289 to 296 of 296 results