关键词 "Driver License OCR" 的搜索结果, 共 6 条, 只显示前 480 条
docext Overview ‌docext‌是一个基于视觉语言模型(VLM)的本地无结构数据提取工具,特别适用于处理各种文档,如发票、护照等。它无需传统的OCR技术,通过深度学习的视觉语言模型,能够准确识别并提取文档图像中的字段数据和表格信息‌12。 技术特点和应用场景 ‌无需OCR‌:docext利用视觉语言模
KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高
Question.AI的简介 Question.AI 是作业帮推出的AI学习助手应用,专为学生、专业人士和好奇者设计。通过简单易用的界面提供即时准确的答案,支持 140 多种语言翻译,打破语言障碍。智能写作功能可优化文本,提升写作质量。提供数学计算器功能,帮助用户解决复杂数学问题。 Question.AI的主要功能 拍照解题:用户可以通过拍摄题目照片,系统会快速识别并提供答案。 文
类似 Manus 但基于 Deepseek R1 Agents 的本地模型。 Manus AI 的本地替代品,它是一个具有语音功能的大语言模型秘书,可以 Coding、访问你的电脑文件、浏览网页,并自动修正错误与反省,最重要的是不会向云端传送任何资料。采用 DeepSeek R1 等推理模型构建,完全在本地硬体上运行,进而保证资料的隐私。 Features: 100% 本机运行:
Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的代码和预训练模型已公开,
Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型。模型基于MoE架构,融合文本、图像、音频和视频等多种模态的感知能力,具备强大的理解和生成能力。模型在多个模态基准测试中表现出色,在图像识别、视频理解、语音问答等任务上均取得优异成绩。模型支持全模态输入输出,能实现自然流畅的多模态交互,为用户提供一体化的智能体验。Ming-Lite-Omni具备高度的可扩展性,可广泛用在OCR识别、知识问
只显示前20页数据,更多请搜索
Showing 169 to 174 of 174 results