Qianfan-VL – 百度开源的视觉理解模型

Qianfan-VL – 百度开源的视觉理解模型

访问网站

Qianfan-VL 是百度智能云千帆专为企业级多模态应用场景打造的视觉理解大模型。它提供 3B、8B 和 70B 三种尺寸,不仅具备出色的通用能力,还针对 OCR教育等垂直领域进行了专项强化。该模型基于开源模型,并在百度自研的昆仑芯 P800 上完成了全流程计算任务,展现出卓越的性能和效率。

核心功能

  • 多尺寸模型:提供从轻量级到大规模的三种版本,满足不同企业和开发者的需求,适用于各种场景,从端上实时处理到复杂的推理计算都能胜任。
  • 强化 OCR 与文档理解:模型具备强大的全场景 OCR 识别能力,能精准识别手写体、数学公式和自然场景文字,并能对卡证票据信息进行结构化提取。其复杂文档版面理解能力突出,可自动分析版面元素,精准解析表格和图表,支持智能问答与结构化解析。
  • 思考与推理能力:8B 和 70B 模型能通过特殊 token 激活思维链能力,处理复杂的图表理解、视觉推理和数学解题任务。它能结合视觉信息和外部知识进行组合推理,并提供清晰的解题思路和步骤。
  • 通用能力:在物体识别、图像描述和视觉问答等通用多模态任务中表现出色,支持中英文混合理解,具备良好的跨模态对齐能力,为多样化的智能应用提供有力支持。

技术原理

Qianfan-VL 的强大能力源于其先进的技术架构和训练策略:

  • 多模态架构:3B 模型基于 Qwen2.5 架构,8B 和 70B 模型则基于 Llama 3.1 架构。通过 3T 中英文语料扩展词表,并利用 MLP 适配器实现视觉与语言模态的无缝连接。模型还基于 InternViT 初始化,支持动态分块处理最高 4K 分辨率的图像。
  • 能力增强训练管线:采用四阶段训练策略,通过跨模态对齐、通用知识注入、领域增强和后训练,逐步提升模型性能。同时,借助高精度数据合成技术,规模化地生产高质量训练数据,涵盖文档识别、数学解题和图表理解等核心任务。
  • 大规模并行训练:结合数据并行、张量并行和流水线并行的三维并行组合,优化梯度同步和状态分片,显著提升训练效率。在百度自研的昆仑芯 P800 芯片上,通过通信与计算的并行设计,进一步提升了硬件利用率。
  • 高效推理优化:模型在昆仑芯和 GPU 等多种芯片上进行了高效推理优化,支持单任务 5000 卡规模的并行计算,确保在实际应用中的高效处理能力。

应用场景

Qianfan-VL 的视觉理解能力使其在多个企业级应用中大放异彩:

  • OCR 识别:精准识别各类文档、票据和手写笔记中的文字信息,为企业文档处理和数据录入提供高效解决方案。
  • 数学解题:通过视觉识别数学题目并进行推理计算,支持多种题型,为教育领域提供智能辅导工具。
  • 文档理解:自动解析文档结构并提取关键信息,支持复杂表格和图表的分析,提升企业文档管理和知识管理的效率。
  • 图表分析:从各类图表中提取数据并进行分析,支持趋势预测和关联推理,为数据分析和商业决策提供有力支持。

项目地址

  • 项目官网:https://baidubce.github.io/Qianfan-VL/
  • GitHub 仓库:https://github.com/baidubce/Qianfan-VL
  • HuggingFace 模型库:https://huggingface.co/collections/baidu/qianfan-vl-68d0b9b0be8575c17267c85c
  • 技术论文:https://github.com/baidubce/Qianfan-VL/blob/main/docs/qianfan_vl_report_comp.pdf
Ray3

Ray3

<p style="text-align: left; line-height: 2;">Ray3是Luma AI推出的新一代<a href="https://ai-bot.cn/ai-video-generation-tools/" target="_blank">视频生成</a>模型,具备强大的推理能力和专业级HDR视频生成技术,为视频创作带来了革命性的变化。Ray3能理解图像和语言指令,执行复杂任务,自动评估和优化输出质量,确保生成的视频达到高标准。支持的10位、12位甚至16位色深以及EXR格式输出,生成的视频在色彩和细节上更加丰富和逼真,完美适配专业影视制作和高端内容创作的需求。Ray3引入了草稿模式,可以在短时间内生成视频的初步版本,之后再升级为全4K HDR的高质量视频,大大提高了创作效率。用户可以通过直观的视觉控制工具,直接在图像上绘制草图来引导视频的生成,无需复杂的文字指令。Ray3可以通过<a href="https://ai-bot.cn/sites/923.html" target="_blank">Luma AI</a>的<a href="https://ai-bot.cn/sites/13455.html" target="_blank">Dream Machine</a>使用,与Adobe Firefly和Creative Cloud Pro集成,为创作者提供了更多的便利和选择。</p>

XXAI

XXAI

<p>With 37 AI models in XXAI, you can complete various tasks like text generation, image generation and video generation.</p>

KuaiMod

KuaiMod

<p>KuaiMod 是快手推出的基于多模态大模型的短视频质量判别框架,能高效识别和过滤有害及低质量内容。框架借鉴普通法(Common Law)体系,基于案例驱动的方式动态更新审核策略,快速适应短视频平台上内容的快速变化。KuaiMod 结合视觉语言模型(VLM)和链式推理(Chain-of-Thought,中 CoT)技术,基于用户反馈进行强化学习,实现精准的内容判别。KuaiMod 离线测试准确率高达92.4%,在实际部署显著降低用户举报率,提升用户体验,为短视频平台的健康生态提供有力支持。</p> <p><img src="blob:https://aisite.medsci.cn/4e236db1-2148-45c0-8cad-cd68a983cf91"></p> <h2 style="font-size: 20px;">KuaiMod的主要功能</h2> <ul> <li>自动审核有害内容:识别过滤暴力、色情、谣言等违规视频。</li> <li>细粒度内容分类:将视频精准分类到不同违规类别,便于管理。</li> <li>动态策略更新:根据用户反馈实时调整审核策略,适应内容变化。</li> <li>降低用户举报率:减少用户对不良内容的曝光,提升用户体验。</li> <li>助力个性化推荐:优化推荐系统,推送符合用户兴趣的优质视频。</li> </ul> <h2 style="font-size: 20px;">KuaiMod的技术原理</h2> <ul> <li>多模态大模型(VLM):基于视觉编码器和语言模型,将视频的视觉信息(如视频帧、封面)和文本信息(如标题、评论、OCR/ASR 文本)进行融合,生成综合的视频表示。基于大规模预训练,VLM 能理解视频的语义内容,识别其中的有害信息。</li> <li>链式推理(Chain-of-Thought, CoT):基于 CoT 技术,生成详细的推理过程,解释为什么某个视频被判定为有害或非有害。将视频审核过程分解为多个状态(如内容提取、内容分析、用户反馈分析等),逐步推理最终给出审核结果。</li> <li>离线适配与训练:用大规模标注数据,对 VLM 进行监督微调,适应视频审核任务。基于生成正负样本对,优化模型的偏好,提高审核的准确性和一致性。</li> <li>在线更新与强化学习:基于用户反馈的强化学习(RLUF):基于用户举报、点赞、评论等反馈,构建新的训练数据,用强化学习动态更新审核策略。模型根据实时反馈进行优化,确保快速适应平台内容的变化。</li> <li>动态分类体系:根据平台内容的变化,动态扩展和调整分类标签体系,确保覆盖新出现的有害内容类型。</li> </ul> <h2 style="font-size: 20px;">KuaiMod的项目地址</h2> <ul> <li>项目官网:<a class="external" href="https://kuaimod.github.io/?utm_source=medsci" target="_blank" rel="noopener">https://kuaimod.github.io/</a></li> <li>GitHub仓库:<a class="external" href="https://github.com/KuaiMod/KuaiMod.github.io" target="_blank" rel="noopener nofollow">https://github.com/KuaiMod/KuaiMod.github.io</a></li> <li>arXiv技术论文:<a class="external" href="https://arxiv.org/pdf/2504.14904v1" target="_blank" rel="noopener nofollow">https://arxiv.org/pdf/2504.14904v1</a></li> </ul>

Addsubtitle

Addsubtitle

<p>Addsubtitle 是基于 AI 的在线视频编辑工具,通过智能技术为用户提供便捷的字幕添加、翻译及视频编辑服务。用户可以轻松将视频翻译成100多种语言,一键添加多种语言的字幕,提升视频的全球覆盖率。直观的在线编辑器支持实时编辑字幕文本,能自定义字幕样式,包括字体、颜色、尺寸和布局等,满足不同品牌和风格的需求。</p> <p><img src="https://img.medsci.cn/aisite/img//48cRhAHtKQ8RWd2bwvU8srf7X3obw4PWGaQN7uXY.png"></p> <h2 style="font-size: 20px;">Addsubtitle的主要功能</h2> <ul> <li>AI 视频翻译:支持将视频翻译成100多种语言,确保高精度翻译,让品牌声音传遍全球。</li> <li>多语言字幕添加:一键添加多种语言字幕,提升视频的可访问性和全球覆盖率。</li> <li>自动字幕生成:自动生成时间同步的字幕,支持实时更新,一键自定义字体、颜色和位置。</li> <li>字幕样式自定义:提供多种字幕样式和字体选择,可自定义字体、颜色、尺寸和布局,让字幕更具个性和吸引力。</li> <li>实时编辑:通过直观的在线编辑器,用户可以在保持语音与唇同步完美匹配的同时,实时调整字幕文本,纠正小错误。</li> <li>AI 视频改写:轻松编辑视频文本,AI 自动同步语音和唇形,实现视频内容的快速改写。</li> <li>语音克隆与自然配音:通过先进的语音克隆技术,可以克隆任何声音,或从100多种 AI 语音中选择,涵盖不同性别、年龄和风格。</li> <li>完美唇音同步:面对复杂的头部动作和表情变化,翻译后的视频依然自然流畅。</li> <li>去除水印与文字:提供专业级的水印和文字去除功能,确保视频在编辑过程中保持高质量。</li> </ul> <h2 style="font-size: 20px;">Addsubtitle的官网地址</h2> <ul> <li>官网地址:<a href="https://addsubtitle.ai/">addsubtitle.ai</a></li> </ul>

Bith.AI [Ghost]

Bith.AI [Ghost]

Text-to-Video AI Generator for Faceless Creators

Berrycast Transcripts (Powered by AI)

Berrycast Transcripts (Powered by AI)

Capture and share screen recordings effortlessly with SimpleScreen's user-friendly tool.

Gling AI

Gling AI

AI-powered video editing tool that automatically detects and removes silences and bad takes.

Panda Video

Panda Video

Plataforma de hospedagem de vídeos com recursos avançados para aumentar a venda de produtos digitais e garantir a segurança contra pirataria. Preço baixo, reprodução rápida, DRM, Lives HD e muito mais.

UniConverter AI

UniConverter AI

High-speed video converter

Movavi Video Editor

Movavi Video Editor

Fast, easy photo and video editing tools.

Clipfly

Clipfly

Easy AI video editor for stunning videos.