关键词 "高精度" 的搜索结果, 共 14 条, 只显示前 480 条
多语言效率工具,支持高精度录音转文本、智能会议总结和自动思维导图生成,覆盖110+语言。办公场景中应用广泛,适合会议和文档处理。
腾讯混元大模型旗下最新发布的Hunyuan3D-2.0系列开源模型,迎来了五款产品(Turbo、Pro、Standard、Lite、Vision)的全系列开源,构建起完整的工具链体系,标志着中国大模型技术首次在多模态领域实现完整开源布局。从30秒生成高精度3D资产的开源框架,到覆盖文本、图像、视频的全模态开源体系,腾讯混元大模型正以开放姿态引领一场全球范围内的数字创作革命。 这一突破得益于腾讯自
DeTikZify是一款创新工具,专为科学家、学者以及任何需要创建精准数学或科学插图的人设计。它基于先进的语言模型,能够理解手绘草图或现有图片,并转换它们成为可直接用于LaTeX文档的TikZ代码,这一过程无需手动编码,大大节省了时间并提高了效率。 项目技术分析 该系统利用深度学习与蒙特卡洛树搜索(MCTS)的巧妙结合,实现智能迭代优化输出。这意味着,即使初始生成可能不完美,DeTikZi
这款3D模型生成工具,不仅同样支持文本生成高精度的3D模型,更进一步实现了通过上传图片即可生成3D模型的功能。这一发展与绘画类AI工具的演进路径颇为相似,从最初的文本到图像的转化,到现在的图像到3D模型的转化。
docext Overview ‌docext‌是一个基于视觉语言模型(VLM)的本地无结构数据提取工具,特别适用于处理各种文档,如发票、护照等。它无需传统的OCR技术,通过深度学习的视觉语言模型,能够准确识别并提取文档图像中的字段数据和表格信息‌12。 技术特点和应用场景 ‌无需OCR‌:docext利用视觉语言模
昆仑万维正式开源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。 空间智能作为AI时代的重要前沿技术,正在重塑我们与虚拟世界的
Addsubtitle 是基于 AI 的在线视频编辑工具,通过智能技术为用户提供便捷的字幕添加、翻译及视频编辑服务。用户可以轻松将视频翻译成100多种语言,一键添加多种语言的字幕,提升视频的全球覆盖率。直观的在线编辑器支持实时编辑字幕文本,能自定义字幕样式,包括字体、颜色、尺寸和布局等,满足不同品牌和风格的需求。 Addsubtitle的主要功能 AI 视频翻译:支持将视频翻译成100
ViLAMP(VIdeo-LAnguage Model with Mixed Precision)是蚂蚁集团和中国人民大学联合推出的视觉语言模型,专门用在高效处理长视频内容。基于混合精度策略,对视频中的关键帧保持高精度分析,显著降低计算成本提高处理效率。ViLAMP在多个视频理解基准测试中表现出色,在长视频理解任务中,展现出显著优势。ViLAMP能在单张A100 GPU上处理长达1万帧(约3小时)
ZenCtrl 是 Fotographer AI 推出的 AI 图像生成工具,支持从单张图像生成高质量、多视角和多样化场景的图像,无需额外训练数据。基于先进算法和图像处理技术,支持实时元素再生,适用于产品摄影、虚拟试穿、人物肖像控制、插画等场景。ZenCtrl 为创意和商业领域中高效、灵活的视觉内容生成解决方案。 ZenCtrl的主要功能 多视角和多样化场景生成:从单张主题图像生成高质量、
SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。SuperEdit不需要额外的视觉语言模型(VLM)或预训练任务,仅依赖高质量的监督信号,在多个基准测试中实现显著的性能提升。 Super
一、核心技术:自学习和自修复的治疗引擎 PathOS Platform™是Pathos AI 的专有平台,构建于现代数据基础设施之上,能够自动化地进行靶点识别和优先级排序。 核心技术为自学习和自修复的Discovery Engine(发现引擎): 1、自动靶点识别:利用多种正交方法(orthogonal methods)自动识别和优先排序药物靶点。 2、自适应模型:能够根据新数据进行自我学
Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气候变化和极端天气事件提
Sapling AI 是检测文本是否由AI生成的免费在线工具,用户可以通过上传文本或直接粘贴内容进行检测,工具基于机器学习算法分析文本特征,识别出由 AI 模型(如 ChatGPT 和 GPT-4)生成的内容。Sapling 能在短至 50 个字的文本中进行检测,将 AI 生成的部分高亮显示,同时提供整体的 AI 生成内容比例。 Sapling AI Content Detector的主要功能
SmolVLA 是 Hugging Face 开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,模型小巧,可在CPU上运行,单个消费级GPU即可训练,能在MacBook上部署。SmolVLA 完全基于开源数据集训练,数据集标签为“lerobot”。 SmolVLA的主要功能 多模态输入处理:SmolVLA 能处理多种输入,包括多幅图像、语言指令以及
只显示前20页数据,更多请搜索