关键词 "开源" 的搜索结果, 共 24 条, 只显示前 480 条
sand.ai是清华大学曹越教授团队创立的视频生成AI平台,目前刚刚开源了全球首个自回归扩散视频生成模型 Magi-1 ,生成长视频效果在行业领先。 马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1,该模型权重和代码完全开源,支持无限生成,能将生成时长精确控制到每一秒,在基准测试中更是吊打 Sora,领先了 5 倍。
BitNet 是微软研究院开发的第一个开源、原生 1 位大型语言模型 (LLM),参数规模达 20 亿。 该模型在 4 万亿个标记的语料库上进行训练,表明原生 1 位 LLM 可以实现与类似大小的领先开放权重、全精度模型相当的性能,同时在计算效率(内存、能量、延迟)方面具有显著优势。 github地址:https://github.com/microsoft/BitNet
HiDream-I1是vivago.ai公司最新开源图像生成基础模型,拥有 17B 参数,可在数秒内达到最先进的图像生成质量。
Wan2.1,这是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1提供以下主要功能: 👍 SOTA 性能:Wan2.1在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。 👍支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,兼容几乎所有消费级 GPU。它可在约 4 分钟内在 RTX 4090 上生成一段 5 秒的 480P 视频(无需量化等
UI-TARS-1.5 是一款基于强大的视觉语言模型构建的开源多模态代理,能够在虚拟世界中高效地执行各种任务。 UI-TARS-1.5 这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。 UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”。 该版本
ChatTS专注于对时间序列的理解和推理,类似于视觉/视频/音频 MLLM 的功能。此 repo 提供了以下代码、数据集和模型ChatTS:ChatTS:通过合成数据将时间序列与 LLM 对齐,以增强理解和推理。 ChatTS原生支持任意长度和值范围的多变量时间序列数据。借助ChatTS,您可以轻松理解和推理时间序列中的 形状特征和值ChatTS特征。此外,它还可以集成到现有的 LLM 流程
CSM(对话语音模型)是Sesame推出的语音生成模型,它能够根据文本和音频输入生成 RVQ 音频代码。该模型架构采用Llama主干网络和一个较小的音频解码器,用于生成Mimi音频代码。 经过精细调整的 CSM 变体为我们博客文章中展示的交互式语音演示提供支持。 托管的Hugging Face 空间也可用于测试音频生成。目前开源的为CSM-1B
腾讯混元大模型旗下最新发布的Hunyuan3D-2.0系列开源模型,迎来了五款产品(Turbo、Pro、Standard、Lite、Vision)的全系列开源,构建起完整的工具链体系,标志着中国大模型技术首次在多模态领域实现完整开源布局。从30秒生成高精度3D资产的开源框架,到覆盖文本、图像、视频的全模态开源体系,腾讯混元大模型正以开放姿态引领一场全球范围内的数字创作革命。 这一突破得益于腾讯自
QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,QwQ 具备思考和推理能力,在下游任务,尤其是难题中能够取得显著的性能提升。QwQ-32B 是中型推理模型,其性能足以匹敌 DeepSeek-R1、o1-mini 等最先进的推理模型。 QwQ基于Qwen2.5开发,其代码已集成到最新的Hugging界面中transformers,建议您使用最新版本的transformers。 Q
MCPServers 是一个开源的 MCP 服务和客户端目录,帮助开发者发现和分享优秀的 MCP 实现。
mcp-link是一个开源项目,旨在将任何OpenAPI V3 API自动转换为MCP(Machine Control Protocol)服务器。它通过自动化和标准化解决了现有生态系统中的一些关键问题,如大部分MCP服务器仅是Web API的简单封装,功能接口可能不完整,手动创建MCP接口既耗时又容易出错,以及缺乏标准化的转换流程。 项目技术分析 mcp-link的核心是基于OpenAPI
DeTikZify是一款创新工具,专为科学家、学者以及任何需要创建精准数学或科学插图的人设计。它基于先进的语言模型,能够理解手绘草图或现有图片,并转换它们成为可直接用于LaTeX文档的TikZ代码,这一过程无需手动编码,大大节省了时间并提高了效率。 项目技术分析 该系统利用深度学习与蒙特卡洛树搜索(MCTS)的巧妙结合,实现智能迭代优化输出。这意味着,即使初始生成可能不完美,DeTikZi
斯坦福大学在AI辅助学术研究领域取得了重大进展,他们的开源工具STORM进化后新增了协作对话机制Co-STORM。这一先进功能使得AI实体能够参与圆桌讨论,模拟人类般的互动。Co-STORM通过整合多个AI专家和一个主持人,在几分钟内生成关于特定主题的深入、经过充分研究的文章,同时具备跟踪和参与对话的能力,通过动态思维导图展示。该工具生成具有多元视角的详细报告,并且可在线免费获取,对研究人员和学生
一个基本的端到端语音识别工具包和开源 SOTA 预训练模型,支持语音识别、语音活动检测、文本后处理等。 FunASR离线文件转写软件包,提供了一款功能强大的语音离线文件转写服务。拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。输出为带标点的文字,含有字级别时间戳,支持ITN与用户自定义热词等。服务
AutoGen是微软发布的一个工具,旨在帮助开发者创建基于大语言模型的复杂应用程序。 AutoGen是一个开源编程框架,旨在帮助开发者构建基于多智能体的应用程序,特别是那些涉及复杂工作流和对话模式的场景。AutoGen由微软推出,支持多种编程语言和跨语言开发,包括Python和.NET。其主要特点包括: 多智能体支持:AutoGen允许开发者创建多个智能体,这些智能体可以相互对话、协作
DeepWiki :基于 GitHub Repo 源代码生成最新版可对话式文档,由 Devin驱动。 开源项目免费使用,无需注册。 私有项目中使用需在 http://devin.ai 注册账号。 直接访问 https://deepwiki.com,或将 GitHub 链接中的 github 替换为 deepwiki。 即:GitHub 仓库链接中的 github 替换为 deepwiki,
Kimi-Audio,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。此存储库包含 Kimi-Audio 的官方实现、模型和评估工具包。 通用功能:处理语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件/场景分类(SEC/ASC)和端到端语音对话等多种任务。 最先进的性能:在众多音频基准测试中取得 SOTA 结果(参见评估和技术报告)。
文档在线预览项目解决方案,采用流行的 Spring Boot 框架构建,易于设置和部署。这个多功能开源项目为多种文档格式提供基础支持,包括: 支持Office文档,如doc,,,,,,,,,,,,,,,,,,等。docx,xls,xlsx,xlsm,ppt,pptx,csv,tsv,dotm,xlt,xltm,dotx,lam,dotx,xla,pages 支持wps、
Suna 是一款完全开源的 AI 助手,可帮助您轻松完成实际任务。通过自然对话,Suna 将成为您进行研究、数据分析和应对日常挑战的数字伙伴——它结合了强大的功能和直观的界面,能够理解您的需求并为您提供帮助。 Suna 强大的工具包包括:无缝的浏览器自动化功能(用于网页导航和数据提取)、文件管理功能(用于文档创建和编辑)、网页爬取和扩展搜索功能、命令行执行系统任务、网站部署以及与各种 API
清华大模型团队 LeapLab 发布了一款面向 Agent 协作的开源框架:Cooragent。 你只需要说一句「咒语」:「创建一个 AI 情报收集秘书,为我收集最新的 AI 进展。」 魔法就会产生,Cooragent 就会根据你的个人偏好生成你专属的 AI 情报收集秘书,每天自动浏览网页,收集最重要的情报,总结成你喜欢的图文文档发送给你。 一句话创建智能体的工具:Cooragent,可
FunAudioLLM/CosyVoice(https://github.com/FunAudioLLM/CosyVoice) 项目是一个开源的多语言语音生成模型,它支持推理、训练和部署全流程。 该模型包括 CosyVoice-300M、CosyVoice-300M-SFT 和 CosyVoice-300M-Instruct 三种预训练模型,以及 CosyVoice-ttsfrd 资源。用户
CortexON AI 是一款开源 AI 智能体。它旨在思考并自动化常见任务,与许多商业方案不同,其代码公开可用。这种方法强调数据的透明度和用户控制。用户可以查看代理的工作原理并进行修改。 CortexON 专注于执行自主决策。它可以满足不同领域的不同自动化需求。其重点在于确保每个人都能轻松访问并适应,同时企业保留对其信息的完全所有权。 提供对其代码库的完全访问权限,以实现透明度。
超过1500种开源免费的模板,支持各种解决方案。包括,HTML,Bootstrap,Tailwind,Shadcn,Material,Bulma,Angular,React,Nextjs,Vue,Nuxt,Svelte,Gatsby,Astro,Laravel,Django,Jekyll,Hugo,BCMS
鲸智社区·大模型公共服务平台提供丰富的开闭源AI模型、数据集、开发工具等资源,构建大模型生态一站式解决方案,助力开发者探索和应用大模型技术,帮助企业快速选型和部署大模型应用。
只显示前20页数据,更多请搜索
Showing 25 to 48 of 115 results