关键词 "学习" 的搜索结果, 共 24 条, 只显示前 480 条
一款开源的实时AI语音聊天助手:RealtimeVoiceChat,语音听起来相对自然,支持打断 双向语音交互,延迟低,可以实时看到语音转录,以及AI的回复内容 用来构建客服、教育或陪伴等等场景的AI语音助手比较实用 为低延迟交互而构建的复杂客户端-服务器系统: 🎙️捕获:您的声音被您的浏览器捕获。 ➡️流:音频块通过 WebSockets 传输到 Python 后端。 ✍️转
Supporting multiple themes, automatic long text splitting, one-click image export, making your content creation easier and more efficient. Completely free, start using now! MD2Card is a simple and ea
Sharing the latest developments in the world of artificial intelligence. 每天3分钟学习最新的AI前沿信息
阿里巴巴昨日在 Github 等平台开源了 ZeroSearch 大模型搜索引擎。这是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。 ZeroSearch 主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。 研究人员在 NQ、TriviaQA、Pop
MCP超级助手 MCP SuperAssistant 扩展是为了弥合 Perplexity、ChatGPT、Grok 等 AI 平台与模型上下文协议 (MCP) 工具之间的差距而创建的。虽然这些 AI 平台在常识和推理方面功能强大,但它们缺乏执行特定工具或直接访问外部系统的能力。此扩展通过提供一种无缝的方式来检测、执行和集成这些平台中的 MCP 工具,从而解决了该问题。 ## 安装说明 h
minion-agent的开源项目为开发者们提供了一个全新的AI智能体开发框架。 minion-agent的核心价值在于优雅地解决了「框架碎片化」的问题,开发者想要开发一款AI智能体的话,需要在OpenAI、LangChain、Google AI以及SmolaAgents等多种框架间切换,因为每种框架都有其独特的优势和局限性,也是当前AI智能体开发中的主要阻碍。 minion-agent通过提供
docext Overview ‌docext‌是一个基于视觉语言模型(VLM)的本地无结构数据提取工具,特别适用于处理各种文档,如发票、护照等。它无需传统的OCR技术,通过深度学习的视觉语言模型,能够准确识别并提取文档图像中的字段数据和表格信息‌12。 技术特点和应用场景 ‌无需OCR‌:docext利用视觉语言模
昆仑万维正式开源(17B+)Matrix-Game大模型,即Matrix-Zero世界模型中的可交互视频生成大模型。Matrix-Game是Matrix系列在交互式世界生成方向的正式落地,也是工业界首个开源的10B+空间智能大模型,它是一个面向游戏世界建模的交互式世界基础模型,专为开放式环境中的高质量生成与精确控制而设计。 空间智能作为AI时代的重要前沿技术,正在重塑我们与虚拟世界的
Nexus-Gen:图像理解、生成和编辑的统一模型,开源届的GPT-4o平替 待办事项 发布训练和推理代码。 发布模型检查点。 发布技术报告。 发布训练数据集。 什么是Nexus-Gen Nexus-Gen 是一个统一模型,它将 LLM 的语言推理能力与扩散模型的图像合成能力协同起来。为了对齐 LLM 和扩散模型的嵌入
Step1X-3D是什么 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3
Nooka是创新的AI驱动的听书应用,提供全球优质非虚构类书籍的20分钟音频摘要。用户能在通勤、运动等碎片化时间里高效吸收知识。应用最大特色是能对话,用户随时打断host提问,AI基于上下文即时回答,实现与书籍的深度互动。Nooka帮助用户高效学习,基于互动和社区交流提升学习的趣味性和深度。 Nooka的主要功能 20分钟音频摘要:将畅销非虚构类书籍的核心思想浓缩成20分钟音频,适合碎片化
响指HaiSnap是AI零代码应用开发平台,通过可视化操作和拖拽式界面,用户无需编写代码可快速搭建应用,简化了开发流程。响指HaiSnap支持调用多种预训练的AI模型,涵盖文本生成、图像识别等多种功能,满足不同场景的需求。响指HaiSnap提供一键部署功能,用户可以轻松将应用发布到云端,无需复杂的服务器配置。响指HaiSnap配备了任务管理、小工具以及小游戏等多种功能模块,方便用户高效完成任务,增
妙思是腾讯广告推出的基于腾讯混元大模型的一站式AI广告创意平台。为广告主提供文生图、图生图、商品背景合成、妙思衍生、特定风格LORA等多种创意工具,简化广告制作与投放流程。基于AIGC技术,妙思平台能快速生成高质量的创意内容,如人像、风景等,支持广告素材的高效生产和投放,让广告投放更加迅速和便捷。 妙思的主要功能 灵感提供:基于查看大盘创意内容热榜,获取不同行业、投放版位、比例的灵感内
TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,提出解决方案。TinyVLA基于轻量级的多模态模型和扩散策略解码器,显著提高推理速度,减少对大规模数据集的依赖。模型在模拟和真实机器人平台上经过广泛测试,证明在速度、数据效率以及多任务学习和泛化能力方面优于现有的先进模型OpenVLA。T
IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时常常面临定位和特征准确性的挑战,IFAdapter通过引入两个关键组件外观标记(Appearance Tokens)和实例语义图(Instance Semantic Map)解决问题。外观标记用于捕获描述中的详细特征信息,实例语义图则将特征与特
Yourware 是提供快速部署工具的在线平台,支持 HTML、CSS、JavaScript 和 React 等前端技术。基于一键部署功能,让用户轻松将网页代码快速上线,无需复杂的云服务或 GitHub Pages 等操作。Yourware 提供一键美化、作品集展示和权限控制等功能,帮助用户优化网页视觉效果、集中展示创作成果、保护隐私。平台汇聚了全球创作者的优秀作品,为用户提供学习和交流的社区环境
多面鹅(OfferGoose)是AI面试模拟平台,面向求职者,通过模拟真实面试场景,帮助用户提升面试技巧和通过率。包括AI模拟面试、实时面试提醒、智能面试押题、深度面试复盘等。用户可根据求职目标选择不同职位和公司类型进行模拟面试,系统会生成相关问题。模拟面试结束后,多面鹅会提供详细反馈和分析,帮助用户发现不足并改进。支持多语言面试,包括德文、日文、法语、简体中文、英语、西班牙文、韩文等,能根据用户
Being-M0 基于业界首个百万级动作数据集 MotionLib,用创新的 MotionBook 编码技术,将动作序列转化为二维图像进行高效表示和生成。Being-M0 验证了大数据+大模型在动作生成领域的技术可行性,显著提升动作生成的多样性和语义对齐精度,实现从人体动作到多款人形机器人的高效迁移,为通用动作智能奠定基础。 Being-M0的主要功能 文本驱动动作生成:根据输入的自然语言
Co-Sight是中兴通讯开源的超级智能体项目,为协同视觉分析平台及智能自动化底座。采用多智能体架构,构建“数字团队”协同体系,通过DAG任务引擎驱动,实现任务的高效调度与执行。Co-Sight具备自我进化能力,能通过执行记录与模型推理自动生成智能总结报告,形成持续改进闭环。注重安全与可靠性,所有操作在沙箱环境中运行,支持日志追溯、权限管控与合规审计。 Co-Sight的主要功能 智能总结
腾讯混元图像2.0模型(Hunyuan Image2.0),AI图像生成进入“毫秒级”时代。 模型主要有两大特点:实时生图、超写实画质。 (👇https://hunyuan.tencent.com/) 速度快 相比前代模型,腾讯混元图像2.0模型参数量提升了一个数量级,得益于超高压缩倍率的图像编解码器以及全新扩散架构,其生图速度显著快于行业领先模型,在同类商业产品每张图推理速度需要5到
讯飞晓医APP是由科大讯飞医疗推出的一款智能医疗健康助手应用,利用讯飞星火医疗大模型技术,结合丰富的医学数据和深度学习算法,为用户提供症状自查、药物查询、中医辨证、报告解读、医院推荐、科室推荐和饮食建议等多功能服务。该应用旨在通过人工智能技术,提升用户的健康管理效率,优化就医体验,实现个性化、精准的健康咨询和指导,轻松管理自己和家人的健康。 讯飞晓医APP的主要功能 症状自查:用户输入
Pemo是AI驱动的文档管理工具。工具支持PDF、Epub、Word等多种格式文档的导入与管理,具备一键翻译、智能总结、思维导图生成等功能,帮助用户快速理解复杂文献,提升阅读效率。Pemo提供沉浸式阅读体验,用户自定义阅读模式、进行标注和笔记,方便记录灵感。Pemo支持文档格式转换,满足不同需求,是学生、科研人员和职场人士提升学习与工作效率的好帮手。 Pemo的主要功能 导入与分类:支
DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关联增强模块,基于情感库捕获不同情感之间的关系,提升情感生成的准确性和多样性。框架设计情感判别目标,基于情感分类确保生成过程中的情感一致性。在MEAD和HDTF数据集上的实验表明,DICE-Talk在情感准确性、对口型和视觉质量方面均优于
Seedance 1.0 lite是火山引擎推出的豆包视频生成模型的小参数量版本,支持文生视频和图生视频两种生成方式,支持生成5秒或10秒、480p或720p分辨率的视频。具备影视级视频生成质量,能精细控制人物外貌、衣着、表情动作等细节,支持360度环绕、航拍、变焦等多种运镜技术,生成的视频画质细腻、美感十足。模型广泛用在电商广告、娱乐特效、影视创作、动态壁纸等领域,能有效降低制作成本和周期。
只显示前20页数据,更多请搜索
Showing 49 to 72 of 133 results