关键词 "HTTP requests" 的搜索结果, 共 24 条, 只显示前 480 条
JoyPix 是专注于数字人和语音合成的AI创作工具。用户可以通过上传照片创建个性化的虚拟形象,支持与虚拟形象进行语音对话。JoyPix 提供自定义虚拟形象,可以根据自己的需求进一步定制虚拟形象的外观。JoyPix支持声音克隆,用户只需上传10秒音频片段,可克隆自己的声音,生成自然流畅的语音输出。JoyPix 的文本转语音功能可以将文本转换为逼真的语音,满足多种语音合成需求。JoyPix提供了虚拟
企业 IM、在线客服、企业知识库 / 帮助文档、客户之声、工单系统、AI 对话、工作流、项目管理。 Docker 快速开始 方法一:克隆项目并启动docker compose容器,需要另行安装ollama,默认使用 qwen3:0.6b 模型 git clone https://gitee.com/270580156/weiyu.git && cd weiyu/deplo
通义万相AI视频是阿里推出的一款完全免费的AI视频生成工具,支持文生视频和图生视频两种方式,可以根据用户提供的文字提示词或图片,自动创作出具有影视级画面质感的高清视频(最长6秒)。通义万相AI视频支持多种艺术风格,包括但不限于古风、科幻、动画等,并且特别优化了对中式元素的理解和表现。通义万相AI视频能处理多语言输入,支持“灵感扩写”功能,一键帮用户完善提示词,还自带“音频生成”功能,视频生成自带音
EmoxCare是免费的AI心理咨询师,帮助用户进行心理健康管理。用户可以通过文字、语音消息等方式与EmoxCare进行交流,会根据用户的输入提供情感支持和指导。应用提供自我疗愈练习、心理健康评估和报告等功能。EmoxCare提供的信息仅供参考,不能替代专业医疗或心理健康建议。 EmoxCare的主要功能 情绪追踪与聊天:用户可以与 EmoxCare 进行文字或语音交流,倾诉烦恼、分享心情
3DTown 是哥伦比亚大学联合Cybever AI等机构推出的从单张俯视图生成3D城镇场景框架。框架基于区域化生成和空间感知的3D修复技术,将输入图像分解为重叠区域,基于预训练的3D对象生成器分别生成每个区域的3D内容,基于掩码修正流修复过程填补缺失的几何结构,同时保持结构连续性。3DTown 支持生成具有高几何质量和纹理保真度的连贯3D场景,在多种风格的场景生成中表现出色,优于现有的先进方法。
Hedra是由原斯坦福大学的研究团队成立的数字创作实验室推出的AI对口型视频生成工具,专注于将人工智能技术应用于人物角色视频的生成。用户可以上传任意人物的照片和语音,Hedra会根据这些输入生成动态视频,其中人物的唇形、表情和姿态都能与语音内容完美同步。Hedra支持文本和图片生成视频,目前在免费公测中,提供无限时长的视频生成能力,单个视频最长可达30秒(开放预览版),并且每60秒的输入可以生成9
墨狐AI是北京云泥科技推出的AI小说写作助手,专为网文小说作者设计。通过自动生成大纲、快速续写、剧情树分析和小说转剧本等功能,帮助作者解决创作难题,提高写作效率。用户只需简单输入灵感或现有文本,墨狐AI便能提供创意丰富的写作辅助,适合需要提升创作速度和质量的网文作者和爱好者。 墨狐AI的主要功能 生成大纲:用户输入简单的故事灵感,墨狐AI能自动生成包含世界观、角
蛙蛙写作是杭州引力智航科技推出的AI小说和内容写作助手,帮助作者提高写作效率和创作质量。蛙蛙写作利用先进的AI技术,为用户提供了一系列写作辅助功能,让创作过程更加便捷和高效。蛙蛙写作的目标是让内容创作变得更加简单,无论是专业作家、自媒体运营者还是普通爱好者,都能通过蛙蛙写作快速产出高质量的作品。 蛙蛙写作的主要功能 蛙蛙写作工具版 AI生成内容:用户只需提供故事的基本元素(如书名
绘蛙AI文案是阿里巴巴推出的种草文案写作工具,支持用户通过输入商品链接或ID,提供商品卖点、人设、笔记话题等信息,绘蛙AI文案将自动生成适合商品的营销文案,如种草文案、爆文改写等,提高商品/种草笔记的吸引力和销量。绘蛙AI文案是电商从业者、达人KOL的文案创作好帮手。 绘蛙AI文案的主要功能 单商品种草:专注于为单个商品创作吸引人的推广文案,帮助提升商品的吸引力和销量。 爆文改写:提供将
新华社国家重点实验室作为媒体领域战略科技创新平台,围绕推进媒体融合发展、重塑新闻舆论格局国家重大战略需求,聚焦人工智能等先进技术在新闻生产全流程应用,面向跨媒体大规模感知认知信息分析与推理、人机协同复杂问题分析响应及评估两个方向,开展媒体融合生产技术应用基础研究。 新华融合媒体科技发展(北京)有限公司,是新华社媒体融合生产技术与系统国家重点实验室运营主体。 主要功能: 四大场景,三类运
Operator是OpenAI推出的首款AI智能体。能像人类一样操作网页浏览器的AI工具,可以自动完成各种在线任务,如预订餐厅、购买机票、填写表单等。Operator基于Computer-Using Agent(CUA)的新模型驱动,模型结合了GPT-4o的视觉能力和强化学习的高级推理能力。通过屏幕截图“观察”网页,使用虚拟鼠标和键盘进行操作。Operator目前处于研究预览阶段,仅对美国的Cha
夸克是阿里推出的AI搜索应用,集成了浏览器搜索、网盘、实用工具等功能。夸克支持手机版、Pad版、Windows电脑PC版,资产一键同步。提供6T超大空间、AI总结、AI生成等智能服务。用户可通过手机扫码快速登录,享受无缝的多端协同体验。夸克极速、安全、高效、高颜值,是你的学习、工作、生活的高效拍档。 夸克的功能特色 智能搜索:夸克基于AI智能引擎提供快速、准确的搜索结果,查资料更快,工作,
视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间推理。Pixel Reasoner在多个视觉推理基准测试中取得优异的成绩,显著提升视觉密集型任务的性能。 Pixel R
SurfSense 是开源的 AI 研究工具,类似于 NotebookLM 和 Perplexity,具备更强的扩展性。工具能与多种外部数据源(如搜索引擎、Slack、Notion、YouTube、GitHub 等)集成,支持用户上传多种格式的文件,将内容整合到个人知识库中。SurfSense 提供强大的搜索功能和自然语言交互能力,用户能快速查找和引用保存的内容。 SurfSense的主要功能
Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模
Morphik 是开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持对图像、PDF、视频等多种格式的文档进行搜索,采用 ColPali 等技术,能理解文档中的视觉内容。Morphik 具备快速元数据提取功能,可从文档中提取边界框、标签、分类等信息。 Morphik的主要功能 多模态数据处理:能处理文本、PDF、图片、视频等多种格式的文件。 智能解析文件
FinRobot是一个超越 FinGPT 范畴的 AI 代理平台,是专为金融应用精心设计的综合解决方案。它集成了多种 AI 技术,超越了单纯的语言模型。这种广阔的视野凸显了平台的多功能性和适应性,能够满足金融行业的多方面需求。 AI代理的概念:AI代理是一种智能体,它使用大型语言模型作为大脑来感知环境、做出决策并执行动作。与传统的人工智能不同,AI代理具有独立思考和利用工具逐步实现既定目标的能力
Qlib 是一个开源的、面向 AI 的量化投资平台,旨在利用 AI 技术挖掘量化投资的潜力,赋能研究,创造价值,涵盖从探索想法到落地生产的全过程。Qlib 支持多种机器学习建模范式,包括监督学习、市场动态建模和强化学习。 越来越多不同范式的 SOTA Quant 研究成果/论文正在 Qlib 中发布,以协作解决量化投资领域的关键挑战。例如,1)使用监督学习从丰富且异构的金融数据中挖掘市场复杂的非
Unmute 是 Kyutai 推出的低延迟语音交互系统,专注于低延迟语音转文字(Speech-to-Text)和文字转语音(Text-to-Speech)。Unmute 基于先进的 AI 模型,为用户提供实时、高效的语音交互体验。用户基于语音与 AI 进行交流,支持将文字内容快速转换为自然流畅的语音输出。Unmute 的低延迟处理能力,能实现无缝的语音交互。 Unmute的主要功能
LLaDA-V是中国人民大学高瓴人工智能学院、蚂蚁集团推出的多模态大语言模型(MLLM),基于纯扩散模型架构,专注于视觉指令微调。模型在LLaDA的基础上,引入视觉编码器和MLP连接器,将视觉特征映射到语言嵌入空间,实现有效的多模态对齐。LLaDA-V在多模态理解方面达到最新水平,超越现有的混合自回归-扩散和纯扩散模型。 LLaDA-V的主要功能 图像描述生成:根据输入的图像生成详细的描述
LMEval 是谷歌推出的开源框架,用在简化大型模型(LLMs)的跨提供商评估。框架支持多模态(文本、图像、代码)和多指标评估,兼容 Google、OpenAI、Anthropic 等主流模型提供商。LMEval 基于增量评估引擎,运行必要的测试,节省时间和计算资源。框架自加密的 SQLite 数据库确保评估结果的安全存储。LMEvalboard 提供交互式可视化界面,帮助用户快速分析模型性能,直
PPT.AI 是AI演示文稿制作工具,能快速将用户输入的主题或上传的文档内容转换为专业的 PPT 演示文稿。具备智能内容生成、自动设计与排版、丰富模板选择、多语言支持等功能,支持15种主要语言,提供50多个专业模板。用户只需输入主题或上传文件,选择模板,可快速生成演示文稿,支持进一步自定义编辑。PPT.AI 考虑数据安全,提供银行级加密和安全云存储。 PPT.AI的主要功能 智能生成演示文
QwenLong-L1-32B 是阿里巴巴集团 Qwen-Doc 团队推出的,基于强化学习训练的首个长文本推理大模型。模型基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略,显著提升在长文本场景下的推理能力。模型在多个长文本文档问答(DocQA)基准测试中表现优异,平均准确率达到了70.7%,超越OpenAI-o3-mini和Qwen3-235B-A22B等现有旗舰模型,且与Cla
Company Research Agent是基于多智能体框架的公司研究工具,支持一键自动生成全面的公司研究报告。工具从公司网站、新闻文章、财务报告和行业分析等多源数据中收集信息,基于Gemini 2.5 Flash和GPT-4.1-mini等模型进行高语境研究综合及精确的报告格式化和编辑。工具具备AI内容过滤功能,确保信息的相关性和准确性,基于WebSocket实现实时进度流,为用户提供高效、便
只显示前20页数据,更多请搜索
Showing 241 to 264 of 284 results