美国十次啦怡红院 智谱 AI 发布视频生成用具“清影”:30 秒快速生成,免费通达体验
IT之家 7 月 26 日音书美国十次啦怡红院,智谱 AI 当天文书,对视频生成模子进行全新升级,并细致推出新一代居品 ——CogVideoX。
CogVideoX 模子当今已在智谱清言的 PC 端、移动运用端以及小方律例章式上线。统共 C 端用户均可通过智谱清言的 AI 视频生告捷能「清影」(Ying),免费体验 AI 文本生成视频和图像生成视频的职业。
据先容,CogVideoX 的中枢时间性格如下:
针对实质连贯性问题,智谱 AI 自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构大要将原始视频数据压缩至原始大小的 2%,裁汰了视频扩散生成模子的考研资本和难度。辘集 3D RoPE 位置编码模块,该时间升迁了在时候维度上对帧间联系的捕捉能力,从而修复了视频中的始终依赖联系。
在可控性方面,智谱 AI 打造了一款端到端的视频意会模子,该模子大要为大都视频数据生成样子。这一调动增强了模子对文本的意会和对辅导的着力能力,确保生成的视频愈加适合用户的输入需求,并大要处置超长且复杂的 prompt 辅导。
模子摄取了一种将文本、时候、空间三维一体会通的 transformer 架构。该架构舍弃了传统的 cross attention 模块,缱绻了 Expert Block 以已毕文本与视频两种不同模态空间的对王人,并通过 Full Attention 机制优化模态间的交互成果。
「清影」的主要性格如下:
快速生成:仅需 30 秒即可完成 6 秒视频的生成。
高效的辅导着力能力:即使是复杂的 prompt,清影也能准确意会并实验。
实质连贯性:生成的视频大要较好地复原物理全国中的联接流程。
画面调动生动性:举例,镜头大要畅达地追随画面中的三只狗狗移动。
此外,智谱大模子通达平台 bigmodel.cn 也部署了「清影」。企业和勾引者可通过 API 调用式,体验并使用「清影」的文本生成视频和图像生成视频功能。
IT之家附智谱官网判辨:https://chatglm.cn/video
告白声明:文内含有的对外跳转判辨(包括不限于超判辨、二维码、口令等体式)美国十次啦怡红院,用于传递更多信息,节俭甄选时候,收尾仅供参考,IT之家统共著作均包含本声明。