Runway是一家领先的生成式AI平台,它在2024年7月9日发布了新一代文生视频模型Gen-3 Alpha。这款模型在保真度、一致性和运动表现方面都有显著提升,能够生成表达丰富的、逼真的人类角色。Gen-3 Alpha支持多种生成工具,如文本到视频、图像到视频、文本到图像转换工具。此外,它还提供API服务,价格与DeepSeek-V2一致,在基准测试中表现优异。
一、文本提示的重要性
在使用Gen-3 Alpha等生成式AI视频模型时,文本提示的质量直接影响最终视频的效果。一个模糊的提示如“一个海边日落的场景”,可能生成平淡无奇的视频。而详细的描述,如“夕阳下的海滩,金色的阳光洒在波光粼粼的海面上”,将指导模型生成更为丰富和逼真的视频内容。
二、文本提示的结构
Runway建议将文本提示分为不同的模块,包括场景、主题和镜头运动等。这种结构化的提示有助于模型更准确地理解和执行用户的意图。
例如:近景特写镜头:一个高清的指头上,站着一只可爱的迷你小狗,很好奇地看着镜头
三、Gen-3 Alpha的提示技巧
Gen-3 Alpha的提示结构包括了镜头移动、相机风格、灯光效果、移动效果等要素。以下是一些具体的提示词示例:
- 相机风格:低角度、高角度、第一视角、高架、手持、广角、特写、微距离、越肩效果、现实记录等。
如高架 - 灯光效果:漫射照明、轮廓光、背光、镜头光晕、侧光式、凝胶灯光等。
如轮廓 - 移动效果:动态运动、慢动作、超高速、时光倒流等。
时光倒流
四、文本提示与模型的交互
输入的文本提示会被转换成向量,包含场景、人物、动作等关键信息,这些向量在视频生成过程中起到持续引导的作用。因此,文本提示相当于模型的“指导员”,确保生成内容与描述相匹配。
五、视频模型的挑战
与文本、图片不同,视频模型需要考虑时间序列和连贯性,确保生成的视频在视觉上和动作逻辑上都与描述相符。这增加了开发难度和算力消耗。
六、Gen-3 Alpha的实践应用
用户在使用Gen-3 Alpha时,应注重精准的效果和细节提示词的使用。例如,描述一个场景时,可以加入“高清、写实风格、慢动作镜头”等关键词,以及相应的音频提示,如鸟叫、汽笛声等,以增强视频的整体感觉。