گوگل در رویداد I/O 2025 از نسخه جدید مدل ویدیوساز خود با نام Veo 3 رونمایی کرد؛ مدلی که حالا توانایی تولید ویدیو بههمراه صدای محیط، جلوههای صوتی و حتی دیالوگهای هماهنگ با لبخوانی را دارد. این مدل رقیب مستقیم OpenAI Sora محسوب میشود، اما با یک مزیت مهم: امکان تولید صدا بهصورت خودکار.
گوگل میگوید Veo 3 تنها یک مدل تبدیل متن به ویدیو نیست، بلکه توانسته درک بهتری از فیزیک جهان، حرکات طبیعی و هماهنگی صدا با تصویر پیدا کند. اکنون این مدل بهصورت محدود و با اشتراک Ultra با قیمت ماهانه ۲۴۹ دلار برای کاربران آمریکایی فعال شده و از طریق پلتفرم سازمانی Vertex AI نیز در دسترس است.
Veo 3 قادر است مثلاً ویدیویی از پرندگان با صدای طبیعی آواز آنها یا صحنهای از خیابان همراه با صدای ترافیک تولید کند. این مدل همچنین توانایی ساخت دیالوگ و کنترل حرکات دوربین را نیز دارد. ترکیب این ویژگیها به کاربران اجازه میدهد تا بدون نیاز به تجهیزات پیشرفته، ویدیوهایی کامل و حرفهای بسازند.
قابلیتهای Veo 3 همچنین در ابزار هوش مصنوعی جدید گوگل به نام Flow نیز گنجانده شده است. در این ابزار، کاربران میتوانند با توصیف صحنه موردنظر خود به زبان طبیعی، خروجی ویدیویی دلخواه را با کمک Veo، جمینای و Imagen دریافت کنند.
گوگل اعلام کرده که در توسعه Veo 3 با سینماگران همکاری نزدیکی داشته است تا این ابزار را برای تولیدات حرفهای نیز کاربردی کند. بهگفته گوگل، Veo 3 از نظر بصری و صوتی نسبت به نسخههای قبلی پیشرفت چشمگیری داشته و در برخی زمینهها حتی از Sora هم فراتر رفته است.









ارسال پاسخ