گوگل از Veo 3 رونمایی کرد: تولید ویدیو با صدا و دیالوگ با هوش مصنوعی

گوگل در رویداد I/O 2025 از نسخه جدید مدل ویدیوساز خود با نام Veo 3 رونمایی کرد؛ مدلی که حالا توانایی تولید ویدیو به‌همراه صدای محیط، جلوه‌های صوتی و حتی دیالوگ‌های هماهنگ با لب‌خوانی را دارد. این مدل رقیب مستقیم OpenAI Sora محسوب می‌شود، اما با یک مزیت مهم: امکان تولید صدا به‌صورت خودکار.

گوگل می‌گوید Veo 3 تنها یک مدل تبدیل متن به ویدیو نیست، بلکه توانسته درک بهتری از فیزیک جهان، حرکات طبیعی و هماهنگی صدا با تصویر پیدا کند. اکنون این مدل به‌صورت محدود و با اشتراک Ultra با قیمت ماهانه ۲۴۹ دلار برای کاربران آمریکایی فعال شده و از طریق پلتفرم سازمانی Vertex AI نیز در دسترس است.

Veo 3 قادر است مثلاً ویدیویی از پرندگان با صدای طبیعی آواز آن‌ها یا صحنه‌ای از خیابان همراه با صدای ترافیک تولید کند. این مدل همچنین توانایی ساخت دیالوگ و کنترل حرکات دوربین را نیز دارد. ترکیب این ویژگی‌ها به کاربران اجازه می‌دهد تا بدون نیاز به تجهیزات پیشرفته، ویدیوهایی کامل و حرفه‌ای بسازند.

قابلیت‌های Veo 3 همچنین در ابزار هوش مصنوعی جدید گوگل به نام Flow نیز گنجانده شده است. در این ابزار، کاربران می‌توانند با توصیف صحنه موردنظر خود به زبان طبیعی، خروجی ویدیویی دلخواه را با کمک Veo، جمینای و Imagen دریافت کنند.

گوگل اعلام کرده که در توسعه Veo 3 با سینماگران همکاری نزدیکی داشته است تا این ابزار را برای تولیدات حرفه‌ای نیز کاربردی کند. به‌گفته گوگل، Veo 3 از نظر بصری و صوتی نسبت به نسخه‌های قبلی پیشرفت چشمگیری داشته و در برخی زمینه‌ها حتی از Sora هم فراتر رفته است.

Telegram

عضو کانال تلگرام ما شوید!

به جدیدترین مقالات، اخبار تکنولوژی و تحلیل‌ها در تلگرام دسترسی داشته باشید.

ورود به کانال