اولین ربات متفکر جهان وارد شد

اولین ربات متفکر جهان وارد شد


محققان فوتبال معتقدند که این نقطه شروع عصر جدید ربات هوشمند است. سیستم های هوش مصنوعی که متن ، تصویر ، صدا و حتی فیلم تولید می کنند ، اکنون به بخش مشترک زندگی دیجیتال تبدیل شده اند. از مدل های هوش مصنوعی می توان برای حرکت در روبات ها ضمن تولید داده های مختلف استفاده کرد. این ایده اکنون اساس پروژه روباتیک جمینی است که دو مدل جدید را توضیح می دهد. او با هم اولین روبات ها را قبل از ساخت این مدل ها فکر می کند.

چرا برای روبات های هوش مصنوعی تولیدی مهم است؟

هوش مصنوعی تولیدی نقش مهمی را برای روباتیک ایفا می کند زیرا این یک عملکرد عمومی ایجاد می کند. روبات های امروز نباید در انجام کارهای دیگر عملکرد خوبی داشته باشند ، به جز اینکه آنها برای انجام کارهای خاص آموزش دیده و آموزش دیده اند. “روبات های امروز بسیار سفارشی و استفاده از آنها دشوار است.” برای ایجاد و تهیه یک واحد رباتیک فقط برای یک کار ، معمولاً ماه ها طول می کشد. “

با این حال ، اساس سیستم های تولیدی باعث می شود روبات های هوش مصنوعی انعطاف پذیر تر شوند. این روبات ها ممکن است بدون نیاز به تنظیم مجدد با موقعیت های کاملاً تازه و محیط های کاری روبرو شوند. رویکرد فعلی پا بر اساس دو مدل ، مدل تفکر و مدل دیگر است. این دو مدل جدید Gemini Robotics 2.3 و Gemini Robotics-erm نامیده می شوند. مدل اول یک مدل بصری-لنگو سنتز (VLA) است که از داده های ویدئویی و متنی برای تولید اقدامات روباتیک استفاده می کند. مدل دوم ، که در آن “ER” دلایل مشخصی را نشان می دهد ، یک مدل زبانی بصری (VLM) است که ورودی های بصری و متنی را می گیرد و مراحل انجام یک کار پیچیده را تولید می کند.

ماشینهای “فکر کردن”

Gemini Robotics -er 2.3 اولین هوش مصنوعی رباتیک با توانایی “شبیه سازی” به روشی شبیه به مکالمات متنی مدرن است. پایین این ویژگی را “تفکر” می نامد ، اما در دنیای هوش مصنوعی تولیدی ، این اصطلاح کمی اغراق آمیز است. طبق گفته DeepMind ، این مدل در تست های دانشگاهی و خانگی نمرات بالایی کسب کرده و نشان می دهد که می تواند تصمیمات درستی در مورد تعامل با حوزه فیزیکی بگیرد. البته این اقدامی نمی کند. در اینجا پای روباتیک جمینی 4.3 است.

به عنوان مثال ، تصور کنید که می خواهید ربات را به دو گروه سفید و رنگارنگ تبدیل کنید. مدل خصوصی تقاضای و تصاویر محیطی شما را پردازش می کند (به عنوان مثال ، گروهی از لباس). این مدل همچنین می تواند از ابزارهایی مانند Google Search برای تکمیل داده ها استفاده کند. سپس یک زبان طبیعی و تعدادی از مراحل خاص برای انجام کارها تولید می کند.

Gemini Robotics 4.3 (مدل اجرایی) این دستورالعمل ها را دریافت می کند و حرکات ربات را با استفاده از ورودی ویدیو تولید می کند. علاوه بر اجرای ، این مدل یک فرایند تفکر داخلی برای تصمیم گیری در مورد نحوه حرکت هر مرحله دارد. “مردم از برخی شهود برای انجام کاری استفاده می کنند ، اما روبات ها چنین شهود ندارند ، Kantik” یکی از اصلی ترین تحولات نسخه 4.3 توانایی فکر کردن قبل از عمل است. “

هر دو مدل جدید ربات Dipping مبتنی بر مدل های اصلی Jamin است و با داده های سازگار با آنها برای کار در زمینه فیزیکی بهینه می شوند. این رویکرد به روبات ها وظایف پیچیده چند مرحله ای را ارائه می دهد و به دنیای روباتیک به توانایی های “تجارت” می دهد.

با وجود همه این تحولات ، ما تا روزی که بتوانید ربات را سفارش دهید ، هنوز از شستن لباس های شما دور نیستیم. Gemini Robotics 4.3 ، که واقعاً روبات ها را کنترل می کند ، اکنون فقط برای یک گروه آزمایشی قابل اعتماد محدود می تواند مورد استفاده قرار گیرد. با این حال ، مدل ER اکنون به استودیوی Google AI اجازه می دهد تا دستورالعمل های روباتیک را برای آزمایش های روباتیک تولید کند.