
بروزرسانی: 26 اردیبهشت 1404
اکنون هر کسی می تواند تنها با 450 دلار به خود یک هوش مصنوعی استدلال کند - Sky-T1 منبع باز است
این هفته، محققان آزمایشگاه محاسبات آسمان در دانشگاه کالیفرنیا، برکلی، مدل هوش مصنوعی Sky-T1-32B-Preview را راه اندازی کردند. ما در مورد یک شبکه عصبی با توانایی استدلال صحبت می کنیم که می تواند با OpenAI o1 در تعدادی از شاخص های کلیدی رقابت کند.

منبع تصویر: Lee Campbell/Unsplash
ظاهرا Sky-T1 اولین مدلی است که از استدلال منبع باز پشتیبانی می کند که امکان بازتولید آن را از ابتدا فراهم می کند. توسعه دهندگان مجموعه داده ای را که برای آموزش الگوریتم مورد استفاده قرار گرفت و همچنین سایر داده های لازم برای اجرای مدل هوش مصنوعی منتشر کردند.
یکی از ویژگی های اصلی الگوریتم این است که آموزش آن به هزینه های قابل توجهی نیاز ندارد. قابل توجه است که Sky-T1-32B-Preview با کمتر از 450 دلار آموزش داده شد.، توسعه دهندگان در وبلاگ خود نوشتند. بنابراین، آنها به وضوح نشان دادند که ایجاد یک مدل هوش مصنوعی با توانایی های استدلالی سطح بالا بدون سرمایه گذاری مالی قابل توجه امکان پذیر است.
تا همین اواخر، هزینه آموزش یک مدل زبان بزرگ با ویژگی های قابل مقایسه با میلیون ها دلار اندازه گیری می شد. کاهش قابل توجه هزینه ها از طریق استفاده از داده های مصنوعی، یعنی. داده های تولید شده توسط شبکه های عصبی دیگر به عنوان مثال، الگوریتم Palmyra X 004 که اخیرا توسط Winter منتشر شده است بر روی داده های مصنوعی آموزش داده شده است و برای توسعه دهندگان 700 هزار دلار هزینه داشته است.
برخلاف بسیاری از الگوریتم های هوش مصنوعی، مدل های استدلال به طور موثر حقایق را بررسی می کنند، که به آن ها اجازه می دهد تا پاسخ های دقیق تری ارائه دهند و کمتر مرتکب اشتباهاتی شوند که کاربران را گمراه کند. علاوه بر این، مدل های استدلال معمولاً در مقایسه با الگوریتم های متداول هوش مصنوعی، پاسخ به یک پرسش را بیشتر طول می کشند. با این حال، مدل های استدلال به طور کلی قابل اعتمادتر هستند، به ویژه در زمینه هایی مانند فیزیک، ریاضیات و علوم.
بر اساس گزارش ها، توسعه دهندگان از مدل استدلال QwQ-32B-Preview Alibaba برای ایجاد مجموعه داده آموزشی اولیه Sky-T1 استفاده کردند. سپس داده ها با استفاده از GPT-4o-mini از OpenAI به فرمت دقیق تری تبدیل شدند. فرآیند آموزش Sky-T1 با 32 میلیارد پارامتر حدود 19 ساعت طول کشید که برای آن از 8 شتاب دهنده گرافیکی Nvidia H100 استفاده شد.
در ادامه، ما بر روی توسعه مدل های کارآمدتر که عملکرد استدلال قوی تری را حفظ می کنند، و همچنین بررسی بهترین شیوه ها برای بهبود کارایی و دقت مدل ها در طول آزمایش، تمرکز خواهیم کرد. با ما همراه باشید تا در این ابتکارات هیجان انگیز پیشرفت کنیم."، توسعه دهندگان در وبلاگ خود نوشتند.
اگر متوجه خطایی شدید، آن را با ماوس انتخاب کرده و CTRL+ENTER را فشار دهید.
منبع: https://3dnews.ru/1116624