Google، Wolfram Alpha و ChatGPT همگی از طریق یک فیلد ورودی متنی تک خطی با کاربران تعامل دارند و نتایج متنی را ارائه می دهند. گوگل نتایج جستجو، فهرستی از صفحات وب و مقالاتی را که اطلاعات مربوط به جستارهای جستجو را ارائه می دهد، برمی گرداند. Wolfram Alpha به طور کلی پاسخ های ریاضی و تجزیه و تحلیل داده ها را ارائه می دهد.
در مقابل، ChatGPT پاسخی را بر اساس زمینه و هدف پشت سوال کاربر ارائه می دهد. برای مثال، نمیتوانید از Google بخواهید داستانی بنویسد یا از Wolfram Alpha بخواهید یک ماژول کد بنویسد، اما ChatGPT میتواند این کارها را انجام دهد.
اساساً، قدرت گوگل توانایی انجام جستجوهای عظیم در پایگاه داده و ارائه یک سری موارد مشابه است. قدرت Wolfram Alpha توانایی تجزیه سوالات مربوط به داده ها و انجام محاسبات بر اساس آن سوالات است. قدرت ChatGPT توانایی تجزیه پرسوجوها و تولید پاسخها و نتایج کاملاً منسجم بر اساس بیشتر اطلاعات مبتنی بر متن در دسترس دیجیتالی جهان است - حداقل اطلاعاتی که در زمان آموزش قبل از سال 2021 وجود داشته است.
در این بخش، نگاه خواهیم کرد که چگونه ChatGPT میتواند پاسخهای کامل را ارائه دهد. ما با نگاهی به مراحل اصلی عملیات ChatGPT شروع میکنیم، سپس برخی از اجزای اصلی معماری هوش مصنوعی را پوشش میدهیم که همه کار را انجام میدهند.
بیایید دوباره از گوگل به عنوان یک قیاس استفاده کنیم. وقتی از Google میخواهید چیزی را جستجو کند، احتمالاً میدانید که در لحظهای که میپرسید، نمیرود و کل وب را برای یافتن پاسخ جستجو نمیکند. در عوض، گوگل در پایگاه داده خود صفحاتی را جستجو می کند که با آن درخواست مطابقت دارند. گوگل به طور موثر دارای دو مرحله اصلی است: مرحله جمعآوری داده ، و مرحله تعامل/جستجو با کاربر.
به طور کلی، ChatGPT به همین ترتیب کار می کند. مرحله جمع آوری داده ها پیش آموزش نامیده می شود، در حالی که مرحله پاسخگویی کاربر استنتاج نامیده می شود. جادوی پشت هوش مصنوعی مولد و دلیل منفجر شدن ناگهانی آن این است که روش کار پیشآموزشی به طور ناگهانی ثابت شده است که بسیار مقیاسپذیر است. این مقیاس پذیری با نوآوری های اخیر در فناوری سخت افزار مقرون به صرفه و رایانش ابری امکان پذیر شده است.
به طور کلی، هوش مصنوعی با استفاده از دو رویکرد اصلی آموزش می بیند: نظارت شده و بدون نظارت. برای اکثر پروژه های هوش مصنوعی تا زمان تولید فعلی سیستم های هوش مصنوعی مولد مانند ChatGPT، از رویکرد نظارت شده استفاده می شد.
پیشآموزش تحت نظارت فرآیندی است که در آن یک مدل بر روی یک مجموعه داده برچسبگذاری شده آموزش داده میشود، جایی که هر ورودی با یک خروجی مربوطه مرتبط است.
به عنوان مثال، یک هوش مصنوعی می تواند بر روی مجموعه داده ای از مکالمات خدمات مشتری آموزش داده شود، جایی که سوالات و شکایات کاربر با پاسخ های مناسب از نماینده خدمات مشتری برچسب گذاری می شود. برای آموزش هوش مصنوعی، سوالاتی مانند "چگونه می توانم رمز عبور خود را بازنشانی کنم؟" به عنوان ورودی کاربر ارائه می شود و پاسخ هایی مانند "شما می توانید رمز عبور خود را با مراجعه به صفحه تنظیمات حساب در وب سایت ما و دنبال کردن دستورات بازنشانی کنید." به عنوان خروجی ارائه خواهد شد.
در یک رویکرد آموزشی نظارت شده، مدل کلی برای یادگیری یک تابع نگاشت که می تواند ورودی ها را به خروجی ها به طور دقیق ترسیم کند، آموزش داده می شود. این فرآیند اغلب در وظایف یادگیری تحت نظارت، مانند طبقه بندی، رگرسیون، و برچسب گذاری توالی استفاده می شود.
همانطور که ممکن است تصور کنید، محدودیتهایی برای مقیاسپذیری وجود دارد. مربیان انسانی باید در پیشبینی همه ورودیها و خروجیها بسیار جلو بروند. آموزش ممکن است زمان بسیار زیادی طول بکشد و در تخصص موضوعی محدود باشد.
اما همانطور که می دانیم، ChatGPT محدودیت های بسیار کمی در تخصص موضوع دارد. می توانید از آن بخواهید رزومه ای برای شخصیت Chief Miles O'Brien از Star Trek بنویسد، فیزیک کوانتومی را توضیح دهد، یک کد بنویسد، یک داستان کوتاه بنویسد، و سبک های حکومتی روسای جمهور سابق ایالات متحده را مقایسه کند.
پیش بینی تمام سوالاتی که همیشه پرسیده می شود غیرممکن است، بنابراین واقعاً هیچ راهی وجود ندارد که ChatGPT با یک مدل نظارت شده آموزش داده شود. در عوض، ChatGPT از پیش تمرینی بدون نظارت استفاده می کند - و این تغییر دهنده بازی است.
پیشآموزش بدون نظارت فرآیندی است که طی آن یک مدل بر روی دادههایی که هیچ خروجی خاصی با هر ورودی مرتبط نیست آموزش داده میشود. در عوض، مدل برای یادگیری ساختار و الگوهای زیربنایی در داده های ورودی بدون هیچ کار خاصی در ذهن آموزش داده شده است. این فرآیند اغلب در کارهای یادگیری بدون نظارت، مانند خوشه بندی، تشخیص ناهنجاری و کاهش ابعاد استفاده می شود. در زمینه مدلسازی زبان، میتوان از پیشآموزش بدون نظارت برای آموزش مدلی برای درک نحو و معنای زبان طبیعی استفاده کرد تا بتواند متنی منسجم و معنادار در یک زمینه محاورهای تولید کند.
اینجاست که دانش ظاهراً نامحدود ChatGPT امکان پذیر می شود. از آنجایی که توسعهدهندگان نیازی به دانستن خروجیهایی که از ورودیها میآیند، ندارند، تنها کاری که باید انجام دهند این است که اطلاعات بیشتر و بیشتری را در مکانیسم پیشآموزشی ChatGPT، که به آن مدلسازی زبان مبنا مبدل میگویند، بریزند.
معماری ترانسفورماتور نوعی شبکه عصبی است که برای پردازش داده های زبان طبیعی استفاده می شود. یک شبکه عصبی نحوه عملکرد مغز انسان را با پردازش اطلاعات از طریق لایه هایی از گره های به هم پیوسته شبیه سازی می کند. یک شبکه عصبی مانند یک تیم هاکی را در نظر بگیرید: هر بازیکن نقشی دارد، اما آنها در بین بازیکنانی که نقشهای خاصی دارند، با هم کار میکنند تا گل را به ثمر برسانند.
معماری ترانسفورماتور دنبالهای از کلمات را با استفاده از "توجه به خود" برای سنجش اهمیت کلمات مختلف در یک دنباله هنگام پیشبینی پردازش میکند. توجه به خود شبیه روشی است که خواننده ممکن است به یک جمله یا پاراگراف قبلی برای زمینه مورد نیاز برای درک یک کلمه جدید در کتاب نگاه کند. ترانسفورماتور برای درک زمینه و روابط بین کلمات به همه کلمات به ترتیب نگاه می کند.
ترانسفورماتور از چندین لایه تشکیل شده است که هر یک دارای چندین لایه فرعی است. دو لایه فرعی اصلی عبارتند از لایه خود توجه و لایه پیشخور. لایه خودتوجهی اهمیت هر کلمه را در دنباله محاسبه میکند، در حالی که لایه پیشخور، تبدیلهای غیرخطی را به دادههای ورودی اعمال میکند. این لایه ها به ترانسفورماتور کمک می کند تا روابط بین کلمات را در یک دنباله بیاموزد و درک کند.
در طول آموزش، داده های ورودی مانند یک جمله به ترانسفورماتور داده می شود و از آن خواسته می شود تا بر اساس آن ورودی، پیش بینی کند. این مدل بر اساس میزان مطابقت پیش بینی آن با خروجی واقعی به روز می شود. از طریق این فرآیند، ترانسفورماتور یاد می گیرد که زمینه و روابط بین کلمات را در یک دنباله درک کند، و آن را به ابزاری قدرتمند برای پردازش زبان طبیعی مانند ترجمه زبان و تولید متن تبدیل می کند.