مجموعه داده مورد استفاده برای آموزش ChatGPT بسیار زیاد است. ChatGPT بر اساس معماری GPT-3 (Generative Pre-trained Transformer 3) است. حالا، مخفف GPT منطقی است، اینطور نیست؟ این مولد است، به این معنی که نتایج را تولید می کند، از قبل آموزش داده شده است، به این معنی که بر اساس تمام این داده هایی است که دریافت می کند، و از معماری ترانسفورماتور استفاده می کند که ورودی های متن را برای درک زمینه سنجش می کند.
GPT-3 بر روی مجموعه داده ای به نام WebText2 آموزش داده شد، کتابخانه ای با بیش از 45 ترابایت داده متنی. وقتی می توانید یک هارد دیسک 16 ترابایتی را با قیمت کمتر از 300 دلار خریداری کنید، یک مجموعه 45 ترابایتی ممکن است آنقدر بزرگ به نظر نرسد. اما متن فضای ذخیره سازی بسیار کمتری را نسبت به تصاویر یا ویدیو اشغال می کند.
این حجم عظیم داده به ChatGPT اجازه میدهد تا الگوها و روابط بین کلمات و عبارات را در زبان طبیعی در مقیاسی بیسابقه بیاموزد، که یکی از دلایلی است که در ایجاد پاسخهای منسجم و مرتبط به پرسشهای کاربر بسیار موثر است.
در حالی که ChatGPT بر اساس معماری GPT-3 است، بر روی مجموعه داده های متفاوتی تنظیم شده و برای موارد استفاده مکالمه بهینه شده است. این به آن اجازه می دهد تا تجربه شخصی و جذاب تری را برای کاربرانی که از طریق رابط چت با آن تعامل دارند، ارائه دهد.
به عنوان مثال، OpenAI (توسعه دهندگان ChatGPT) مجموعه داده ای به نام Persona-Chat منتشر کرده است که به طور خاص برای آموزش مدل های هوش مصنوعی محاوره ای مانند ChatGPT طراحی شده است. این مجموعه داده شامل بیش از 160000 دیالوگ بین دو شرکت کننده انسانی است که به هر شرکت کننده یک شخصیت منحصر به فرد اختصاص داده شده است که پیشینه، علایق و شخصیت آنها را توصیف می کند. این به ChatGPT اجازه میدهد تا نحوه ایجاد پاسخهایی را که شخصیسازی شده و مرتبط با زمینه خاص مکالمه هستند، بیاموزد.
علاوه بر Persona-Chat، بسیاری از مجموعه دادههای مکالمه دیگر وجود دارد که برای تنظیم دقیق ChatGPT استفاده میشود. در اینجا چند نمونه هستند:
Cornell Movie Dialogs Corpus: مجموعه داده ای حاوی مکالمات بین شخصیت ها در فیلمنامه های فیلم. این شامل بیش از 200000 تبادل مکالمه بین بیش از 10000 جفت شخصیت فیلم است که طیف متنوعی از موضوعات و ژانرها را پوشش می دهد.
اوبونتو Dialogue Corpus: مجموعه ای از گفتگوهای چند نوبتی بین کاربرانی که به دنبال پشتیبانی فنی هستند و تیم پشتیبانی انجمن اوبونتو. این شامل بیش از 1 میلیون دیالوگ است که آن را به یکی از بزرگترین مجموعه داده های عمومی در دسترس برای تحقیق در مورد سیستم های گفتگو تبدیل می کند.
DailyDialog: مجموعه ای از گفتگوهای انسان به انسان در موضوعات مختلف، از گفتگوهای روزمره زندگی گرفته تا بحث در مورد مسائل اجتماعی. هر دیالوگ در مجموعه داده از چندین نوبت تشکیل شده است و با مجموعه ای از اطلاعات، احساسات و موضوع برچسب گذاری شده است.
علاوه بر این مجموعه داده ها، ChatGPT بر روی حجم زیادی از داده های بدون ساختار یافت شده در اینترنت، از جمله وب سایت ها، کتاب ها و سایر منابع متنی آموزش دیده است. این به ChatGPT اجازه داد تا در مورد ساختار و الگوهای زبان به معنای کلی تر بیاموزد، که سپس می تواند برای برنامه های خاص مانند مدیریت گفتگو یا تجزیه و تحلیل احساسات به خوبی تنظیم شود.
ChatGPT یک مدل متمایز است که با استفاده از رویکردی مشابه سری GPT آموزش داده شده است، اما با تفاوت هایی در معماری و داده های آموزشی. ChatGPT دارای 1.5 میلیارد پارامتر است که از 175 میلیارد پارامتر GPT-3 کوچکتر است.
به طور کلی، دادههای آموزشی مورد استفاده برای تنظیم دقیق ChatGPT معمولاً ماهیت مکالمهای دارند و به طور خاص شامل گفتگوهای بین انسانها میشوند، که به ChatGPT اجازه میدهد یاد بگیرد که چگونه پاسخهای طبیعی و جذاب را در قالب مکالمه ایجاد کند.
آموزش بدون نظارت ChatGPT را به این صورت در نظر بگیرید: داده های زیادی به آن داده شد و به دستگاه های خود واگذار شد تا الگوها را بیابد و همه آن را معنا کند. این مکانیزمی است که به سیستمهای هوش مصنوعی مولد جدید اجازه میدهد تا اینقدر سریع بزرگ شوند.
در حالی که کارهای سنگین برای هوش مصنوعی مولد ChatGPT توسط پیش آموزش انجام می شود، همچنین باید بتواند سوالات را بفهمد و پاسخ هایی را از روی همه آن داده ها بسازد. این کار توسط مرحله استنتاج انجام می شود که شامل پردازش زبان طبیعی و مدیریت گفتگو است.
علیرغم مقیاسپذیری ذاتی پیشآموزش بدون نظارت، شواهدی وجود دارد که کمکهای انسانی ممکن است در آمادهسازی ChatGPT برای استفاده عمومی نقش داشته باشد.
افشای بزرگ در مقاله ای در مجله TIME بود که در مورد استفاده از "برچسب گذاران داده" انسانی با درآمد بین 1.32 تا 2 دلار در ساعت در کنیا بحث می کرد. طبق گزارش TIME، این کارگران وظیفه اسکن محتوای اینترنتی وحشتناک و غیراخلاقی جنسی را داشتند تا آن را برای آموزش ChatGPT پرچم گذاری کنند.
مقاله دیگری که در Martechpost، یک خبرنامه هوش مصنوعی منتشر شده است، بیان میکند که مدل زبان بزرگ با استفاده از فرآیندی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش داده شده است. بر اساس این مقاله، "فرایند آموزش شامل یک مدل اولیه تنظیم شده با استفاده از یادگیری نظارت شده است، با مربیان انسانی که هم نقش کاربر و هم یک دستیار هوش مصنوعی را بازی می کنند."
پردازش زبان طبیعی (NLP) بر توانایی کامپیوترها برای درک، تفسیر و تولید زبان انسانی تمرکز دارد. با رشد تصاعدی داده های دیجیتال و استفاده روزافزون از رابط های زبان طبیعی، NLP به یک فناوری حیاتی برای بسیاری از مشاغل تبدیل شده است.
فن آوری های NLP را می توان برای طیف گسترده ای از برنامه ها، از جمله تجزیه و تحلیل احساسات، ربات های گفتگو، تشخیص گفتار و ترجمه استفاده کرد. با استفاده از NLP، کسبوکارها میتوانند وظایف را خودکار کنند، خدمات مشتری را بهبود ببخشند، و بینشهای ارزشمندی از بازخورد مشتریان و پستهای رسانههای اجتماعی به دست آورند.
یکی از چالش های کلیدی در اجرای NLP، مقابله با پیچیدگی و ابهام زبان انسان است. الگوریتمهای NLP باید روی مقادیر زیادی داده آموزش ببینند تا الگوها را بشناسند و تفاوتهای ظریف زبان را بیاموزند. آنها همچنین باید به طور مداوم اصلاح و به روز شوند تا با تغییرات استفاده از زبان و زمینه هماهنگی داشته باشند.
این فناوری با تجزیه ورودی های زبان، مانند جملات یا پاراگراف ها، به اجزای کوچکتر و تجزیه و تحلیل معانی و روابط آنها برای ایجاد بینش یا پاسخ کار می کند. فنآوریهای NLP از ترکیبی از تکنیکها، از جمله مدلسازی آماری، یادگیری ماشینی، و یادگیری عمیق استفاده میکنند تا الگوها را بشناسند و از مقادیر زیادی داده یاد بگیرند تا به طور دقیق تفسیر و تولید کنند.
ممکن است متوجه شده باشید که ChatGPT میتواند سؤالات بعدی بپرسد تا هدف شما را روشن کند یا نیازهای شما را بهتر درک کند و پاسخهای شخصیسازی شده را ارائه دهد که کل تاریخچه مکالمه را در نظر بگیرد.
اینگونه است که ChatGPT می تواند مکالمات چند نوبتی را با کاربران به روشی طبیعی و جذاب داشته باشد. این شامل استفاده از الگوریتم ها و تکنیک های یادگیری ماشین برای درک زمینه یک مکالمه و حفظ آن در مبادلات چندگانه با کاربر است.
مدیریت گفتگو یکی از جنبههای مهم پردازش زبان طبیعی است زیرا به برنامههای رایانهای اجازه میدهد تا با افراد به گونهای تعامل داشته باشند که بیشتر شبیه یک مکالمه باشد تا یک سری تعاملات یکباره. این می تواند به ایجاد اعتماد و تعامل با کاربران کمک کند و در نهایت منجر به نتایج بهتری شود.
مایکروسافت اخیراً ویدیویی منتشر کرده است که در آن به نحوه استفاده از Azure برای ایجاد شبکه ای برای اجرای تمام محاسبات و فضای ذخیره سازی مورد نیاز ChatGPT می پردازد. این یک ساعت جذاب است، هم به دلیل بحث در مورد Azure و هم در مورد نحوه معماری هوش مصنوعی در سخت افزار واقعی.