راهنمای جامع نحوه استفاده از ChatGPT:هر آنچه که باید بدانید

2023-05-31T15:48:00Z موضوع علم دانش تکنولوژی زمان مطالعه 26 دقیقهدرجه کیفی A

مجموعه داده های آموزشی ChatGPT و پردازش زبان طبیعی(زمان مطالعه 6 دقیقه)

مجموعه داده مورد استفاده برای آموزش ChatGPT بسیار زیاد است. ChatGPT بر اساس معماری GPT-3 (Generative Pre-trained Transformer 3) است. حالا، مخفف GPT منطقی است، اینطور نیست؟ این مولد است، به این معنی که نتایج را تولید می کند، از قبل آموزش داده شده است، به این معنی که بر اساس تمام این داده هایی است که دریافت می کند، و از معماری ترانسفورماتور استفاده می کند که ورودی های متن را برای درک زمینه سنجش می کند.

GPT-3 بر روی مجموعه داده ای به نام WebText2 آموزش داده شد، کتابخانه ای با بیش از 45 ترابایت داده متنی. وقتی می توانید یک هارد دیسک 16 ترابایتی را با قیمت کمتر از 300 دلار خریداری کنید، یک مجموعه 45 ترابایتی ممکن است آنقدر بزرگ به نظر نرسد. اما متن فضای ذخیره سازی بسیار کمتری را نسبت به تصاویر یا ویدیو اشغال می کند.

این حجم عظیم داده به ChatGPT اجازه می‌دهد تا الگوها و روابط بین کلمات و عبارات را در زبان طبیعی در مقیاسی بی‌سابقه بیاموزد، که یکی از دلایلی است که در ایجاد پاسخ‌های منسجم و مرتبط به پرسش‌های کاربر بسیار موثر است.

در حالی که ChatGPT بر اساس معماری GPT-3 است، بر روی مجموعه داده های متفاوتی تنظیم شده و برای موارد استفاده مکالمه بهینه شده است. این به آن اجازه می دهد تا تجربه شخصی و جذاب تری را برای کاربرانی که از طریق رابط چت با آن تعامل دارند، ارائه دهد.

به عنوان مثال، OpenAI (توسعه دهندگان ChatGPT) مجموعه داده ای به نام Persona-Chat منتشر کرده است که به طور خاص برای آموزش مدل های هوش مصنوعی محاوره ای مانند ChatGPT طراحی شده است. این مجموعه داده شامل بیش از 160000 دیالوگ بین دو شرکت کننده انسانی است که به هر شرکت کننده یک شخصیت منحصر به فرد اختصاص داده شده است که پیشینه، علایق و شخصیت آنها را توصیف می کند. این به ChatGPT اجازه می‌دهد تا نحوه ایجاد پاسخ‌هایی را که شخصی‌سازی شده و مرتبط با زمینه خاص مکالمه هستند، بیاموزد.

 

علاوه بر Persona-Chat، بسیاری از مجموعه داده‌های مکالمه دیگر وجود دارد که برای تنظیم دقیق ChatGPT استفاده می‌شود. در اینجا چند نمونه هستند:

Cornell Movie Dialogs Corpus: مجموعه داده ای حاوی مکالمات بین شخصیت ها در فیلمنامه های فیلم. این شامل بیش از 200000 تبادل مکالمه بین بیش از 10000 جفت شخصیت فیلم است که طیف متنوعی از موضوعات و ژانرها را پوشش می دهد.

اوبونتو Dialogue Corpus: مجموعه ای از گفتگوهای چند نوبتی بین کاربرانی که به دنبال پشتیبانی فنی هستند و تیم پشتیبانی انجمن اوبونتو. این شامل بیش از 1 میلیون دیالوگ است که آن را به یکی از بزرگترین مجموعه داده های عمومی در دسترس برای تحقیق در مورد سیستم های گفتگو تبدیل می کند.

DailyDialog: مجموعه ای از گفتگوهای انسان به انسان در موضوعات مختلف، از گفتگوهای روزمره زندگی گرفته تا بحث در مورد مسائل اجتماعی. هر دیالوگ در مجموعه داده از چندین نوبت تشکیل شده است و با مجموعه ای از اطلاعات، احساسات و موضوع برچسب گذاری شده است.


علاوه بر این مجموعه داده ها، ChatGPT بر روی حجم زیادی از داده های بدون ساختار یافت شده در اینترنت، از جمله وب سایت ها، کتاب ها و سایر منابع متنی آموزش دیده است. این به ChatGPT اجازه داد تا در مورد ساختار و الگوهای زبان به معنای کلی تر بیاموزد، که سپس می تواند برای برنامه های خاص مانند مدیریت گفتگو یا تجزیه و تحلیل احساسات به خوبی تنظیم شود.

ChatGPT یک مدل متمایز است که با استفاده از رویکردی مشابه سری GPT آموزش داده شده است، اما با تفاوت هایی در معماری و داده های آموزشی. ChatGPT دارای 1.5 میلیارد پارامتر است که از 175 میلیارد پارامتر GPT-3 کوچکتر است.

 

به طور کلی، داده‌های آموزشی مورد استفاده برای تنظیم دقیق ChatGPT معمولاً ماهیت مکالمه‌ای دارند و به طور خاص شامل گفتگوهای بین انسان‌ها می‌شوند، که به ChatGPT اجازه می‌دهد یاد بگیرد که چگونه پاسخ‌های طبیعی و جذاب را در قالب مکالمه ایجاد کند.

آموزش بدون نظارت ChatGPT را به این صورت در نظر بگیرید: داده های زیادی به آن داده شد و به دستگاه های خود واگذار شد تا الگوها را بیابد و همه آن را معنا کند. این مکانیزمی است که به سیستم‌های هوش مصنوعی مولد جدید اجازه می‌دهد تا اینقدر سریع بزرگ شوند.

در حالی که کارهای سنگین برای هوش مصنوعی مولد ChatGPT توسط پیش آموزش انجام می شود، همچنین باید بتواند سوالات را بفهمد و پاسخ هایی را از روی همه آن داده ها بسازد. این کار توسط مرحله استنتاج انجام می شود که شامل پردازش زبان طبیعی و مدیریت گفتگو است.

 

مشارکت انسان در پیش آموزش؟

علی‌رغم مقیاس‌پذیری ذاتی پیش‌آموزش بدون نظارت، شواهدی وجود دارد که کمک‌های انسانی ممکن است در آماده‌سازی ChatGPT برای استفاده عمومی نقش داشته باشد.

افشای بزرگ در مقاله ای در مجله TIME بود که در مورد استفاده از "برچسب گذاران داده" انسانی با درآمد بین 1.32 تا 2 دلار در ساعت در کنیا بحث می کرد. طبق گزارش TIME، این کارگران وظیفه اسکن محتوای اینترنتی وحشتناک و غیراخلاقی جنسی را داشتند تا آن را برای آموزش ChatGPT پرچم گذاری کنند.

مقاله دیگری که در Martechpost، یک خبرنامه هوش مصنوعی منتشر شده است، بیان می‌کند که مدل زبان بزرگ با استفاده از فرآیندی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) آموزش داده شده است. بر اساس این مقاله، "فرایند آموزش شامل یک مدل اولیه تنظیم شده با استفاده از یادگیری نظارت شده است، با مربیان انسانی که هم نقش کاربر و هم یک دستیار هوش مصنوعی را بازی می کنند."

 

پردازش زبان طبیعی

پردازش زبان طبیعی (NLP) بر توانایی کامپیوترها برای درک، تفسیر و تولید زبان انسانی تمرکز دارد. با رشد تصاعدی داده های دیجیتال و استفاده روزافزون از رابط های زبان طبیعی، NLP به یک فناوری حیاتی برای بسیاری از مشاغل تبدیل شده است.

فن آوری های NLP را می توان برای طیف گسترده ای از برنامه ها، از جمله تجزیه و تحلیل احساسات، ربات های گفتگو، تشخیص گفتار و ترجمه استفاده کرد. با استفاده از NLP، کسب‌وکارها می‌توانند وظایف را خودکار کنند، خدمات مشتری را بهبود ببخشند، و بینش‌های ارزشمندی از بازخورد مشتریان و پست‌های رسانه‌های اجتماعی به دست آورند.

یکی از چالش های کلیدی در اجرای NLP، مقابله با پیچیدگی و ابهام زبان انسان است. الگوریتم‌های NLP باید روی مقادیر زیادی داده آموزش ببینند تا الگوها را بشناسند و تفاوت‌های ظریف زبان را بیاموزند. آنها همچنین باید به طور مداوم اصلاح و به روز شوند تا با تغییرات استفاده از زبان و زمینه هماهنگی داشته باشند.

این فناوری با تجزیه ورودی های زبان، مانند جملات یا پاراگراف ها، به اجزای کوچکتر و تجزیه و تحلیل معانی و روابط آنها برای ایجاد بینش یا پاسخ کار می کند. فن‌آوری‌های NLP از ترکیبی از تکنیک‌ها، از جمله مدل‌سازی آماری، یادگیری ماشینی، و یادگیری عمیق استفاده می‌کنند تا الگوها را بشناسند و از مقادیر زیادی داده یاد بگیرند تا به طور دقیق تفسیر و تولید کنند.

 

مدیریت گفتگو ChatGPT

ممکن است متوجه شده باشید که ChatGPT می‌تواند سؤالات بعدی بپرسد تا هدف شما را روشن کند یا نیازهای شما را بهتر درک کند و پاسخ‌های شخصی‌سازی شده را ارائه دهد که کل تاریخچه مکالمه را در نظر بگیرد.

اینگونه است که ChatGPT می تواند مکالمات چند نوبتی را با کاربران به روشی طبیعی و جذاب داشته باشد. این شامل استفاده از الگوریتم ها و تکنیک های یادگیری ماشین برای درک زمینه یک مکالمه و حفظ آن در مبادلات چندگانه با کاربر است.

مدیریت گفتگو یکی از جنبه‌های مهم پردازش زبان طبیعی است زیرا به برنامه‌های رایانه‌ای اجازه می‌دهد تا با افراد به گونه‌ای تعامل داشته باشند که بیشتر شبیه یک مکالمه باشد تا یک سری تعاملات یکباره. این می تواند به ایجاد اعتماد و تعامل با کاربران کمک کند و در نهایت منجر به نتایج بهتری شود.

 

سخت افزاری که ChatGPT را اجرا می کند

مایکروسافت اخیراً ویدیویی منتشر کرده است که در آن به نحوه استفاده از Azure برای ایجاد شبکه ای برای اجرای تمام محاسبات و فضای ذخیره سازی مورد نیاز ChatGPT می پردازد. این یک ساعت جذاب است، هم به دلیل بحث در مورد Azure و هم در مورد نحوه معماری هوش مصنوعی در سخت افزار واقعی.

مطالب مشابه

بهترین ابزار و نرم افزار سئو هوش مصنوعی در سال 2023(بخش سوم)
بهترین ابزار و نرم افزار سئو هوش مصنوعی در سال 2023(بخش سوم)
Alternate Text Nazila77
موضوع علم دانش تکنولوژی|زمان مطالعه 4 دقیقه
بهترین ابزار و نرم افزار سئو هوش مصنوعی در سال 2023(بخش دوم)
بهترین ابزار و نرم افزار سئو هوش مصنوعی در سال 2023(بخش دوم)
Alternate Text Nazila77
موضوع علم دانش تکنولوژی|زمان مطالعه 4 دقیقه
بهترین ابزار و نرم افزار سئو هوش مصنوعی در سال 2023(بخش اول)
بهترین ابزار و نرم افزار سئو هوش مصنوعی در سال 2023(بخش اول)
Alternate Text Nazila77
موضوع علم دانش تکنولوژی|زمان مطالعه 5 دقیقه
خطاهای ChatGPT:چگونه آنها را برطرف کنیم؟(بخش دوم)
خطاهای ChatGPT:چگونه آنها را برطرف کنیم؟(بخش دوم)
Alternate Text Nazila77
موضوع علم دانش تکنولوژی|زمان مطالعه 5 دقیقه