همانطور که گفته شد، یادگیری ماشین زیرمجموعه ای از هوش مصنوعی است و به طور کلی به دو دسته اصلی تقسیم می شود: یادگیری تحت نظارت و بدون نظارت.
یک تکنیک رایج برای آموزش سیستمهای هوش مصنوعی آموزش آنها با استفاده از نمونههای برچسبگذاریشده بسیاری است. این سیستمهای یادگیری ماشینی با حجم عظیمی از داده تغذیه میشوند که برای برجسته کردن ویژگیهای مورد علاقه، حاشیهنویسی شده است. اینها ممکن است عکسهایی باشند که نشان میدهند آیا حاوی یک موضوع اصل برای مثال سگ هستند یا جملات نوشتهشدهای که دارای پاورقی برای نشان دادن اینکه به طور مثال کلمه «باس» مربوط به موسیقی است یا ماهی است. پس از آموزش، سیستم میتواند این برچسبها را روی دادههای جدید اعمال کند، به عنوان مثال، روی یک سگ در عکسی که به تازگی آپلود شده است.
به این فرآیند آموزش ماشین با استفاده از مثال، یادگیری تحت نظارت گفته می شود. برچسبگذاری این نمونهها معمولاً توسط کارگران آنلاینی که از طریق پلتفرمهایی مانند Amazon Mechanical Turk استخدام میشوند، انجام میشود.
آموزش این سیستمها معمولاً به حجم وسیعی از دادهها نیاز دارد، برخی از سیستمها باید میلیونها مثال را جستجو کنند تا یاد بگیرند که چگونه یک کار را به طور مؤثر انجام دهند - اگرچه این امر در عصر دادههای بزرگ و دادهکاوی گسترده امکانپذیر است. مجموعه دادههای آموزشی بسیار بزرگ و در حال رشد هستند - مجموعه دادههای Open Images Google حدود نه میلیون تصویر دارد، در حالی که مخزن ویدیوی برچسبگذاری شده YouTube-8M به هفت میلیون ویدیوی برچسبدار پیوند میخورد. ImageNet، یکی از پایگاه های داده اولیه از این نوع، دارای بیش از 14 میلیون تصویر طبقه بندی شده است. که طی دو سال گردآوری شد، نزدیک به 50000 نفر - که بیشتر آنها از طریق Amazon Mechanical Turk استخدام شده بودند - گردآوری شد و تقریباً یک میلیارد عکس نامزد را بررسی، مرتبسازی و برچسبگذاری کردند.
دسترسی به مجموعه داده های بزرگ برچسب گذاری شده نیز ممکن است در دراز مدت اهمیت کمتری نسبت به دسترسی به مقادیر زیاد توان محاسباتی داشته باشد.
در سالهای اخیر، شبکههای متخاصم مولد (GAN) در سیستمهای یادگیری ماشینی مورد استفاده قرار گرفتهاند که تنها به مقدار کمی از دادههای برچسبگذاری شده در کنار مقدار زیادی داده بدون برچسب نیاز دارند، که همانطور که از نام آن پیداست، برای آمادهسازی نیاز به کار دستی کمتری است.
این رویکرد میتواند امکان افزایش استفاده از یادگیری نیمهنظارتشده را فراهم کند، جایی که سیستمها میتوانند نحوه انجام وظایف را با استفاده از مقدار بسیار کمتری از دادههای برچسبگذاری شده نسبت به آنچه برای سیستمهای آموزشی با استفاده از یادگیری نظارت شده امروزی ضروری است، بیاموزند.
در مقابل، یادگیری بدون نظارت از رویکرد متفاوتی استفاده میکند، جایی که الگوریتمها سعی میکنند الگوها را در دادهها شناسایی کنند، و به دنبال شباهتهایی هستند که میتوانند برای دستهبندی آن دادهها استفاده شوند.
یک مثال ممکن است خوشهبندی میوههایی با وزن مشابه یا خودروهایی با اندازه موتور مشابه باشد.
الگوریتم از قبل برای انتخاب انواع خاصی از داده ها تنظیم نشده است. به سادگی به دنبال دادههایی میگردد که شباهتهای آن میتواند گروهبندی شود، بهعنوان مثال، Google News هر روز مطلب هایی را درباره موضوعات مشابه گروهبندی میکند.
یک تشبیه خام برای یادگیری تقویتی، پاداش دادن به حیوان خانگی با انجام یک ترفند است. در یادگیری تقویتی، سیستم تلاش میکند تا بر اساس دادههای ورودی خود، پاداش را به حداکثر برساند و اساساً تا زمانی که به بهترین نتیجه ممکن برسد، فرآیند آزمون و خطا را طی میکند.
نمونه ای از یادگیری تقویتی، شبکه Deep Q Google DeepMind است که برای بهترین عملکرد انسان در انواع بازی های ویدیویی کلاسیک استفاده شده است. این سیستم با پیکسل های هر بازی تغذیه می شود و اطلاعات مختلفی مانند فاصله بین اشیاء روی صفحه را تعیین می کند.
با مشاهده امتیاز به دست آمده در هر بازی، سیستم مدلی را ایجاد می کند که عملکرد آن امتیاز را در شرایط مختلف به حداکثر می رساند.
این رویکرد همچنین در تحقیقات روباتیک استفاده میشود، جایی که یادگیری تقویتی میتواند به آموزش روشهای بهینه برای رفتار در محیطهای دنیای واقعی به روباتهای مستقل کمک کند.