Reinforcement learning adalah proses training dari model machine learning untuk membuat serangkaian keputusan (decisions). Dalam lingkungan yang tidak pasti dan berpotensi kompleks, agen software belajar untuk mencapai suatu tujuan (goal). Dalam reinforcement learning, kecerdasan buatan menghadapi environtment seperti game/permainan. Komputer melakukan trial and error untuk menyelesaikan masalah. Kecerdasan buatan di beri rewards atau penalties atas tindakan yang dilakukannya untuk mencapai apa yang diinginkan programmer. Tujuannya adalah untuk meningkatkan rewards total sebanyak mungkin.
Reinforcement learning adalah tipe algoritma machine learning yang bisa membuat agent software dan mesin bekerja secara otomatis untuk menentukan perilaku yang ideal sehingga dapat memaksimalkan kinerja algoritmanya. Terlepas dari kenyataan bahwa kebijakan prize atau rewards ditetapkan oleh programmer, peraturan utama tidak memberikan model atau ide tentang cara menyelesaikan permainan. Dimulai dengan uji coba secara acak dan berlanjut ke taktik canggih dan kemampuan manusia, terserah menggunakan model apapun untuk mengetahui bagaimana melakukan tugas atau task untuk memaksimalkan rewards. Reinforcement Learning merupakan teknik yang paling efektif untuk menunjukkan kreativitas komputer dengan memanfaatkan kekuatan pencarian dari banyak percobaan. Kecerdasan buatan, tidak seperti manusia, dapat memperoleh pengalaman dari ribuan simulasi jika algoritma reinforcement learning dilakukan pada infrastruktur komputer yang kuat.
Dalam tantangan Reinforcement Learning, seorang agen mengeksplorasi lingkungan yang tidak diketahui untuk mencapai tujuan tertentu. Prinsip di balik Reinforcement Learning adalah bahwa memaksimalkan rewards/prize secara kumulatif yang diprediksi dapat digunakan untuk mewakili tujuan apa pun. Untuk memaksimalkan reward/prize , agent software harus belajar merasakan dan mengeksplorasi kondisi lingkungan melalui aktivitasnya. Kerangka kerja formal untuk Reinforcement Learning terinspirasi oleh sulitnya kontrol optimal dari Markov Decision Processes (MDP). Berikut ini adalah komponen utama dari sistem RL:
Fungsi nilai (Value Function) adalah abstraksi yang berguna dari sinyal rewards karena secara akurat mewakili 'kebaikan/goodness' suatu kondisi. Fungsi nilai menangkap reward kumulatif yang diprediksi akan diterima dari state tersebut ke depannya, sedangkan sinyal reward menunjukkan manfaat langsung dari state tersebut. Tujuan algoritma Reinforcement Learning adalah untuk menemukan strategi tindakan yang memaksimalkan nilai rata-rata yang dapat diekstraksi dari setiap keadaan sistem.
Sebelumnya, penggunaan reinforcement learning dibatasi karena kurangnya infrastruktur komputer. Namun, kemajuan dicapai, sebagaimana dibuktikan oleh Gerard Tesauro's backgammon AI superplayer yang dibuat pada 1990-an. Dengan memanfaatkan teknologi komputasi baru yang kuat dan menyediakan cara untuk penggunaan baru yang menarik, progres awal itu berubah dengan cepat.
Training pada model yang mengontrol mobil self-driving adalah contoh yang sangat baik tentang bagaimana reinforcement learning dapat diterapkan. Dalam kasus yang ideal, komputer tidak boleh diberikan instruksi mengemudi apa pun. Pemrogram akan menghindari memasang kabel apa pun yang terkait dengan tugas dan sebaliknya membiarkan mesin belajar dari kesalahannya. Fungsi rewards akan menjadi satu-satunya fitur terprogram dalam pengaturan yang ideal. Beberapa contoh kasus penggunaan Reinforcement Learning adalah sebagai berikut
Beberapa kegiatan mengemudi otonom di mana reinforcement learning dapat digunakan termasuk optimasi lintasan, perencanaan gerak, pathing dinamis, pengoptimalan pengontrol, dan aturan pembelajaran berbasis skenario untuk jalan raya. Misalnya, mempelajari kebijakan parkir otomatis dapat membantu parkir. Q-Learning dapat digunakan untuk berpindah jalur, dan menyalip dapat dilakukan dengan mempelajari kebijakan menyalip, menghindari crash, dan kemudian menjaga kecepatan tetap stabil.
AWS DeepRacer adalah mobil balap otonom yang dibuat untuk menguji Reinforcement Learning di trek dunia nyata. Ini mengontrol throttle dan arah menggunakan model pembelajaran penguatan dan kamera untuk memvisualisasikan landasan pacu.
Peringkasan teks, penjawab pertanyaan, dan terjemahan mesin hanyalah beberapa dari aplikasi Reinforcement Learning di NLP. Deep Reinforcement Learning telah diusulkan untuk digunakan dalam pembuatan dialog oleh para peneliti dari Stanford University, Ohio State University, dan Microsoft Research. Dalam interaksi chatbot, Reinforcement Learning dalam dapat digunakan untuk memodelkan reward di masa mendatang.
Dua agen virtual digunakan untuk meniru percakapan. Urutan dengan properti percakapan penting termasuk koherensi, informasi, dan kesederhanaan respons diperhatikan dengan menggunakan pendekatan gradien kebijakan.
Kebijakan yang dipelajari menggunakan sistem RL Reinforcement Learningdapat membantu pasien dalam perawatan kesehatan. Reinforcement Learning dapat membangun kebijakan yang optimal berdasarkan pengalaman atau diagnosa sebelumnya bahkan tanpa pemahaman sebelumnya tentang model matematika sistem biologis.
Karena itu, teknik ini lebih berlaku dalam perawatan kesehatan daripada sistem berbasis kontrol lainnya. Contoh Reinforcement Learning dalam perawatan kesehatan termasuk rejimen pengobatan dinamis atau dynamic treatment regimens (DTR) pada penyakit kronis atau perawatan kritis, diagnostik medis otomatis, dan aplikasi luas lainnya.
Deep learnng dan reinforcement learning dapat digunakan untuk mengajar robot untuk memahami berbagai objek, termasuk yang tidak terlihat selama training. Ini mungkin digunakan untuk membuat produk di jalur perakitan, misalnya. Ini dicapai dengan mengintegrasikan pengoptimalan terdistribusi skala besar dengan QT-Opt, varian Q-Learning yang mendalam.
Karena QT-Opt mendukung ruang aksi berkelanjutan, QT-Opt sangat cocok untuk tantangan robotika. Sebuah model dilatih secara offline sebelum digunakan dan disetel dengan baik pada robot hidup. Dalam rentang 4 bulan, Google AI menggunakan teknik ini untuk meraih robotika, di mana tujuh robot dunia nyata berlari selama 800 jam.
Robot berbasis pembelajaran digunakan untuk melakukan berbagai tugas dalam penguatan industri. Selain lebih efisien dari manusia, robot-robot ini juga dapat melakukan tugas-tugas yang mungkin dianggap tidak aman oleh manusia.
Contoh yang bagus adalah penggunaan agen AI oleh Deepmind untuk mendinginkan Pusat Data Google. Hal ini mengakibatkan penurunan konsumsi energi sebesar 40%. Sistem AI saat ini mengontrol pusat sepenuhnya tanpa interaksi manusia. Para ahli di pusat data jelas masih bertanggung jawab atas pengawasan. Sistem beroperasi sebagai berikut:
Aspek yang paling sulit dari reinforcement learning adalah menyiapkan lingkungan simulasi, yang sangat bergantung pada pekerjaan yang ada. Mempersiapkan lingkungan simulasi untuk model menjadi ahli dalam game Catur, Go, atau Atari cukup mudah. Ketika mengembangkan model yang mampu mengemudikan kendaraan otonom, membuat simulator realistis sangat penting sebelum mengizinkan kendaraan untuk mengemudi di jalan. Model harus mengetahui cara mengerem atau menghindari tabrakan di lingkungan yang aman, di mana biaya mengorbankan seribu mobil dapat diabaikan. Bagian yang menantang adalah mengeluarkan model dari lingkungan training dan masuk ke dunia nyata.
Masalah lain adalah penskalaan dan penyesuaian jaringan saraf yang mengontrol bot. Tidak ada metode lain untuk berkomunikasi dengan jaringan selain melalui sistem reward dan punishment. Hal ini dapat mengakibatkan risiko kelupaan, di mana pengetahuan baru menyebabkan beberapa pengetahuan lama hilang dari jaringan.
Faktanya, perbedaan antara machine learning, deep learning, dan reinforcement learning harus dikaburkanr. Machine Learning adalah kategori terbesar, sedangkan Reinforcement Learning adalah yang tersempit. Reinforcement Learning di sisi lain, adalah aplikasi khusus dari machine dan deep learning yang digunakan untuk memecahkan masalah dengan cara tertentu.
Sementara reinforcement learning masih menjadi topik hangat di dunia akademis, kemajuan besar telah dicapai dalam menggunakannya di dunia nyata. Metode dimana agen dilatih adalah ciri pembeda mendasar dari reinforcement learning . Daripada menganalisis data, model berinteraksi dengan lingkungan, mencari metode untuk meningkatkan rewards. Jaringan saraf bertanggung jawab untuk menyimpan pengalaman/experience dalam pembelajaran reinforcement learning, yang meningkatkan cara tugas atau task diselesaikan.
Reinforcement learning tidak diragukan lagi merupakan teknologi mutakhir dengan potensi untuk mengubah dunia. Namun itu tidak perlu digunakan dalam setiap situasi. Meskipun demikian, reinforcement learning tampaknya menjadi metode yang paling masuk akal untuk membuat mesin menjadi kreatif lagi pula, mengeksplorasi metode baru dan imajinatif untuk menyelesaikan tugas adalah inti dari kreativitas.