Mengenal Tentang Reinforcement Learning

**Apa Itu Reinforcement Learning?**

‍

Reinforcement learning adalah proses training dari model machine learning untuk membuat serangkaian keputusan (decisions). Dalam lingkungan yang tidak pasti dan berpotensi kompleks, agen software belajar untuk mencapai suatu tujuan (goal). Dalam reinforcement learning, kecerdasan buatan menghadapi environtment seperti game/permainan. Komputer melakukan trial and error untuk menyelesaikan masalah. Kecerdasan buatan di beri rewards atau penalties atas tindakan yang dilakukannya untuk mencapai apa yang diinginkan programmer. Tujuannya adalah untuk meningkatkan rewards total sebanyak mungkin.

Reinforcement learning adalah tipe algoritma machine learning yang bisa membuat agent software dan mesin bekerja secara otomatis untuk menentukan perilaku yang ideal sehingga dapat memaksimalkan kinerja algoritmanya. Terlepas dari kenyataan bahwa kebijakan prize atau rewards ditetapkan oleh programmer, peraturan utama tidak memberikan model atau ide tentang cara menyelesaikan permainan. Dimulai dengan uji coba secara acak dan berlanjut ke taktik canggih dan kemampuan manusia, terserah menggunakan model apapun untuk mengetahui bagaimana melakukan tugas atau task untuk memaksimalkan rewards. Reinforcement Learning merupakan teknik yang paling efektif untuk menunjukkan kreativitas komputer dengan memanfaatkan kekuatan pencarian dari banyak percobaan. Kecerdasan buatan, tidak seperti manusia, dapat memperoleh pengalaman dari ribuan simulasi jika algoritma reinforcement learning dilakukan pada infrastruktur komputer yang kuat.

Bagaimana Cara Kerjanya?

‍

Dalam tantangan Reinforcement Learning, seorang agen mengeksplorasi lingkungan yang tidak diketahui untuk mencapai tujuan tertentu. Prinsip di balik Reinforcement Learning adalah bahwa memaksimalkan rewards/prize secara kumulatif yang diprediksi dapat digunakan untuk mewakili tujuan apa pun. Untuk memaksimalkan reward/prize , agent software harus belajar merasakan dan mengeksplorasi kondisi lingkungan melalui aktivitasnya. Kerangka kerja formal untuk Reinforcement Learning terinspirasi oleh sulitnya kontrol optimal dari Markov Decision Processes (MDP). Berikut ini adalah komponen utama dari sistem RL:

Pelajar atau agen software
Lingkungan di mana agen berinteraksi
Kebijakan pengambilan tindakan yang dipatuhi agen.
Agen melihat sinyal reward setelah mengambil tindakan.

Fungsi nilai (Value Function) adalah abstraksi yang berguna dari sinyal rewards karena secara akurat mewakili 'kebaikan/goodness' suatu kondisi. Fungsi nilai menangkap reward kumulatif yang diprediksi akan diterima dari state tersebut ke depannya, sedangkan sinyal reward menunjukkan manfaat langsung dari state tersebut. Tujuan algoritma Reinforcement Learning adalah untuk menemukan strategi tindakan yang memaksimalkan nilai rata-rata yang dapat diekstraksi dari setiap keadaan sistem.

Implementasi Reinforcement Learning

Sebelumnya, penggunaan reinforcement learning dibatasi karena kurangnya infrastruktur komputer. Namun, kemajuan dicapai, sebagaimana dibuktikan oleh Gerard Tesauro's backgammon AI superplayer yang dibuat pada 1990-an. Dengan memanfaatkan teknologi komputasi baru yang kuat dan menyediakan cara untuk penggunaan baru yang menarik, progres awal itu berubah dengan cepat.

Training pada model yang mengontrol mobil self-driving adalah contoh yang sangat baik tentang bagaimana reinforcement learning dapat diterapkan. Dalam kasus yang ideal, komputer tidak boleh diberikan instruksi mengemudi apa pun. Pemrogram akan menghindari memasang kabel apa pun yang terkait dengan tugas dan sebaliknya membiarkan mesin belajar dari kesalahannya. Fungsi rewards akan menjadi satu-satunya fitur terprogram dalam pengaturan yang ideal. Beberapa contoh kasus penggunaan Reinforcement Learning adalah sebagai berikut

Mobil Self Driving

Beberapa kegiatan mengemudi otonom di mana reinforcement learning dapat digunakan termasuk optimasi lintasan, perencanaan gerak, pathing dinamis, pengoptimalan pengontrol, dan aturan pembelajaran berbasis skenario untuk jalan raya. Misalnya, mempelajari kebijakan parkir otomatis dapat membantu parkir. Q-Learning dapat digunakan untuk berpindah jalur, dan menyalip dapat dilakukan dengan mempelajari kebijakan menyalip, menghindari crash, dan kemudian menjaga kecepatan tetap stabil.

AWS DeepRacer adalah mobil balap otonom yang dibuat untuk menguji Reinforcement Learning di trek dunia nyata. Ini mengontrol throttle dan arah menggunakan model pembelajaran penguatan dan kamera untuk memvisualisasikan landasan pacu.

Natural Language Processing (NLP)

Peringkasan teks, penjawab pertanyaan, dan terjemahan mesin hanyalah beberapa dari aplikasi Reinforcement Learning di NLP. Deep Reinforcement Learning telah diusulkan untuk digunakan dalam pembuatan dialog oleh para peneliti dari Stanford University, Ohio State University, dan Microsoft Research. Dalam interaksi chatbot, Reinforcement Learning dalam dapat digunakan untuk memodelkan reward di masa mendatang.

Dua agen virtual digunakan untuk meniru percakapan. Urutan dengan properti percakapan penting termasuk koherensi, informasi, dan kesederhanaan respons diperhatikan dengan menggunakan pendekatan gradien kebijakan.

Sektor Kesehatan

Kebijakan yang dipelajari menggunakan sistem RL Reinforcement Learningdapat membantu pasien dalam perawatan kesehatan. Reinforcement Learning dapat membangun kebijakan yang optimal berdasarkan pengalaman atau diagnosa sebelumnya bahkan tanpa pemahaman sebelumnya tentang model matematika sistem biologis.

Karena itu, teknik ini lebih berlaku dalam perawatan kesehatan daripada sistem berbasis kontrol lainnya. Contoh Reinforcement Learning dalam perawatan kesehatan termasuk rejimen pengobatan dinamis atau dynamic treatment regimens (DTR) pada penyakit kronis atau perawatan kritis, diagnostik medis otomatis, dan aplikasi luas lainnya.

Manipulasi Robotika

Deep learnng dan reinforcement learning dapat digunakan untuk mengajar robot untuk memahami berbagai objek, termasuk yang tidak terlihat selama training. Ini mungkin digunakan untuk membuat produk di jalur perakitan, misalnya. Ini dicapai dengan mengintegrasikan pengoptimalan terdistribusi skala besar dengan QT-Opt, varian Q-Learning yang mendalam.

Karena QT-Opt mendukung ruang aksi berkelanjutan, QT-Opt sangat cocok untuk tantangan robotika. Sebuah model dilatih secara offline sebelum digunakan dan disetel dengan baik pada robot hidup. Dalam rentang 4 bulan, Google AI menggunakan teknik ini untuk meraih robotika, di mana tujuh robot dunia nyata berlari selama 800 jam.

Otomasi Industri

Robot berbasis pembelajaran digunakan untuk melakukan berbagai tugas dalam penguatan industri. Selain lebih efisien dari manusia, robot-robot ini juga dapat melakukan tugas-tugas yang mungkin dianggap tidak aman oleh manusia.

Contoh yang bagus adalah penggunaan agen AI oleh Deepmind untuk mendinginkan Pusat Data Google. Hal ini mengakibatkan penurunan konsumsi energi sebesar 40%. Sistem AI saat ini mengontrol pusat sepenuhnya tanpa interaksi manusia. Para ahli di pusat data jelas masih bertanggung jawab atas pengawasan. Sistem beroperasi sebagai berikut:

Mengambil snapshot data selama lima menit dari pusat data dan memasukkannya ke algoritma jaringan yang dalam
Kemudian meramalkan dampak dari berbagai kombinasi pada penggunaan energi di masa depan.
Mengidentifikasi langkah-langkah yang akan menghasilkan penggunaan energi minimal sambil mematuhi serangkaian standar keselamatan
Mengirim aktivitas ini ke pusat data dan menerapkannya

Tantangan Dalam Reinforcement Learning

‍

Aspek yang paling sulit dari reinforcement learning adalah menyiapkan lingkungan simulasi, yang sangat bergantung pada pekerjaan yang ada. Mempersiapkan lingkungan simulasi untuk model menjadi ahli dalam game Catur, Go, atau Atari cukup mudah. Ketika mengembangkan model yang mampu mengemudikan kendaraan otonom, membuat simulator realistis sangat penting sebelum mengizinkan kendaraan untuk mengemudi di jalan. Model harus mengetahui cara mengerem atau menghindari tabrakan di lingkungan yang aman, di mana biaya mengorbankan seribu mobil dapat diabaikan. Bagian yang menantang adalah mengeluarkan model dari lingkungan training dan masuk ke dunia nyata.

Masalah lain adalah penskalaan dan penyesuaian jaringan saraf yang mengontrol bot. Tidak ada metode lain untuk berkomunikasi dengan jaringan selain melalui sistem reward dan punishment. Hal ini dapat mengakibatkan risiko kelupaan, di mana pengetahuan baru menyebabkan beberapa pengetahuan lama hilang dari jaringan.

‍

**Apa Bedanya Reinforcement Learning Dari Deep Learning dan Machine Learning?**

Faktanya, perbedaan antara machine learning, deep learning, dan reinforcement learning harus dikaburkanr. Machine Learning adalah kategori terbesar, sedangkan Reinforcement Learning adalah yang tersempit. Reinforcement Learning di sisi lain, adalah aplikasi khusus dari machine dan deep learning yang digunakan untuk memecahkan masalah dengan cara tertentu.

Machine learning, yaitu semacam AI di mana komputer diberi kemampuan untuk meningkatkan kinerja mereka pada tugas tertentu dari waktu ke waktu dengan menggunakan data daripada diajarkan secara langsung (menurut Arthur Lee Samuel). Dia menciptakan istilah "machine learning" yang dibagi menjadi dua jenis: diawasi dan tidak diawasi. Machine learning yang diawasi terjadi ketika seorang programmer dapat memberikan label untuk setiap masukan pelatihan ke dalam sistem pembelajaran mesin.

Supervised machine learning, terjadi ketika seorang programmer dapat memberi label pada setiap input pelatihan ke dalam sistem pembelajaran mesin.

Unsupervised learning, terjadi ketika model hanya disediakan dengan data input, tetapi tidak ada label eksplisit. Metode ini harus menyaring data untuk mengungkap struktur atau korelasi yang mendasarinya. Perancang/programmer mungkin tidak menyadari struktur atau hasil dari model machine learning. Prediksi churn adalah salah satu contoh yang digunakan. Sistem mengevaluasi data konsumen dan merancang algoritme untuk mengklasifikasikan klien ke dalam kelompok. Kelompok-kelompok, di sisi lain, tidak dipilih oleh sistem. Sistem dapat mengidentifikasi kelompok berisiko tinggi (mereka yang memiliki tingkat churn tinggi) setelahnya, dan perusahaan tahu siapa yang harus didekati terlebih dahulu. Deteksi nomaly adalah bentuk lain dari unsupervised learning, di mana algoritma harus mengidentifikasi elemen yang tidak termasuk dalam grup. Ini bisa berupa produk yang salah, kemungkinan transaksi penipuan, atau insiden lain yang tidak biasa.

Deep learning, terdiri dari beberapa lapisan jaringan saraf yang dimaksudkan untuk menyelesaikan tugas yang lebih kompleks. Model deep learning dibuat menggunakan versi sederhana dari desain otak manusia. Model deep learning terdiri dari beberapa lapisan jaringan saraf yang bertugas secara bertahap mempelajari properti yang lebih abstrak tentang input tertentu. Meskipun solusi deep learning dapat menghasilkan hasil yang fantastis, mereka tidak cocok untuk otak manusia dalam hal skala. Setiap lapisan mengambil hasil dari yang sebelumnya sebagai input, dan seluruh jaringan dilatih sebagai satu unit.

Reinforcement learning, seperti yang dinyatakan di atas menggunakan sistem rewards dan punishment untuk memaksa komputer memecahkan masalah dengan sendirinya. Keterlibatan manusia terbatas pada perubahan lingkungan dan menyempurnakan sistem rewards dan punishment. Ketika komputer berusaha untuk memaksimalkan rewards, ia cenderung menemukan cara baru untuk mencapainya. Keterlibatan manusia ditujukan untuk mencegah komputer menyalahgunakan sistem dan menginspirasinya untuk melakukan pekerjaan sebagaimana dimaksud. Ketika tidak ada "cara yang benar/right way" untuk menyelesaikan task, tetapi ada aturan yang harus diikuti model untuk melakukan tugasnya dengan benar, reinforcement learning daoat digunakan secara efektif. Contohnya road code.

Kesimpulan

Sementara reinforcement learning masih menjadi topik hangat di dunia akademis, kemajuan besar telah dicapai dalam menggunakannya di dunia nyata. Metode dimana agen dilatih adalah ciri pembeda mendasar dari reinforcement learning . Daripada menganalisis data, model berinteraksi dengan lingkungan, mencari metode untuk meningkatkan rewards. Jaringan saraf bertanggung jawab untuk menyimpan pengalaman/experience dalam pembelajaran reinforcement learning, yang meningkatkan cara tugas atau task diselesaikan.

Reinforcement learning tidak diragukan lagi merupakan teknologi mutakhir dengan potensi untuk mengubah dunia. Namun itu tidak perlu digunakan dalam setiap situasi. Meskipun demikian, reinforcement learning tampaknya menjadi metode yang paling masuk akal untuk membuat mesin menjadi kreatif lagi pula, mengeksplorasi metode baru dan imajinatif untuk menyelesaikan tugas adalah inti dari kreativitas.

‍

Diterjemahkan oleh Anisa Pradasurya dan Denny Fardian