Optical Character Recognition (OCR) adalah sebuah konversi elektronik atau mekanik yang mengotomatisasi ekstraksi data dari dokumen yang di-scan, difoto, maupun PDF yang berbentuk gambar. Umumnya, mesin tidak dapat mengenali teks dalam gambar seperti ketika membaca dokumen teks atau seperti manusia membaca teks dari gambar. Namun, teknologi OCR memungkinkan teks dalam gambar untuk dikenali dan diubah menjadi dokumen teks yang dapat dibaca oleh mesin, yang kemudian dapat di-edit atau dianalisis oleh software lainnya.
Scanner akan mengubah dokumen menjadi data biner, di mana area yang terang diklasifikasikan sebagai latar belakang, area yang gelap diklasifikasikan sebagai teks, dan begitu pula sebaliknya.
Software OCR dapat menjernihkan gambar dengan teknik meluruskan, memuluskan, dan mengelompokkan gambar dalam bentuk kotak dan garis.
Algoritma OCR, pencocokan pola, dan ekstraksi fitur lah yang digunakan dalam mengenali teks. Pencocokan pola membandingkan gambar karakter (glyph) dengan data font dalam penyimpanan yang mirip dan berskala sama, sehingga cocok untuk dokumen yang sudah diketahui sistem. Sementara itu, ekstraksi fitur menguraikan gambar karakter (glyph) ke dalam beberapa fitur untuk menemukan kecocokan terbaik.
Terakhir sistem OCR akan mengubah teks yang dikenali dan terbaca menjadi berkas digital.
Dibandingkan menghabiskan 10 menit Anda untuk mengetik dan memasukkan data secara manual, dengan OCR Anda cukup memindai dan memeriksa kembali hasilnya. Selain itu, OCR juga dapat mempercepat proses verifikasi hingga dapat selesai hanya dalam beberapa menit.
Efisiensi operasional dapat ditingkatkan dengan membuat alur dan pemrosesan dokumen bekerja secara otomatis. Sebagai contoh, tidak perlu mengisi data formulir secara manual, dapat menggunakan kata kunci untuk mencari dokumen secara lebih cepat, dan dapat mengubah catatan tulisan tangan menjadi dokumen teks yang dapat di-edit.
Dengan memfasilitasi kecerdasan buatan, Anda dapat membuat beberapa pekerjaan menjadi otomatis dan mengurangi kebutuhan SDM. Dengan begitu, Anda dapat memangkas biaya tenaga kerja.
Model Generative Pre-trained Transformer (GPT) adalah model bahasa dengan fungsi umum yang mampu menangani berbagai tugas seperti membuat konten asli, menulis kode, meringkas teks, dan mengekstraksi data dari dokumen. GPT merupakan bagian dari model neural network yang menggunakan sistem arsitektur transformer. Neural network adalah sejenis algoritma pembelajaran mesin yang meniru struktur dari otak manusia. Dalam GPT, neural network berfungsi untuk menghubungkan masukan dan keluaran data teks. GPT juga menggunakan sistem arsitektur transformer, sebuah model Natural Language Processing (NLP) baru, yang menggunakan sistem memori mekanisme perhatian untuk memproses rangkaian teks yang panjang secara efektif.
Keahlian utama GPT adalah kemampuannya dalam memahami struktur dan makna dari sebuah teks. Untuk mempelajari berbagai macam pola dan hubungan dalam teks, GPT harus menjalani sebuah pelatihan dengan kumpulan data teks yang besar dan beragam. Dalam pelatihannya, digunakan teknik-teknik NLP seperti pengkategorian jenis kata, penguraian sintaks, dan analisis semantik. Teknik-teknik ini membantu GPT untuk menangkap struktur tatabahasa, mengidentifikasi kelas kata, dan memahami makna kalimat.
Proses pelatihan GPT melibatkan kombinasi dari pelatihan dengan pengawasan dan pelatihan tanpa pengawasan. Selama pelatihan dengan pengawasan, model OCR akan diberikan data berlabel dan pasangan masukan-keluaran data teks yang telah ditentukan. Pelatihan ini mirip dengan cara seorang guru menjelaskan makna sebuah kata kepada seorang anak. Dalam kasus GPT, modelnya dilatih dengan kumpulan data yang luas, yang masukannya berupa kalimat atau paragraf, dan keluarannya berupa prediksi kata selanjutnya.
Di sisi lain, pelatihan tanpa pengawasan mengacu pada pendekatan yang modelnya belajar untuk mengidentifikasi pola dan fitur dalam data tanpa label yang jelas, serupa dengan cara seorang anak belajar dengan mengamati dna menjelajahi dunia. Untuk GPT, fitur ini juga membutuhkan sejumlah besar data teks yang tidak memiliki label atau tidak dikaitkan dengan keluaran tertentu. Melalui pelatihan tanpa pengawasan, model tersebut akan memperoleh pemahaman mengenai pola, hubungan, dan makna dari kata, frasa, dan kalimat. Setelah GPT menyelesaikan fase pelatihannya, GPT dapat disesuaikan pada kumpulan data khusus yang lebih kecil dan spesifik, yang memungkinkannya melakukan tugas-tugas NLP tertentu.
GLAIR OCRGPT dikembangkan untuk mempercepat proses pengembangan dari model-model OCR. Dengan memanfaatkan model GPT-4, waktu pengembangan model akan dipersingkat secara signifikan. Dari pengembangan model khusus yang biasanya memakan waktu 4-8 minggu, kini dengan OCRGPT hanya diperlukan waktu sebanyak hingga 2 minggu. Selain itu, dengan bantuan GPT, model baru ini juga dapat memproses semua jenis dokumen.
Pertama, keuntungan dari GLAIR OCRGPT berasal dari fakta bahwa model GPT sudah dilatih sebelumnya. Hal ini berarti GLAIR OCRGPT membutuhkan sampel pelatihan yang lebih sedikit ketimbang model OCR khusus atau tradisional.
Kedua, GLAIR memanfaatkan model GPT untuk meningkatkan kemampuan pemrosesan teks dari sistem OCR. Karena GPT merupakan model bahasa, GPT unggul dalam memahami konteks, menyimpulkan hubungan kata dan kalimat, dan mengenali kata kunci. Tak hanya itu, GPT juga dapat meringkas teks dan membuat format yang terstruktur. Integrasi ini memfasilitasi OCR untuk dapat mengidentifikasi dan mengatur kategori atau bidang penting dari teks yang diekstraksi menjadi hasil yang ramah pengguna dan mudah diproses.