Data mining adalah proses mengidentifikasi pola dan hubungan dari kumpulan data yang besar dan kompleks, dan biasanya digunakan untuk mengolah data mentah menjadi informasi yang berguna. Setelah itu, informasi tersebut dapat diorganisir, disaring, dan/atau dianalisis, sehingga dapat digunakan untuk mempermudah pengambilan keputusan. Teknik-teknik yang digunakan di data mining dapat dikategorikan secara umum untuk dua tujuan utama: mendeskripsikan dataset target atau memprediksi hasil menggunakan algoritma machine learning.
Proses dari data mining melibatkan berbagai tahapan, dari mengumpulkan, mempersiapkan, hingga memvisualisasikan data, semua langkah tersebut bertujuan untuk mengekstrak informasi berharga dari kumpulan data yang besar. Pada intinya, data mining menggabungkan machine learning dengan analisis statistik, bersama dengan manajemen data yang mempersiapkan data untuk analisis lebih lanjut.
Pada umumnya, data mining terdiri atas empat tahapan utama:
Langkah pertama data mining adalah menentukan masalah dan tujuan, yang bertujuan untuk membimbing formulasi pertanyaan dan parameter yang terkait dengan data. Setelah menentukan cakupan data, akan lebih mudah untuk mengidentifikasi dan mengumpulkan data-data yang relevan.
Setelah mengumpulkan data yang relevan, langkah berikutnya adalah untuk mengeksplorasi data, profiling data, dan pra-pemrosesan data. Langkah ini juga diikuti dengan pembersihan data untuk memperbaiki kesalahan dan meningkatkan kualitas data.
Dengan data yang telah dipersiapkan, para data scientists akan memilih dan mengimplementasikan satu atau lebih algoritma untuk data mining yang paling sesuai. Algoritma–algoritma ini umumnya dilatih dengan sampel dari kumpulan data untuk mengidentifikasi informasi yang dicari terlebih dahulu sebelum diterapkan pada keseluruhan kumpulan data.
Manfaat yang didapat dari data mining ini adalah membuat model analitis yang mendukung pengambilan keputusan dan tindakan lainnya.
Dalam kasus menganalisis CV, data mining dapat membantu mengidentifikasi kandidat yang sesuai berdasarkan karakteristik dan preferensi, seperti keterampilan, kualifikasi, lokasi, industri, minat, dan lainnya. Informasi ini memungkinkan para perekrut untuk mengurutkan dan membuat skala prioritas berdasarkan kesesuaian dan kesiapan kandidat terhadap pekerjaan.
Dengan menilai kesesuaian seorang kandidat berdasarkan data historis tentang perekrutan yang berhasil, kinerja pekerja, dan demografi pekerja, para perekrut dapat terbantu dalam menentukan kesesuaian kandidat, membuat skala prioritas, dan dengan demikian dapat meningkatkan kemungkinan perekrutan yang sukses. Sebagai contoh, menganalisis data perekrutan dan kinerja kerja dapat menunjukkan apabila kandidat dengan latar belakang pendidikan tertentu dan/atau pengalaman kerja tertentu dapat memiliki kinerja yang lebih baik dalam pekerjaan tertentu.
Data yang terkumpul juga dapat ditinjau secara keseluruhan untuk meningkatkan proses perekrutan. Sebagai contoh, perusahaan dapat menyelidiki statistik para kandidat berdasarkan aspek seperti usia, jurusan, universitas, lokasi, dll., kemudian menggunakan hasilnya untuk menyelidiki penyebab-penyebab yang mendasari hal tersebut dan memastikan praktik perekrutan yang lebih baik.
Optical Character Recognition (OCR) adalah sistem yang mengotomatisasi ekstraksi data dari dokumen yang di-scan, foto teks, dan PDF dalam format gambar. Mesin tidak dapat memahami teks dalam gambar seperti halnya dengan cara manusia membaca teks. Namun, dengan teknologi OCR, sistem tersebut dapat mengenali teks dalam gambar dan mengubahnya menjadi dokumen teks yang dapat dibaca oleh mesin, yang juga dapat diedit dan dianalisis oleh perangkat lunak lain.
Generative Pre-trained Transformer (GPT) adalah model bahasa serbaguna. Hal ini berarti GPT mampu menangani berbagai pekerjaan yang terkait dengan teks dan bahasa, seperti menganalisis, merangkum, menerjemahkan, dan bahkan menghasilkan teks yang koheren. Kemampuan utama GPT yang paling terkenal, yaitu kemampuannya dalam memahami struktur dan makna teks dalam bahasa alami, disebabkan oleh fakta bahwa GPT adalah bagian dari model neural network.
OCR memungkinkan ekstraksi teks dari CV atau resume yang di-scan atau berbasis gambar. OCR juga dapat mengekstrak informasi penting seperti rincian pribadi, kualifikasi pendidikan, pengalaman kerja, keterampilan, dan informasi kontak.
GPT dapat digunakan untuk memahami konteks dan semantik dari teks yang diekstrak. Dengan memanfaatkan kemampuan pemrosesan bahasa, GPT dapat menganalisis isi CV dan resume dan secara otomatis mengkategorikannya berdasarkan kriteria seperti keterampilan, tingkat pengalaman, tingkat pendidikan, dan riwayat pekerjaan. Setelah itu, GPT dapat memberikan rekomendasi kepada para perekrut mengenai proses perekrutan kandidat. Sebagai contoh, para perekrut dapat menanyakan mengenai kelebihan dan kekurangan kandidat, seberapa sesuai kandidat dengan persyaratan pekerjaan, dan/atau alasan untuk merekrut kandidat atau tidak.
Sebagai kesimpulan, manfaat data mining dalam menyaring data pada CV adalah dengan mengumpulkan dan menganalisis informasi kandidat, membuat prediksi berdasarkan data historis, dan menciptakan statistik keseluruhan yang dapat memberikan wawasan tentang demografi. Implementasi OCR dan GPT memiliki manfaat dalam data mining. Beberapa manfaatnya yaitu pengguna dapat menyederhanakan ekstraksi data penting, mengotomatisasi penyortiran, dan mendapatkan rekomendasi perekrutan. Integrasi teknologi ini tidak hanya punya manfaat dalam optimalisasi proses penyaringan CV, tetapi turut mendorong rekrutmen dan seleksi kerja yang berbasis informasi dan data sehingga meningkatkan efisiensi dan efektivitas dari keseluruhan proses perekrutan.