Lompat ke konten Lompat ke sidebar Lompat ke footer

Information Retrieval

Apa itu Information Retrieval ?

Information Retrieval ialah seni dan ilmu mencari informasi di sementara dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, maupun mencari dalam database, apakah relasional database itu berdiri sendiri ataupun database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data.

Menurut Kowalaski: Informasi Retrieval ialah konsep sederhana dalam pencarian yang dilakukan oleh seseorang. seperti contoh ketika user akan memeriksa informasi yang dia butuhkan, maka sistem menerjemahakan kepada bentuk statment yang kemudian di eksekusi oleh sistem pencari.
Information Retrieval
Information Retrieval

Information Retrieval digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Salah satu contoh aplikasi umum dari informasi retrieval ialah search-engine (SE) maupun mesin pencarian yang terdapat pada jaringan internet.

Baca Juga: Kumulan Materi Teknik Informatika

Dari rujukan definisi diatas, sudah jelas dimaksudkan bahwa information retrevial ialah bidang keilmuan dalam Teknologi informasi yang menjelaskan tentang Pencarian dan Pengambilan Kembali Informasi. Ada dua elemen penting dalam Information Retrieval, yaitu Precision dan Reacall.

Precision merupakan rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh SE. Precision mencerminkan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan seraya kumpulan dokumen.

Information Retrieval, Precision, Recall
Precision

Recall meruakan rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen seraya kumpulan dokumen yang dianggap relevan.

Information Retrieval, Precision, Recall
Recall

Tujuan Di Dalam Information Retrieval yang harus dipenuhi ialah bagaimana mendapatkan dokumen relevan dan tidak mendapatkan dokumen tidak relevan. Tujuan lainnya merupakan bagaimana menyusun dokumen atau data yang telah didapatkan untuk ditampilkan secara terurut dari dokumen yang memiliki tingkat relevansi paling tingi ke tingkat relevansi paling rendah.

Baca Juga: Kumpulan Cerita Motivasi Terbaik

Contoh sederhana Information Retrieval ialah media penyimpanan kita sendiri. Terkadang ketika semakin banyak data yang kita simpan dalam sebuah media penyimpanan, kita akan lupa dimana kita meletakan data yang kita simpan, sehingga kita perlu melakukan proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools pencarian ataupun bisa dengan memeriksa satu persatu peta simpanan data kita.

Dalam studi kasus yang lebih kompleks penerapan IF adalah Search Engine (Mesin Pencari) seperti google dan yahoo. SE (Search Engine) merupakan implementasi yang sangat kompleks dari IF (Information Retrieval).

Cara Kerja Information Retrieval (IR)

Untuk menemukan informasi relevan yang kita cari, maka kata kunci (Keyword, Kueri) yang dimasukan sebaiknya sesuai dengan informasi yang ingin didapat, karena dengan keyword yang seusai maka proses pencarian dalam index di mesin Information Retrieval akan lebih cepat, sehingga korpus yang sesuai dengan katakunci yang dimasukan akan ditampilkan kembali pada si enduser.

Keyword, Kueri: merupakan inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari (Google atau Yahoo);

Indexing: merupakan proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata (token)

Korpus: ialah kumpulan dokumen yang disalin ke mesin IR Misalnya Google “menjepret” seluruh halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke mesin IR di ruang servernya google.

Bagaimana mesin Information Retrieval menyalin dokumen-dokumen yang berada di dunia maya ?. mesin IR memiliki robot (BOT) sejenis program yang bisa disebut juga dengan crawler, program tersebut yang kemudian berfungsi untuk menyalin dokumen / informasi yang berada disalasatu sumber misal website kepada server IR tersebut.

Selain melakukan crawling BOT tersebut juga melakukan indexing (pemberian index atau pembaharuan index), index bersisi kata - kata (token) yang terdapat dalam suatu web/blog, lebih simplenya ketika kita akan memposting suatu informasi melualui blog kita selalu di minta memasukan TAG dalam artikel yang akan kita posting, begitulah gambaran indexing dalam google, jadi index yang berada di mesin pencari merupakan kumpulan miliyaran tag tag informasi.

Berikut contoh video crawling salasatu mesin Pencari yang sedang dikembangkan oleh seorang developer yang memiliki blog di alamat berikut: Proses Crawling

Sedangkan vidio dibawah ini adalah, ilustrasi bagaimana Google Search Engine bekerja:



Proses yang terjadi di dalam Information Retrieval sendiri terdiri dari 2 bagian utama, yakni Indexing subsystem, dan Searching subsystem (matching system).

Proses indexing digunakan untuk membentuk basisdata terhadap koleksi dokumen yang dimasuk, dengan kata lain, indexing ialah proses persiapan yang dilakukan kepada dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, Term indexing dan  document indexing. Hasil Term indexing akan menghasilkan koleksi kata yang akan digunakan dalam meningkatkan performansi pencarian pada tahapan selanjutnya.

Tahap dalam proses indexing ialah:
  • Word Token, yakni mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat kepada dokumen dan mengubah kumpulan term menjadi lowercase.
  • Stopword Removal. Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.
  • Stemming. Proses mengubah suatu kata bentukan menjadi kata dasar.
  • Term Weighting. Proses pembobotan setiap term di dalam dokumen.

Baca Juga: Kumpulan Kata Motivasi Terbaik

Model Information Retrieval ada 3 jenis:
  • Model Vector Space: adalah model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional
  • Model Probabilistic: adalah model IR yang menggunakan framework probabilistik
  • Model Boolean: adalah model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean

Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini merupakan dokumen terangking yang dianggap paling relevan terhadap query.

Dalam model ruang vektor, dokumen dan juga query direpresentasikan sebagai vektor di dalam ruang vektor yang disusun di dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan dalam model probabilistik direpresentasikan dengan membuat asumsi-asumsi distribusi term dalam dokumen yang relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap query.


Sekian artikel tentang Information Retrieval, semoga dari artikel ini sobat bisa lebih tau tentang Apa itu Information Retrieval dan dimana implementasi nya.

MARKIJAR : MARi KIta belaJAR

Posting Komentar untuk "Information Retrieval"