Ilmu Perpustakaan & Informasi

diskusi dan ulasan ringkas

Archive for the ‘Information Retrieval’ Category

Model Vektor dan Clustering

Posted by putubuku pada April 3, 2008

Dalam teori  pengindeksan dan information retrieval, dikenal adanya model klasik. Model ini menganggap bahwa setiap dokumen dapat digambarkan dengan, atau diwakili oleh, serangkaian katakunci yang disebut sebagai indeks (index). Kata atau istilah yang digunakan sebagai indeks (index terms) pada dasarnya adalah kata yang diambil dari dokumen, maupun yang ditentukan dari luar dokumen,  yang secara semantik dapat membantu manusia mengetahui tema utama sebuah dokumen. Pada umumnya indeks adalah kata-benda, sebab kata-benda memiliki arti pada dirinya sendiri, sehingga secara semantik  lebih mudah dikenali dan diartikan.

Indeks merupakan hal terpenting dalam information retrieval, tetapi tidak semua kata indeks memiliki nilai penting yang sama sebagai wakil dokumen. Jika sebuah penyimpanan memiliki 1000 dokumen, dan jika sebuah kata indeks (misalnya kata ‘informasi’) muncul di setiap dokumen tersebut, maka kata itu tidak ada gunanya sebab dia tidak dapat membedakan antara dokumen nomor 1 sampai nomor 1000, semuanya tentang informasi. Sebaliknya, kalau ada istilah yang muncul hanya di lima dokumen (misalnya frasa ‘pengetahuan eksplisit’), maka frasa tersebut sangat penting sebab menjadi ciri unik untuk lima dokumen yang dapat dipilih oleh pengguna sesuai keperluannya.

Maka pemberian nilai terhadap sebuah istilah indeks menjadi pokok persoalan bagi semua sistem information retrieval. Salah satu cara untuk mengenakan nilai yang berbeda-beda kepada sebuah istilah yang digunakan sebagai indeks adalah adalah dengan mendaftar semua istilah yang ada dalam indeks, lalu memberikan kemungkinan nilai sama dengan atau lebih besar dari nol, untuk satu per satu istilah itu. 

Dalam sistem information retrieval yang menggunakan Boolean maka variabel nilai bobot istilah indeks selalu bersifat biner (dua pilihan), yaitu nol atau satu. Jika  nilainya satu maka model Boolean menyimpulkan bahwa dokumen relevan terhadap sebuah permintaan (query). Selebihnya, kalau bernilai nol maka dokumen dianggap tidak relevan. Karena hanya dua pilihan (alias biner), maka tidak ada kemungkinan ‘agak relevan’ alias partial match.  Keuntungan model Boolean tentunya adalah kesederhanaannya. Kerugian terbesarnya adalah pada kemungkinan penemuan dokumen yang terlalu banyak atau terlalu sedikit.

Pengenaan bobot (weighs) pada istilah indeks merupakan salah satu cara mengatasi kerugian model Boolean sederhana tersebut. Misalnya dengan menggunakan model Vektor. Model ini menganggap bahwa pembobotan biner terlalu terbatas kegunaannya, dan mengusulkan penggunaan konsep partial matching. Konsep ini dicapai dengan mengenakan bobot non-biner terhadap istilah indeks di dalam query dan di dalam dokumen. Masing-masing bobot ini kemudian digunakan untuk menghitung derajat kesamaan (degree of similarity) antara setiap dokumen di dalam sistem dan query yang diajukan pengguna. Sistem kemudian dapat mengurutkan dokumen menurut derajat kesamaan, dari yang paling tinggi ke yang paling rendah. Dengan kata lain, sistem menawarkan juga dokumen yang tidak sepenuhnya memenuhi query (atau ‘agak relevan’ alias partial match). Penjajaran dokumen secara berurutan ini diharapkan menghasilkan ketepatan (presisi) dibandingkan model Boolean klasik.

Perhatikanlah bahwa untuk model Vektor, bobot selalu dikaitkan dengan pasangan indeks dan query. Bobot ini   selalu bernilai positif dan non-biner. Istilah yang digunakan di dalam query selalu diberi bobot. Lalu, dilakukan penghitungan vektor query dan vektor dokumen, sehingga yang muncul adalah variasi nilai mulai dari nol sampai satu. Dalam model Vektor, maka derajat kesamaan indeks dokumen dan istilah dalam query, dihitung sebagai sebuah korelasi antara dua vektor tersebut. Korelasi ini kemudian dapat dikuantiikasi, salah satunya dengan menghitung kosinus sudut antara kedua vektor.

Dengan kata lain, alih-alih memutuskan apakah  sebuah dokumen relevan atau tidak, model Vektor membuat urut-urutan dokumen menurut derajat kesamaan (degree of similarity) terhadap query. Sebuah dokumen dapat dipilih walaupun hanya cocok dengan query secara sebagian (partial match). 

Tetapi, bagaimana mendapatkan dan menghitung bobot untuk istilah indeks? Karya Salton dan McGill (1983) mengulas berbagai cara menghitung bobot itu. Cara yang mereka anggap paling efektif adalah dengan menerapkan prinsip-prinsip clustering alias pengelompokan. Jika ada sekumpulan koleksi objek, C, dan sebuah set A,  maka algoritme clustering pada dasarnya hanya bermaksud memisahkan C menjadi dua kelompok: Pertama, kelompok yang berisi objek yang dapat dikaitkan dengan set A. Kedua, kelompok yang berisi objek yang tidak dapat dikaitkan dengan set A. Kondisi set A yang samar-samar menyebabkan kita tidak punya informasi yang lengkap untuk memutuskan secara tepat objek mana yang sungguh-sungguh cocok untuk set A dan objek mana yang sungguh-sungguh tidak cocok. Misalnya, seseorang mencari set A dari mobil-mobil yang harganya setara dengan Lexus 400. Jika kita tidak bisa secara persis dan tunggal, apa yang dimaksud dengan “setara”, maka kita tidak dapat dengan persis mendeskripsikan set A itu. 

Untuk melihat persoalan information retrieval sebagai persoalan clustering, kita menganggap kumpulan dokumen sebagai koleksi C dan menganggap query pengguna sebagai set A yang samar-samar (vague). Dengan skenario ini, maka persoalan information retrieval dapat dipersempit menjadi persoalan tentang bagaimana menentukan dokumen yang dapat dimasukkan sebagai set A, dan dokumen yang tidak dapat dimasukkan ke set A.

Ada dua isyu yang harus diatasi. Pertama, harus ada cara untuk menentukan fitur yang paling tepat dapat menggambarkan objek-objek di set A. Kedua, harus ada cara untuk menentukan fitur yang paling tepat dapat memisahkan objek di set A dari objek-objek lain di C. Fitur yang pertama akan menjadi cara mengkuantifikasi kesamaan intra-cluster. Fitur kedua akan menjadi cara mengkuantifikasi perbedaan inter-cluster. Kalau sebuah sistem dapat menyeimbangkan keduanya, maka sistem itu bekerja dengan baik.

Bacaan:

Salton, G. dan M.J. McGill (1983), Introduction to Modern Information Retrival, Ne York : McGraw-Hill.

Posted in Information Retrieval | Dengan kaitkata: , , , | Leave a Comment »

Periodisasi Information Retrieval

Posted by putubuku pada Maret 29, 2008

Ketika para pengelola perpustakaan baru mulai menggunakan komputer, salah satu hal mendasar dan terpenting yang pertama mereka lakukan adalah menciptakan  katalog berbantuan komputer. Ini kemudian dikenal sebagai “online public access catalogue” alias OPAC. Pada awalnya, penerapan ini betul-betul hanya memindahkan katalog kartu ke dalam bentuk elektronik atau digital. Namun lama kelamaan, berbagai perkembangan teknologi memungkinkan sistem simpan dan temu kembali menjadi lebih rumit, lebih beragam, dan lebih luas.

Sementara itu, teknologi komputer sendiri sebenarnya juga berkembang secara spesifik ke arah penyimpanan dan penemuan kembali informasi. Sejak awal, teknologi ini di arahkan ke persoalan dasar “simpan dan temukan lagi” itu. Chu (2003) membagi seluruh perkembangan prinsip dan teknik menyimpan informasi berbantuan komputer ini dalam 4 periode, seperti ini:

  1. Periode Peningkatan Kebutuhan (Increased demand) 1940s – sampai awal 1950an, yaitu periode ketika Perang Dunia II sedang menuju penyelesaian, dan negara-negara sekutu (terutama Amerika Serikat) bekerja keras menghajar Jerman dan Jepang. Pada saat itu muncul keperluan besar untuk laporan dan dokumen teknis dari penelitian yang menyangkut persenjataan. Dari kebutuhan yang meningkat pada masa perang inilah lahir salah satu prinsip yang kemudian diterapkan dalam bidang komputer, yaitu coordinated indexes yang pertama kali disebut-sebut secara resmi pada tahun 1951.
  2. Periode Pertumbuhan Pesat (Rapid Growth) antara 1950an – 1980an, yaitu masa keemasan temu-kembali berbantuan komputer, saat teknologi ini diperkenalkan antara 1957 sampai 1959 oleh Hans Peter Luhn dalam bentuk mesin yang tidak hanya dapat melakukan penemuan informasi berdasarkan kecocokan kata kunci (keyword matching) saja, melainkan juga mengurutkan informasi secara sistematis (sorting), dan bahkan bisa melakukan analisis isi (content analysis) secara sederhana. Tahun 60an muncul DIALOG salah satu pionir dalam penyediaan informasi melalui jaringan terpasang (online database).
  3. Periode Penghapusan Mitos (Demystified Phase) antara 1980an – 1990an yaitu saat komputer pribadi (PC) dan keping penyimpan data (CDROM) semakin lama semakin besar daya tampungnya. Ketika online system sudah semakin berkembang, para pengguna sebenarnya tidak bisa memakai langsung. Jadi, harus ada para perantara (intermediaries) yang menggunakannya, antara lain karena sistem itu mahal dan sulit digunakan oleh orang awam. Maka lalu ada istilah end-users (orang yang tidak melakukan pencarian, tetapi minta bantuan pustakawan untuk melakukan pencarian). Keadaan baru berubah setelah PC dan CDROM ditemukan. Berbagai sistem informasi dibuat menjadi semakin mudah digunakan (user friendly), sehingga mitos tentang betapa sulitnya melakukan pencarian secara terpasang (online search) pun perlahan sirna.  Setiap orang lalu dapat melakukan pencarian tanpa harus meminta bantuan kepada pustakawan.
  4. Periode Jaringan (The Networked Era) tahun 1990an – sekarang, yaitu ketika teknologi telematika memungkinkan para pencari informasi ‘mengunjungi’ berbagai pusat penyimpanan data dan informasi yang berbeda-beda untuk melakukan pencarian secara bersamaan, atau dikenal juga dengan istilah pencarian berpencar (distributed searching). Perkembangan Internet pun akhirnya melahirkan fenomena pencarian tanpa bantuan siapa pun terhadap berbagai sumber informasi digital yang nyaris tak terhingga jumlahnya.

Pada saat komputer mulai digunakan dalam kegiatan menyimpan dan menemukan kembali informasi, diperkenalkanlah istilah information retrieval sebagai nama untuk bidang khusus yang memperhatikan persoalan penyimpanan dan penemuan kembali informasi elektronik atau digital. Dalam perkembangan selanjutnya, istilah ini dibedakan dari data retrieval. Baeza-Yates dan Riberio-Neto (1999) merumuskan perbedaan antara keduanya sebagai berikut:

Information Retrieval (IR) deals with the representation, storage, organization of, and access to information items. The representation and organization of the information items should provide the user with easy access to information in which he is interested … Data retrieval, in the context of an IR system, consist mainly of determining which documents of a collection contain the keyword in the user query which, most frequently, is not enough to satisfy the user information need.

Jadi, information retrieval merujuk ke keseluruhan kegiatan yang meliputi pembuatan wakil informasi (representation), penyimpanan (storage), pengaturan (organization) sampai ke pengambilan (access). Semua ini harus memudahkan pemakai sistem informasi untuk memperoleh apa yang diinginkannya. Sementara itu, data retrieval memiliki lingkup yang lebih sempit, yaitu bagaimana mencocokkan antara kata-kata yang terkandung di sebuah dokumen dengan kata-kata yang digunakan seseorang dalam mencari informasi (dengan asumsi bahwa yang dicari adalah kata-kata dan dokumennya berisi kata-kata).

Seringkali ada kesalahpahaman tentang katalogisasi-klasifikasi dan information retrieval. Ada yang mengganggap bahwa keduanya adalah hal serupa, ada yang menganggap keduanya tidak serupa sama sekali, ada yang menganggap information retrieval menggantikan katalogisasi-klasifikasi. Padahal keduanya adalah hal yang berkesinambungan, tidak saling menggantikan, memiliki perbedaan yang mendasar, tetapi dibangun oleh prinsip dasar yang sama tentang penyimpanan dan penemuan kembali pengetahuan.

Rujukan:

Chu, Heting (2003), Information Representation and Retrival in the Digital Age, Medford NJ : Information Today

Baeza-Yates, Ricardo dan Berthier Riberio-Neto (1999), Modern Information Retrieval, New York : ACM Press.

Posted in Information Retrieval | Dengan kaitkata: , , | 5 Comments »

 
Ikuti

Get every new post delivered to your Inbox.

Bergabunglah dengan 31 pengikut lainnya.