Ilmu Perpustakaan & Informasi

diskusi dan ulasan ringkas

Archive for the ‘Information Retrieval’ Category

Karena Berdialog, Maka Relevan

Posted by putubuku pada Juni 17, 2008

Secara fitrahnya, perpustakaan dan sistem informasi berkutat dengan persoalan relevansi. Memang, kata “relevansi” itu sendiri datang dari “orang-orang sistem”, terutama orang-orang yang mendalami information retrieval, tapi para pustakawan sejak lama juga sudah mengantisipasi isyu ini. Ingat saja salah satu wejangan ‘suhu’ Ranganathan tentang ‘every book its reader‘. Di frasa ini ada keyakinan bahwa setiap orang punya buku yang cocok untuknya. Bahkan kita dapat secara dramatis mengatakan, untuk setiap bayi yang lahir di dunia ini ada sebuah buku terbit. Kelak di suatu masa, bayi itu akan membaca buku yang cocok untuknya.

Persoalan relevansi sudah dibahas di mana-mana, termasuk di blog saya yang terdahulu (lihat di sini). Secara lebih spesifik, persoalan relevansi yang berkaitan dengan ketepatan pencarian (dikenal dengan ukuran recall and precision) juga sudah dibahas (lihat di sini). Kedua tulisan tersebut menjelaskan relevansi sebagai sebuah ukuran (measurement), dan ukuran ini dikenakan kepada sebuah kinerja sistem. Dengan kata lain, ukuran ini biasanya datang dari sisi luar sebuah sistem, sebab itu dapat pula disebut sebagai ukuran eksternal.  

Secara konseptual, maka ukuran relevansi yang eksternal ini punya satu kelemahan penting. Dalam konsep relevansi, sebuah dokumen atau buku dianggap relevan jika sesuai dengan kebutuhan pengguna. Kesesuaian ini kemudian ditetapkan sebagai sebuah ukuran kuantitatif yang tetap. Dalam teknik information retrieval cara penetapan ukuran kesesuaian ini seringkali linear (satu arah). Seseorang memasukkan pertanyaan (query) ke sebuah sistem, lalu sistem memberikan jawaban. Berdasarkan jawaban ini dilakukan penghitungan seberapa relevan dokumen yang telah ditemukan oleh sistem.

Konsep linear di atas mengandaikan bahwa sebuah query sudah pasti mencerminkan kebutuhan pengguna. Di sinilah salah satu titik terlemah dari ukuran relevansi eksternal. Mesin dan sistem komputer terpaksa menerima query apa adanya dan tak punya pilihan selain mendaulat si pengguna sebagai pihak yang paling tahu apa yang dibutuhkannya, dan tahu pula bagaimana menyampaikan permintaan yang akurat sekaligus jelas.

Alas, tak semua pengguna tahu bagaimana bertanya dengan baik, sebagaimana halnya tak semua anak-anak tahu bagaimana meminta manisan kepada Ibunya tanpa merengek-rengek.

Dalam perkembangan pemikiran tentang relevansi selanjutnya, muncul pemikiran untuk menanggulangi persoalan akibat sifat komunikasi yang linear antara manusia dan komputer ini. Muncul pemikiran tentang kemungkinan mengubah komunikasi satu arah alias monolog yang selama ini menjadi dasar bagi perhitungan relevansi eksternal. Tentu saja, kandidat paling pas untuk menggusur monolog adalah dengan mengedepankan dialog.

Toh, dialog adalah fitrah kepustakawanan pula! Demikianlah menurut Budd (2004), teori kritis dari filsuf Jerman, Jugen Habermas, dapat digunakan untuk memahami relevansi yang berdasarkan karakteristik dasar komunikasi manusia. Kehidupan yang manusiawi tentu saja tak berisi monolog belaka, melainkan sebenarnya penuh dengan dialog. Salah satu pandangan Habermas tentang sifat dialogis dari komunikasi antar manusia dapat dijadikan patokan. Habermas pernah menyatakan tentang hubungan tripartit (melibatkan tiga hal) dalam komunikasi. Ia mengatakan, “Seorang pembicara mencapai kesepahaman dengan orang lain tentang sesuatu” (Nah, ada tiga hal di situ: pembicara, orang lain, dan sesuatu).

Selain itu Habermas menekankan pada keberadaan “dunia sosial” yang dihuni bersama-sama oleh banyak orang, sehingga menurutnya komunikasi bukanlah proses linear (garis lurus) melainkan sebuah dinamika dan kekuatan transformatif yang menghasilkan kesepahaman. Secara penuh, Budd mengutip wejangan Habermas:

The telos of reaching understanding inherent in the structures of language compels the communicative actors to alter their perspective; this shift in perspective finds expression in the necessity of going from the objectivating attitute of the success-oriented actor, who seeks to effect something in the world, to the performative attitude of a speaker, who seeks to reach understanding with a second person about something.

Habermas percaya, hidup ini sebenarnya nyaman berkat komunikasi yang dialogis. Di dalam komunikasi dialogis, orang-orang akan mengganti-ganti perspektif, sebab struktur bahasa mengandung di dalamnya upaya mencapai kesepahaman. Adalah fitrah manusia pula untuk saling memahami. Kegiatan mengganti-ganti perspektif ini merupakan usaha memahami, dan akan terlihat dalam bentuk perubahan posisi dari seseorang yang berorientasi pada pencapaian kepentingannya (dengan tujuan mempengaruhi dunianya) menjadi seseorang yang bersikap ingin mencapai kesepahaman tentang sesuatu dengan orang lain. Dari orang yang hanya mementingkan dirinya sendiri, menjadi orang yang menyadari kepentingan bersama.

Menurut Budd, pemikiran pemikir lainnya, yakni Mikhail Bakhtin, juga perlu dipertimbangkan. Bakhtin berhasil menjelaskan kualitas dialog. Menurutnya, semua komunikasi adalah monolog atau dialog. Komunikasi monolog tidak mengijinkan respon, tidak ada apropriasi oleh pembaca atau pendengar. Komunikasi dialogis membutuhkan interaksi antara pendengar dan pembicara, penulis dan pembaca.

Jenis komunikasi dialogis juga memerlukan pemahaman bahwa “bahasa bukanlah sebuah medium netral yang dapat dengan mudah jadi milik pribadi seorang penulis yang punya tujuan/kepentingan pribadi; sebab bahasa itu dihuni  -dihuni secara penuh (overpopulated)-  oleh tujuan/kepentingan orang-orang lain. Pemaksaan agar bahasa menjadi “pelayan” bagi kepentingan pribadi seseorang adalah amat sulit.

Berdasarkan Habermas dan Bakhtin di atas lah, Budd menganggap bahwa relevansi harus diletakkan dalam konteks komunikasi dialogis. Perpustakaan dan sistem informasi seyogyannya menciptakan dunia kehidupan yang lebih adem dan lebih tentrem lewat fasilitas dialog. Cobalah mencari di Google edisi Inggris, dan ketiklah “relevansi” niscaya Anda akan melihat tulisan “Did you mean: relevant“.

Google sedang membuka dialog dengan Anda.   
 

Bacaan:

Budd, J.M. (2004), “Relevance: language, semantics, philosophy” dalam Library Trends, vol 52 no 3, hal 447 – 462

Iklan

Posted in Ilmu informasi, Information Retrieval, Kepustakawanan | Dengan kaitkata: | 2 Comments »

Statistical Language Modeling

Posted by putubuku pada Mei 21, 2008

Sekali-sekali, kita berhitung yuk! 🙂 Salah satu kandidat hitung-hitungan itu adalah penggunaan statisik dalam temu kembali. Sebagaimana diuraikan oleh Liu dan Croft (2005), statistical language modeling atau biasa disebut language modeling (LM) termasuk pendatang baru dalam kerangka pemikiran yang menggunakan teori probabilitas (probabilistic framework). Sama halnya dengan model-model probabilistik, LM memang bermaksud menangkap ketidakteraturan statistis yang menjadi ciri dari ketidakteraturan penggunaan bahasa. (uraian ringkas tentang LM sudah ada di sini)

Sebagai aplikasi statistik, LM memang merupakan penerapan dari teori-teori Markov yang antara lain juga sudah dipakai oleh Zipf dalam bibliometrika dan Shannon yang berupaya menerapkan teori informasi dalam penggunaan bahasa manusia. Kini LM dipakai untuk pengenal bahasa lisan (automatic speech recognition). Sejak 1980, LM menjadi komponen penting dalam penerjemahan otomatis (machine traslation) dan pelacakan kesalahan eja (error spelling). Bahkan kemudian juga dipakai untuk mengembangkan perangkat lunak pengolah bahasa alamiah (natural language processing task), dan pembuatan ringkasan teks otomatis (summarization). Di penghujung era1990an teori dan aplikasi LM diperkenalkan ke bidang information retrieval  (IR) dan kini menjadi salah satu cabang penting penelitian di bidang ini.

Dalam bentuk rumus matematika, LM mengasumsikan S sebagai kata-kata (words) yang beruntaian: 

Untuk sejumlah k kata-kata, maka S mencerminkan Markov process dengan hitungan probabilitas:

Ketika n = 2, kita mengatakannya sebagai biagram language model, yang kemudian dapat diestimasi menggunakan informasi tentang keberadaan-bersama (co-occurance) pasangan kata-kata. Jika n = 1 maka kita menamakannya unigram language model, yang menggunakan hanya probabilitas dari kata-kata secara sendiri-sendiri (individual). Dalam bidang penelitian IR, orang lebih banyak menggunakan unigram model karena urut-urutan kata tidak terlalu dipermasalahkan, tidak seperti dalam pengenal suara otomatis (speech recognition) yang sangat bergantung kepada kemampuan mesin memahami urutan kata-kata.

Salah satu model IR yang menggunakan LM adalah Query-Likelihood Model yang pertama diusulkan oleh Ponte dan Croft (1998). Dalam model ini diasumsikan bahwa para pemakai sistem sudah memiliki gambaran yang cukup tentang istilah-istilah yang akan ada di dokumen “ideal” yang akan memenuhi kebutuhan informasi mereka.  Lalu, diasumsikan pula bahwa istilah yang digunakan untuk mencari dokumen itu (atau biasa disebut query) dapat memisahkan yang “ideal” dari yang tidak.

Jadi, query dianggap sebagai perwakilah dari dokumen “ideal” itu. Tugas sistem dengan demikian adalah memperkirakan, bagi setiap dokumen di dalam koleksi, dokumen mana yang paling ideal, atau dalam bentuk rumus:

di mana Q adalah query dan D adalah dokumen. Probabilitas P(D) biasanya diasumsikan seragam atau universal, dan  P(Q|D) diestimasikan untuk setiap dokumen. Dengan kata lain, kita menduga sebaran probabilitas kata-kata di setiap dokumen dan menghitung probabilitas query sebagai sampel dari sebaran itu. Dokumen kemudian diurutkan sesuai nilai probabilitas ini.

Dalam artikelnya, Ponte dan Croft menggunakan Bernoulli multivariat untuk menghitung P(Q|D). Mereka menganggap sebuah query sebagai sebuah vektor dari atribut biner, masing-masing atribut untuk sebuah istilah yang unik di dalam kosakata indeks, dan menandakan ada-tidaknya istilah tersebut di dalam query. Jumlah kemunculan istilah tersebut di dalam query sendiri tidaklah diperhitungkan. Ada dua asumsi yang mendasari model ini, yaitu: 

  1. Semua atribut bernilai biner. Jika sebuah istilah ada di query, maka atribut yang mewakili istilah tersebut bernilai 1. Jika tidak, bernilai 0.
  2. Istilah dianggap tidak berkaitan (independen) di dalam sebuah dokumen. Asumsi ini mirip dengan asumsi yang digunakan dalam teori-teori IR probabilistrik.

Berdasarkan dua asumsi di atas, maka query likelihood P(Q|D) dapat dirumuskan sebagai hasil dari dua probabilitas, yaitu probabilitas kemunculan istilah pada query dan probabilitas ketidak-munculan istilah itu. Atau dalam rumus formal:  

P(w|D) dihitung dengan metode non-parametrik yang memanfaatkan probabilias rata-rata dari w (words, kata-kata) di dalam dokumen yang mengandungnya. Untuk istilah-istilah yang tidak muncul, maka probabilitas umum di dalam koleksi lah yang digunakan. Juga perlu diketahui bahwa statistik tentang koleksi, seperti frekuensi kemunculan istilah (term frequency) dan frekuensi dokumen merupakan bagian integral dari LM, walaupun tidak digunakan secara menyeluruh/heuristik seperi halnya di dalam teori-teori probabilitas.

LM juga dipakai untuk model relevansi, seperti yang diusulkan oleh Lavrenko dan Croft (2001). Secara konseptual, model ini merupakan gambaran tentang kebutuhan informasi. Dengan kata lain, model ini merupakan deskripsi tentang topik yang berkaitan dengan kebutuhan informasi seseorang. Diasumsikan bahwa di dalam sekumpulan dokumen dan query Q, maka ada sebuah model relevansi yang belum diketahui, kita sebut saja sebagai R. Model relevansi ini memakai probabilitas P(w|R) terhadap kemunculan kata di dokumen-dokumen yang dianggap relevan.  Dalam hal ini, dokumen yang relevan adalah sampel acak dari distrbiutsi P(w|R). Baik query maupun dokumennya merupakan sampel dari R.

Esensi dari model Lavrenko dan Croft adalah dalam mengestimasikan  P(w|R). Katakanlah  P(w|R) merupakan probabilitas bahwa sebuah kata yang secara acak diambil dari dokumen yang relevan adalah kata w. Jika kita tahu dokumen-dokumen mana saja yang relevan, kita dapat melakukan estimasi probabilitas secara otomatis. Persoalannya, di dalam lingkungan yang sebenarnya, kita seringkali tidak punya contoh tentang dokumen yang relevan. Maka diusulkan cara yang masuk akal untuk memperkirakan  P(w|R) dengan menggunakan probabilitas bersama (joint probability) terhadap kata w dan kata-kata dalam query  , sehingga menghasilkan rumus:

 

Model-model di atas menimbulkan gerakan baru dalam tradisi penelitian IR yang berbasis probabilitas. Sepanjang akhir tahun 1990an sudah ada berbagai upaya untuk membandingkan LM dengan teori probabilitas dalam IR. Perkembangan eksperimen menggunakan LM juga semakin banyak dalam berbagai aplikasi IR.

Bacaan:

Lavrenko, V. dan Croft, W.B. (2001), “Relevance-based language models” dalam roceedings of th 24th ACM SIGIR Annual International Conference on Research and Development in Information Retrieval, hal. 120-127.

Liu, X. dan W.B. Croft (2005), “Statistical language modeling for information retrieval” dalam Annual Review of Information Science and Technology, Cronin, B. (ed.), vol. 39, Medford, NJ : Information Today Inc, hal. 3-31.

Ponte, J. dan Croft, W.B. (1998), “A language modeling approach to information retrieval” dalam Proceedings of th 21st ACM SIGIR Annual International Conference on Research and Development in Information Retrieval, hal. 275 – 281.

 

 

Posted in Information Retrieval, Teori | Dengan kaitkata: | 1 Comment »