Pengaplikasian Ruang Vektor Membantu Mesin Mengenali Sarkasme
“Bagaimana mesin mulai bisa mempelajari bentuk-bentuk sarkasme dengan memodelkan relasi antar kata-kata menjadi bentuk ruang vektor. Memang masih jauh dari kata sempurna, namun pengaplikasiannya cukup menjanjikan”
– catatan editor –
Artikel asli dalam Bahasa Inggris oleh: Emerging Technology
Ditranslasikan ke dalam Bahasa Indonesia oleh: Edy Kesuma
Dicek dan ditinjau ulang oleh: Reopan editor
Pada tahun 1970, seorang aktivis bernama Iria Dunn menuliskan coretan-coretan di belakang pintu kamar mandi yang ada di Universitas Sydney. Di dalam coretannya tertuliskan “Seorang perempuan membutuhkan seorang laki-laki sama seperti seekor ikan yang membutuhkan sebuah sepeda.” Frasa ini kemudian menjadi viral dan akhirnya menjadi slogan terkenal yang membangkitkan gerakan feminisme pada saat itu.
Frasa diatas merupakan salah satu contoh dari bentuk sarkasme. Rasa humornya berasal dari fakta bahwa seekor ikan tidak membutuhkan sebuah sepeda. Kebanyakan orang tidak terlalu sulit untuk menyadari hal ini. Namun sementara berbagai jenis teknik “machine learning” dikembangkan untuk membantu komputer menemukan bentuk-bentuk humor, sarkasme masih menjadi sulit untuk bisa dipahami oleh mesin.
Bentuk-bentuk humor dalam sarkasme bisa ditemukan dengan melihat kata-kata positif yang berasosiasi dengan situasi negatif atau situasi yang tidak terjadi. Dan beberapa peneliti telah menggunakan pendekatan ini untuk bisa mengenali bentuk sarkasme.
Namun sarkasme seringkali menghilangkan atau menyembunyikan perasaan. Frasa diatas adalah contoh yang bagus, di dalamnya terdapat kata-kata tersembunyi namun langsung menyinggung perasaan. Jadi jelas diperlukan strategi baru jika komputer ingin bisa mengenali jenis humor yang seperti ini.
Saat ini, Aditya Joshi dari Institut Teknologi Bombay India dan beberapa rekannya, menemukan sebuah strategi yang tepat. Mereka mengatakan pendekatan baru yang mereka gunakan mampu secara dramatis meningkatkan kemampuan komputer untuk menemukan sarkasme.
Metode yang mereka gunakan relatif mudah. Dibanding menganalisa kata-kata yang mengandung kepekaan perasaan dalam suatu kalimat, Joshi dan rekan-rekannya menganalisa kemiripan dari kata-kata yang ada. Mereka mempelajari bagaimana cara kata-kata bisa saling berhubungan satu dengan yang lain dalam database superbesar Google News yang berisi sekitar tiga juta kata. Kumpulan data ini dikenal dengan nama database Word2Vec.

Database ini telah dianalisa secara luas untuk menentukan seberapa sering kata-kata muncul selanjutnya setelah kata-kata yang lain. Ini membuat mereka bisa di resepresentasikan sebagai vektor dalam ruang berdimensi banyak. Dari hal ini, kata-kata yang memiliki kesamaan dapat digambarkan dengan vektor yang sama dan ruang vektor dalam matematika bisa digunakan untuk menangkap hubungan sederhana diantara kata-kata tersebut. Sebagai contoh, raja – laki-laki + perempuan = ratu.
Meskipun bisa dilihat perbedaan jelas antara kata “laki-laki” dan “perempuan,” mereka memiliki kesamaan tempat dalam ruang vektor. Akan tetapi, kata sepeda dan ikan sepenuhnya adalah hal yang berbeda sehingga diperhitungkan berada dalam ruang vektor yang berbeda.
Berdasarkan apa yang disampaikan oleh Joshi dan rekan-rekannya, kalimat yang memiliki konsep serupa namun secara kontras disertakan dengan konsep yang sama sekali berbeda dikategorikan sebagai bentuk sarkasme.
Untuk menguji coba ide ini, mereka mempelajari kemiripan kumpulan kata-kata kutipan dalam situs-situs berstatus “Goodread.” Tim hanya memilih kutipan-kutipan yang diberi tanda “sarkastik” oleh pembaca, dan termasuk juga kutipan-kutipan yang berkategori “filosofi.” Hasil dari kumpulan 3,629 kutipan, terdapat 759 yang berkategori sarkasme. Tim ini kemudian membandingkan ruang vektor masing-masing kata untuk melihat persamaan dan perbedaan yang dimilikinya.
Hasilnya menarik untuk dibaca. Joshi dan timnya mengatakan pendekatan pada kata yang tertanam secara signifikan lebih baik daripada teknik lainnya dalam menemukan bentuk sarkasme. “Kami melihat peningkatan dalam pendeteksian sarkasme,” kata mereka.
Tentu saja, pendekatan ini belumlah sempurna. Terdapat error yang masih belum diketahui. Sebagai contoh, pendekatan ini tidak bisa mendeteksi sarkasme dalam kutipan: “Hebat, nasehat menjalin hubungan dari seseorang yang paling dicari-cari di Amerika.”
Ini dikarenakan banyak dari kata-kata yang terdapat di dalamnya mengandung berbagai macam pengertian, sehingga Word2Vec yang ditanam tidak mampu mendeteksinya.
Bentuk kalimat sarkasme lain yang gagal untuk dideteksi seperti berikut: “Oh, saya kira apel bisa memakan keju.” Pada kasus ini, apel dan keju memiliki tingkat kesamaan yang cukup tinggi dan tidak ada pasangan kata yang menunjukkan pengertian yang berbeda. Jadi contoh ini tidak mengikuti aturan yang ditujukan ketika pembuatan algoritma ini.
Algoritma ini juga gagal mendeteksi beberapa kalimat sebagai sarkasme. Joshi dan tim menunjukkan salah satunya: “Oh sayangku, saya akan menghilang di depanmu sama sepert hilangnyai riak-riak dalam lautan, semakin lambat, semakin sunyi dan tanpa pernah berhenti.”
Umumnya manusia tidak mengkategorikannya sebagai sarkasme. Namun, tidaklah sulit membayangkan kalimat ini digunakan untuk menunjukkan sarkasme.
Jadi secara keseluruhan, ini adalah pekerjaan menarik yang mampu meningkatkan arah penelitian di masa depan. Khususnya, bisa menjadi hal yang mempesona ketika menggunakan algoritma ini untuk membuat sendiri kalimat-kalimat sarkasme dan mungkin menggunakan penilaian manusia untuk memutuskan apakah kata-kata tersebut bisa bekerja.
Diatas semua itu adalah tugas komputasi humor itu sendiri. Ini adalah tujuan yang ambisius namun mungkin bukanlah hal yang sepenuhnya diluar jangkauan. Banyak humor diformulasikan sehingga algoritma mampu diterapkan dengan mudah. Ya memang benar!