“Ketika fitur Voice Assistan atau asisten suara pada Smartphone anda tidak berjalan sesuai dengan apa yang anda inginkan, jangan menyalahkan kemampuan Bahasa Inggris anda. Memang nyatanya teknologi ini masih belum sempurna, dimana faktor aksen begitu berpengaruh meskipun seseorang sudah mengeja kata-katanya dengan benar. Masih perlu banyak usaha dan waktu agar teknologi bisa berjalan seperti apa yang kita bayangkan dalam sebuah film atau iklan.”

 – Catatan editor –

Artikel asli dalam Bahasa Inggris oleh: Sonia Paul (Euphony)

Ditranslasikan ke dalam Bahasa Indonesia oleh: Edy Kesuma


2 bulan lalu ibu saya memesan speaker Amazon Echo. Dan setelah paketnya tiba, dia membiarkannya tersimpan dalam kotak, menunggu sampai saya datang untuk membantu memasangkan perangkat tersebut.

Dahinya berkerut saat saya mendownload aplikasi Alexa di ponselnya. Dia tahu bahwa speaker ini bisa diinstruksikan dengan perintah suara. Namun setiap perangkat elektronik yang menggunakan instruksi suara membuatnya menjadi ragu. Dia memiliki kenangan buruk tentang teknologi asisten suara yang terdapat di ponsel iPhone-nya, yaitu Siri. “Dia (Siri) tidak mengerti apa yang saya katakan,” kata ibuku kepada saya.

speaker amazon echo

Amazon Echo

Ibu saya lahir di Filipina, sedangkan ayah saya adalah orang India. Keduanya berbicara menggunakan bahasa Inggris sebagai bahasa ketiga. Setelah hampir 50 tahun mereka tinggal di Amerika, mereka telah berbicara menggunakan bahasa Inggris setiap hari dengan lancar, namun dengan aksen yang berbeda dan terkadang dengan penyusunan kata-kata yang berbeda dari penutur aslinya. Berdasarkan pengalaman mereka, asisten suara seperti Siri, Alexa, atau perangkat apapun yang menggunakan teknologi pengenal suara akan berusaha keras untuk mengenali perintah yang diberikan.

Pengalaman yang dirasakan orang tua saya termasuk hal yang ekslusif atau bahkan kurang diketahui. (Bahkan ada video komedinya seperti dalam tautan ini dimana menggambarkan 2 orang yang terjebak di sebuah lift yang menggunakan teknologi pengenal suara untuk menentukan lantai yang ingin dituju). Adik ipar saya mengatakan kepada saya bahwa dia menyerah untuk menggunakan Siri karena kegagalan mengenali “nama etnis” teman dan keluarganya. Saya dapat menggambarkan kefrustrasiannya: Suatu waktu dia pernah memberikan instruksi “Text Zahir” kepada Siri namun berubah menjadi “Text Zara here.”

Saat ini, memang bukan masalah besar – namun hal ini tercatat menjadi masalah yang lebih serius, mengingat bahwa kita berada di tengah revolusi suara. Sistem hiburan, audio, dan video berbasis suara sudah ada di sini. Karena perangkat lama biasanya membuat perhatian pengemudi menjadi teralihkan, sistem kendali suara akan segera menjadi norma baku yang ditanamkan dalam kendaraan. Perangkat baru Google Home dan Alexa Amazon mengenalkan gagasan yang radikal tentang bagaimana membangun “rumah pintar” di jutaan rumah tangga warga Amerika. Hal inilah yang menyebabkan mengapa butuh waktu lama bagi perangkat Amazon Echo ini sampai di rumah ibuku – Echo termasuk salah satu produk terlaris dari Amazon pada musim liburan ini, dengan kenaikan 900 persen dari penjualan tahun 2016. Siapapun yang menginginkannya harus memesan berminggu-minggu sebelumnya.

Dilihat dari keseluruhan, hasil penelitian memperkirakan 24,5 juta perangkat berbasis suara akan dikirim di Amerika pada tahun ini. Tanda-tanda yang ditunjukkan pada ramalan ComScore dalam tautan ini memperlihatkan gambaran bahwa pada tahun 2020 nanti, setengah dari semua pencarian yang kita lakukan akan dilakukan dengan menggunakan perintah suara.

Namun seiring dengan perkembangan teknologi yang mulai bergeser untuk bisa merespons suara kita, bagimana dengan orang-orang yang aksennya tidak dapat dipahami terutama orang-orang di negara-negara yang bahasa utamanya bukan bahasa inggris?

@ @ @ @

Untuk melatih mesin mengenali ucapan atau suara, anda memerlukan banyak sampel suara. Pertama, para peneliti harus mengumpulkan ribuan suara, berbicara dalam berbagai topik. Mereka kemudian secara manual menuliskan klip audio. Kombinasi data – klip audio dan transkripsi tertulis – memungkinkan mesin membuat asosiasi antara suara dan kata-kata. Ungkapan yang paling sering terjadi menjadi pola bagi sebuah algoritma untuk mempelajari bagaimana manusia berbicara.

Tapi teknologi AI atau kecerdasan buatan hanya bisa mengenali apa yang telah dilatih untuk didengar. Fleksibilitasnya bergantung pada keragaman aksen yang diperkenalkannya. Badan pemerintahan, akademisi, dan para startup yang lebih kecil bergantung pada koleksi audio dan transkripsi dari “Speech Corpora” atau Korporasi Suara untuk bisa mempersingkat proses transkripsi padat karya itu sendiri. Konsorsium Data Linguistik Universitas Pennsylvania (LDC) adalah sumber penggerak dari kumpulan data ini, membuatnya bisa diberdayakan berdasarkan kesepakatan lisensi bagi perusahaan dan para peneliti. Salah satu korporasi yang paling terkenal adalah Switchboard.

Texas Instruments meluncurkan Switchboard pada awal tahun 1990an untuk membangun gudang data suara, yang kemudian didistribusikan oleh LDC untuk program pembelajaran mesin. Gudang data ini adalah kumpulan dari sekitar 2.400 percakapan telepon, dikumpulkan dari 543 orang dari seluruh AS – yang totalnya sekitar 250 jam. Periset memperoleh data ini dengan mengumpulkan penelepon melalui penawaran promosi panggilan jarak jauh secara gratis. Peserta kemudian akan menghubungi dan terhubung dengan peserta studi lain. Kedua orang asing itu kemudian mengobrol secara spontan tentang topik tertentu – misalnya, perawatan anak atau olahraga.

Selama bertahun-tahun ahli bahasa mengasumsikan bahwa karena LDC berada di Philadelphia, percakapan tersebut mengarah ke aksen Northeastern. Tapi ketika Marsal Gavaldà, direktur aplikasi berkirim pesan Yik Yak, menganalisa angka berdasarkan sejarah demografis Switchboard, dia menemukan bahwa pola aksen lebih condong ke aksen Midwestern. Aksen South and North Midland mengandung lebih dari 40 persen data suara.

Korporasi lain memang ada, tapi Switchboard tetap menjadi patokan untuk model yang digunakan dalam sistem pengenalan suara. Contoh kasusnya: IBM dan Microsoft menggunakan Switchboard untuk menguji tingkat kesalahan kata untuk sistem berbasis suara mereka. “Dari rangkaian lebih dari 500 pembicara ini, hampir semua mesin telah dilatih,” kata Gavaldà.

Namun membangun teknologi suara pada korporasi yang telah berusia 26 tahun pasti memiliki dasar untuk terjadinya kesalahpahaman. Bahasa Inggris adalah mata uang profesional di pasar linguistik, namun banyak penggunanya mempelajarinya sebagai bahasa kedua, ketiga, atau keempat. Gavaldà membandingkannya dengan proses uji coba obat bius. “Ini mungkin telah diujicobakan pada seratus pasien, tapi dalam demografis yang sempit,” katanya pada saya. “Anda mencoba memperkirakannya pada populasi umum, sedangkan dosisnya mungkin tidak benar atau tidak sesuai.”

@ @ @ @

Perusahaan yang lebih besar tentu harus berpikir secara global agar mereka bisa tetap kompetitif – terutama karena sebagian besar penjualan smartphone dikuasai oleh perusahaan teknologi Amerika seperti Apple, Google, dan Amazon memiliki metode sendiri dalam mengumpulkan data untuk bahasa dan aksen mereka. Dan semakin banyak konsumen menggunakan produk mereka, semakin banyak juga umpan balik yang bisa mereka pergunakan untuk menyempurnakan produk mereka, salah satunya melalui program Voice Training yang ada di aplikasi Alexa.

Namun meskipun perusahaan teknologi yang lebih besar membuat kemajuan dalam mengumpulkan data yang lebih spesifik, mereka didorong oleh pasar untuk tidak membagi data yang mereka miliki dengan siapa pun. Hal inilah yang menyebabkan mengapa dibutuhkan waktu yang begitu lama untuk menyempurnakan teknologi ini. Kerahasiaan ini juga terjadi pada laporan saya tentang bagian ini. Amazon tidak pernah membalas permintaan saya untuk memberikan komentar, juru bicara Google mengarahkan saya ke sebuah blog yang memposting teknik “Deep Learning,” dan seorang perwakilan Humas Apple memberi penjelasan bahwa Siri sekarang telah disesuaikan untuk 36 negara dan mendukung 21 bahasa, varian bahasa, dan aksen.

Di luar Amerika, perusahaan-perusahaan lain menyadari pentingnya penelitian terhadap aksen. Perusahaan mesin pencari China, Baidu, misalnya, mengatakan pendekatan “Deep Learning” pada pengenalan ucapan mencapai akurasi Bahasa Inggris dan Mandarin yang lebih baik daripada manusia, dan nantinya digunakan dalam pengembangan algoritma “Deep Speech” yang akan mengenali serangkaian dialek dan aksen. “China memiliki kesadaran yang cukup dalam tentang apa yang terjadi di dunia berbahasa Inggris, bukan sebaliknya,” ilmuwan kepala Baidu Andrew Ng mengatakannya kepada media The Atlantic.

Namun, perusahaan dan individu yang lebih kecil yang tidak dapat berinvestasi dalam pengumpulan data mereka sendiri bergantung pada database yang lebih murah yang mungkin tidak beragam seperti target demografi mereka. “Data ini tidak benar-benar menjadi lebih beraneka ragam, setidaknya dari sudut pandang saya,” Arlo Faria, seorang peneliti dan pembicara dalam konfrensi startup transkripsi, Remeeting, mengatakannya kepada saya. Remeeting, sebagai contoh, telah menggunakan korporasi bernama Fisher yang mencakup sekelompok penutur bahasa Inggris non-asli. Namun kumpulan aksen dari Fisher lebih mengarah pada kesempatan yang ada, tergantung pada siapa yang kebetulan berpartisipasi dalam pengumpulan data. Ada beberapa aksen Spanyol dan India, misalnya, tapi sangat sedikit aksen Inggris, kata Arlo Faria.

Itulah mengapa seringkali respon teknologi pengenalan suara terhadap aksen berbeda dari respon manusia langsung pada umumnya, kata Anne Wootton, pendiri dan CEO dari Oakland – platform pencarian berbasis suara, “Seringkali software mampu melakukan pekerjaan yang lebih baik dalam mengenali aksen India dibandingkan akses Southern, seperti aksen Shenandoah Valley, “katanya. “Saya pikir itu adalah cerminan dari data pelatihan yang mereka dapatkan dan yang belum mereka dapatkan.”

Rachael Tatman, seorang kandidat PhD di Departemen Linguistik Universitas Washington yang berfokus pada sosiolinguistik, mencatat bahwa kelompok yang kurang terwakili dalam kumpulan data ini cenderung merupakan kelompok yang dipinggirkan secara umum. Database khas suara Amerika, misalnya, tidak akan memiliki suara atau pengucapan bahasa Inggris yang buruk, tidak berpendidikan, pedalaman, dan bukan penutur aslinya. “Semakin banyak kategori yang anda miliki, maka semakin buruk juga proses pengenalan suara yang anda dapatkan,” katanya.

@ @ @ @

Meskipun begitu, Jeffrey Kofman, CEO dan salah satu pendiri Trint, software pengkonversi suara ke teks otomatis yang berbasis di Inggris, percaya bahwa pengenalan aksen akan bisa dipecahkan oleh ilmuwan peneliti suara suatu saat nanti. Kami sendiri berbincang-bidang menggunakan platform Trint itu sendiri, dimana bahasa Inggris Australia sekarang telah tersedia bersama dengan bahasa Inggris “England” dan Inggris Amerika Utara sebagai aksen transkripsi. Trint juga menawarkan pengkonversian ucapan-ke-teks dalam berbagai bahasa Eropa, dan berencana untuk menambahkan bahasa Inggris Asia Selatan pada tahun ini, katanya.

Pengumpulan data adalah sesuatu yang mahal dan tidak praktis, yang mana mengapa demografi tertentu menjadi lebih diprioritaskan. Bagi Kofman, suatu aksen termasuk ke dalam aksen Asia Selatan karena ada begitu banyak orang dari India, Pakistan, dan di Inggris, di AS dan Kanada, yang berbicara sangat jelas namun dengan aksen yang berbeda. Selanjutnya dia mempertimbangkan untuk memprioritaskan aksen Afrika Selatan.

Jelas bukan hanya teknologi yang mendiskriminasikan orang dengan aksen. Namun terdapat pengaruh dari orang lain juga. Media massa dan globalisasi memiliki pengaruh besar pada bagaimana orang-orang mendengar. Pakar bidang pengucapan telah mendokumentasikan penurunan aksen Amerika tertentu sejak awal 1960, misalnya, demi mendukung aksen yang lebih homogen yang sesuai untuk populasi dari wilayah geografis campuran. Efek ini diperburuk saat manusia berurusan dengan asisten atau operator digital. Mereka cenderung menggunakan suara tanpa bahasa sehari-hari dan irama alami.

Atau, dengan kata lain, suara tanpa identitas dan aksen.

Sejak teknologi pengenalan suara telah mengalami pengembangan yang lebih baik, penggunaan aksen robot untuk berkomunikasi melalui perangkat, tampaknya menjadi sebuah tantangan. Jika orang-orang merasa tidak perlu berbicara dengan perangkat mereka seolah-olah mereka adalah mesin, maka mereka bisa mulai berbicara dengan teknologi ini secara alami seperti bagaimana kita berbicara dengan seorang teman. Dan sementara itu di lain sisi, beberapa pelatihan aksen menemukan klien mereka menggunakan asisten suara untuk berlatih menetralkan atau mengurangi aksen asing atau regional mereka yang tebal, Lisa Wentz, seorang pelatih pembicara umum yang bekerja di bagian pereduksian aksen, mengatakan bahwa dia tidak merekomendasikan penerapan metode tersebut.

Hal itu dikarenakan, sebagian besar kliennya memiliki tujuan agar orang lain dapat memahami perkataan mereka. Mereka tidak ingin mengulangi atau merasa aksen yang mereka miliki mencegah orang lain untuk mengerti apa yang mereka maksudkan. Dengan menggunakan perangkat yang tidak siap dengan kemampuan pengenalan suara yang berbeda, berarti hanya membuat perasaan kurang nyaman ini menjadi menggema.

@ @ @ @

Ibuku dan saya mulai menginstal aplikasi Alexa bersama-sama. Dia tidak terlalu senang dengan hal itu. Aku sudah bisa membayangkan ketidakpercayaan dan ketakutannya akan mobil yang dikendarainya digerakkan hanya dengan perintah suara. Ibuku mungkin lebih memilih untuk tidak pernah mengendarainya. Risiko akan menabrak sesuatu terlalu nyata. Meski begitu, dia mencoba beberapa pertanyaan di perangkat Amazon Echo.

“Alexa, mainkan ‘Que sera sera’,” kata ibuku.

“Saya tidak dapat menemukan lagu ‘Kiss your ass era’.”

Ibuku tertawa, sedikit frustrasi namun lebih terlihat geli. Dia mencoba lagi, kali ini berbicara lebih lambat, seolah-olah dia sedang berbicara dengan seorang anak. “Alexa, mainkan ‘Que sera sera’.” Dia menyanyikan suku kata sera dengan sedikit melodi, sehingga perangkat itu bisa dengan jelas mendengar “se-rah.”

Alexa mengerti, dan menemukan apa yang ibuku cari. “Ini contoh lagu ‘Que Sera sera’, dari penyanyi Doris Day,” katanya, mengucapkan kata sera dengan sedikit lebih keras seperti – “se-raw.”

Dan lagu yang hit pada tahun 1964 mulai dimainkan, dan ibuku tersenyum karena senang suaranya mendapat pengakuan dan dipahami oleh mesin itu.