“Sebagai mesin pencari terbesar di China, Baidu sedang berusaha menciptakan terobosan-terobosan yang mampu menggeser Google dari kursi Mesin Pencari No.1 Dunia”

– catatan editor –

Artikel asli dalam Bahasa Inggris oleh: Luke Dormehl

Ditranslasikan ke dalam Bahasa Indonesia oleh: Edy Kesuma

Dicek dan ditinjau ulang oleh: Reopan editor


Pencarian berbasis teks telah menjadi pilihan masukan untuk mesin pencari web hampir selama 24 tahun. Namun hal ini akan segera mengalami perubahan.

Baidu, mesin pencari terbesar di China baru-baru ini merekrut mantan otak di balik Google Brain yaitu Andrew Ng untuk memimpin sebuah proyek besar “deep learning” atau pembelajaran mendalam. Berfokus pada pembangunan infrastruktur yang dapat menyelesaikan masalah seperti pengenalan gambar dan pemrosesan suara, proyek Baidu ini memberikan sinyal pergantian sebuah paradigma dari bagaimana pengguna menerima informasi online.

Ng diperkenalkan sebagai kepala peneliti baru Baidu pada bulan Mei, yang bekerja di luar kantor perusahaan-perusahaan Silicon Valley. Salah satu dari proyek besarnya bersama Baidu adalah membuat rangkaian komputer yang mampu belajar secara luas dan mendalam dengan sekitar 100 juta simulasi koneksi saraf digital. Melalui pemanfaatan kekuatan dari pembelajaran mendalam, Adrew Ng berharap dapat merevolusi cara kita memakai fungsi pencarian.

“Dari proyek Google Brain kami mengambil keputusan untuk membangun proses pembelajaran mendalam diatas infrastruktur Google yang telah ada,” katanya. Apa yang kami kerjakan di Baidu adalah untuk merebut kesempatan membangun generasi baru dari infrastrukstur pembelajaran mendalam. Saat ini kami membangun semuanya dari dasar menggunakan infrastruktur berbasis GPU 2014.”

rencana baidu

Baidu vs Google

Baidu telah memberikan Andrew Ng ruang untuk bekerja pada salah satu masalah terbesar pembelajaran mendalam yang ada saat ini. “Dari seorang teknisi kemudian menjadi seorang eksekutif, saya pikir setiap orang di Baidu benar-benar “menangkap” dari ruang lingkup ini,” katanya. “Pembelajaran mendalam merupakan sebuah area pokok dan intensif, dan jarang menemukan sebuah struktur perusahaan dimana sesuatu dapat diselesaikan tanpa harus melewati terlalu banyak alur dan pertemuan komite. Ini adalah sesuatu yang esensial bagi sebuah teknologi yang masih belum matang.”

Pemicu utama dari satu langkah perubahan tentang bagaimana pencarian bekerja saat ini adalah karena pertumbuhan smartphone dan tablet, yang mana mulai semakin dan semakin mengambil alih pasar dari komputer tradisional. Hal ini secara khusus merupakan hal yang jelas di negara China tempat kelahiran Baidu, dimana banyak pengguna terkoneksi dengan internet untuk pertama kalinya – terutama melalui penggunaan perangkat mobile. Dari 632 juta pengguna internet di China pada bulan Juni tahun lalu, 83% mengakses web dengan ponsel seluler, sesuai dengan data yang diperoleh dari China Internet Network Information Center.

Sebagian besar pengguna tidak secara alami belajar bagaimana menggunakan pencarian berbasis teks sebagaimana evolusi dari Ask Jeeves ke DuckDuckGo selama beberapa tahun belakangan. Hal ini menghadirkan suatu kesempatan untuk memikirkan ulang asumsi dasar tentang pencarian, dan perluasannya melampui perkembangan pasar. “Input dari teks jelas sangat berguna, namun gambar dan ucapan lebih terlihat sebagai cara alami sebelum mereka mulai belajar mengetiknya. Hal yang sama juga terjadi pada evolusi manusia. Kita telah berbicara dalam berbagai bahasa untuk waktu yang lama, dibandingkan dengan bahasa yang ditulis yang mana merupakan suatu pengembangan yang relatif baru.”

Pada banyak kasus, pencarian berbasis teks belumlah cara yang ideal untuk menemukan suatu informasi. Sebagai contoh, jika anda sedang berbelanja dan menemukan sebuah tas yang anda sukai, akan lebih bagus jika mengambil gambarnya dibandingkan dengan mencoba untuk mendeskripsikannya dalam kata-kata. Hal yang sama juga seringkali terjadi jika anda melihat suatu spesies bunga atau binatang yang ingin anda kenali.

Untungnya, semakin dan semakin banyak perangkat saat ini sudah memiliki kamera berkualitas tinggi. Dari smartphone dengan kamera depan – belakang, sampai perangkat wearable seperti Google Glass atau yang baru-baru ini diperkenalkan yaitu Baidu Eye.

Pada saat yang sama, perlengkapan pembelajaran mendalam menjadi semakin baik diterapkan pada kecerdasan pengenalan dan pembacaan informasi visual. “Awalnya kami berpikir pengandaian seperti bahasa dan gambar memiliki reprsentasi yang berbeda dan terpisah,” kata Edward Grefenstette, rekan peneliti junior Fulford di kampus Somerville, dan seorang peneliti kecerdasan buatan di Departemen Komputer Sains di Universitas Oxford. “Melalui pembelajaran mendalam telah ada sebuah pergerakan maju tentang apa yang disebut dengan representasi terdistribusi. Hal ini mengijinkan kita melakukan hal seperti menyamakan pengertian dari dua bahasa yang berbeda atau bahasa dan gambar pada ruang representasi yang sama.”

Ini berarti jika ada suatu gambar yang belum pernah dilihat sebelumnya, terobosan dari pembelajaran mendalam akan membuatnya menjadi mungkin untuk menghasilkan deskripsi tentang apa sebenarnya gambar itu – didasarkan pada “pemahaman” dari apa yang diperlihatkan. Cek lebih lanjut demo mengesankan dari Universitas Toronto di tautan ini.

Hasil dari penelitian ini mulai semakin terlihat. Di awal tahun sebelumnya Facebook menciptakan DeepFace, sebuah sistem pengenalan wajah yang hampir sama akuratnya dengan otak manusia. Google juga memiliki kemajuan yang signifikan pada area pembelajaran mendalam, meskipun setelah kepergian dari Andrew Ng. Pengeksekusian yang tepat, proyek pengerjaan dari Baidu memiliki potensi untuk menjadi kunci dari salah satu terobosan kecerdasan buatan paling besar yang pernah ada.

Ini bukan sekedar pengenalan gambar semata. “Pembelajaran mendalam telah cukup banyak mengambil alih teknologi pengenalan suara,” kata Ng. Di Baidu, tingkat kesalahan dari pengenalan suara turun sekitar 25% yang merupakan hasil penelitian dari pembelajaran mendalam.

Pada saat ini, sekitar 10% dari query pencarian Baidu digunakan dengan suara, yang mana persentase yang lebih sedikit dibandingkan yang diperoleh dengan penggunaan gambar. Jika proses ini dapat terus berlanjut pada tingkat ini, walaupun begitu, Ng meramalkan bahwa “pada lima tahun mendatang setidaknya 50% dari seluruh pencarian akan digunakan melalui gambar dan suara.”

“Menggantikan pencarian berbasis teks dengan pencarian suara dapat dengan jelas menjadi semakin dan semakin terwujud, sebagaimana peningkatan pada teknologi pengenalan suara,” kata Yoshua Bengio, seorang professor di Departemen Penelitian Sains dan Operasi di Universitas Montreal, rumah dari salah satu basis konsentrasi terbesar dunia tentang pengetahuan pembelajaran mendalam.

Andrew Ng tidak berada di bawah ilusi tentang tantangan yang dihadapi oleh timnya. Walaupun pembelajaran mendalam masih merupakan area baru. Dan meskipun memiliki potensi yang besar, ini bisa saja menjadi korban dari histeria yang tidak penting dan tidak tertolong.

“Saya percaya bahwa kita belum mengeksploitasi kekuatan dari representasi pembelajaran mendalam – khususnya tipe yang tanpa pengawasan – dan dampak dari penerapannya dapat menjadi sangat penting dalam beberapa tahun lagi,” kata Bengio. “ Penelitian dasar diperlukan agar hal ini dapat terwujud. Beberapa dari hal ini mungkin terwujud dalam lab industri, sebagaimana terdiri dari peneliti terkemuka – termasuk diantaranya Andrew Ng, Geoff Hinton, dan Yann LeCun – secara mendasar setuju bahwa hal ini merupakan kesempatan yang sangat penting demi kemajuan besar di masa depan.”