BUKAMATA - Google baru saja meluncurkan Gemini, yang mereka gambarkan sebagai "model AI terbesar dan paling canggih" mereka. Model bahasa besar (LLM) baru ini hadir dalam tiga ukuran: Ultra, Pro, dan Nano - dari pusat data hingga perangkat mobile.
Beberapa klaim terbesar tentang Gemini termasuk akurasi dan kinerjanya, serta kemampuan multimodal bawaannya.
CEO Google Sundar Pichai memperkenalkan Gemini dalam sebuah pos blog, dan mengatakan salah satu tujuan utama Gemini adalah "membuat AI lebih membantu bagi semua orang."
Google telah menginvestasikan banyak sumber daya pada Gemini di balik layar, dengan berita penuh tentang kemajuan dalam ChatGPT, dan bahkan Grok. P
royek Gemini telah menjadi "salah satu upaya ilmu pengetahuan dan rekayasa terbesar yang pernah kami lakukan sebagai perusahaan," menurut Pichai. Google telah berinvestasi dalam "alat, model dasar, dan infrastruktur yang sangat baik."
CEO Google menyoroti kecepatan perubahan dan momentum di balik AI.
"Jutaan orang sekarang menggunakan generative AI di produk-produk kami untuk melakukan hal-hal yang bahkan tidak bisa dilakukan setahun yang lalu," katanya.
Namun, dengan kekuatan besar datang tanggung jawab besar, dan Pichai juga menyampaikan pesan kuat tentang menjadi berani tetapi bertanggung jawab. Untuk itu, Gemini akan fokus pada memberikan manfaat - tetapi dengan perlindungan.
Gemini 1.0 hadir dalam tiga ukuran:
- Gemini Ultra — model terbesar dan paling canggih untuk tugas yang sangat kompleks.
- Gemini Pro — model terbaik untuk skalabilitas di berbagai tugas.
- Gemini Nano — model paling efisien untuk tugas di perangkat.
Demis Hassabis, CEO dan Pendiri Google DeepMind, juga turut berkontribusi dalam pos blog pengumuman tentang Gemini.
Hassabis merenung tentang latar belakang pengembangan AI-nya dalam game selama masa remajanya, kemudian sebagai peneliti neurosains, sebelum masa gemilangnya di pimpinan DeepMind.
Hassabis menyebut salah satu keinginannya yang terbesar adalah mengubah AI dari pengalaman perangkat lunak menjadi lebih mirip dengan asisten atau pembantu ahli.
Bicara tentang Gemini, dan beberapa demonstrasinya, banyak berpusat pada kemampuan multimodalnya.
Gemini dibangun dari awal dengan kemampuan ini. Kemampuan multimodalnya berarti bahwa ia "dapat menggeneralisasi dan dengan lancar memahami, beroperasi di, dan menggabungkan berbagai jenis informasi termasuk teks, kode, audio, gambar, dan video."
Google sangat fokus pada kemampuan dan kinerja Gemini. Perusahaan berbagi hasil benchmarking terperinci di blognya, menunjukkan bahwa Gemini telah diuji secara ketat dan akan memberikan hasil yang akurat di berbagai tugas dan penalaran.
Google juga membanggakan bahwa "Gemini Ultra adalah model pertama yang melebihi ahli manusia dalam pemahaman bahasa multitugas besar," seperti yang ditunjukkan oleh skor 90% dalam benchmark akademis yang banyak digunakan untuk menilai LLM.
Google menjelaskan bahwa MMLU "menggunakan kombinasi dari 57 mata pelajaran seperti matematika, fisika, sejarah, hukum, kedokteran, dan etika untuk menguji pengetahuan dunia dan kemampuan pemecahan masalah.
" Google juga mengklaim bahwa Gemini akan menggunakan penalarannya untuk lebih hati-hati dalam menjawab pertanyaan sulit untuk "peningkatan yang signifikan" dalam hasil. Kami berasumsi bahwa itu berarti Google berharap Gemini tidak akan rentan terhadap halusinasi seperti banyak pesaing LLM kontemporer," Katanya
Google Deepmind dengan percaya diri membandingkan Gemini yang baru dengan LLM GPT dari OpenAI. Solusi Open AI adalah tolak ukur terhadap semua pesaing lain yang tak terelakkan diukur, dan Anda dapat melihat bahwa Gemini dibandingkan sangat menguntungkan dalam tabel tugas benchmark AI.
Diketahui bahwa GPT-4 adalah iterasi terbaru dan paling canggih dari LLM OpenAI. Google menyoroti kemenangan meyakinkan Gemini di "30 dari 32 benchmark akademis yang banyak digunakan dalam penelitian dan pengembangan model bahasa besar (LLM)."
Blog Google juga memberikan gambaran deskriptif, dengan video pendukung, tentang Gemini yang digunakan untuk tugas-tugas AI populer seperti memberikan wawasan dari berbagai dokumen, memahami berbagai media (teks, video, audio, dan lainnya), serta pengkodean tingkat lanjut.