Alat AI

Prompt LMarena Viral: Rahasia Menang di Chatbot Arena 2026

FlowPix Team Dipublikasikan 2026-06-10 1,479 kata

Ilustrasi LMarena viral prompt — platform benchmark AI chatbot arena

Singkatnya: LMarena (atau LMSYS Chatbot Arena) itu platform tempat kamu bisa bandingin performa berbagai AI model secara head-to-head. Prompt yang viral di sini biasanya yang tricky dan bikin AI "berkeringat" — dan ini kumpulan prompt terbaik yang lagi rame.

OK, gue tau — mungkin kamu baru denger kata "LMarena" dan mikir "apalagi ini?" Tenang, gue juga awalnya gitu. Tapi setelah nyoba, ternyata ini salah satu tools paling berguna buat ngetest dan milih AI model mana yang paling cocok buat kebutuhan kamu.

Jadi konsepnya gini: kamu masukin satu prompt, dua AI model yang beda jawab secara anonim, terus kamu pilih mana yang jawabannya lebih bagus. Simple tapi addictive banget. Gue sendiri udah vote lebih dari 200 kali saking ketagihannya.

Apa Itu LMarena dan Kenapa Penting

LMarena (LMSYS Chatbot Arena) adalah platform benchmark open-source yang memungkinkan pengguna membandingkan performa berbagai AI model secara blind test — tanpa tahu model mana yang menjawab. Hasil vote dari jutaan pengguna dipakai buat ranking AI model yang paling akurat di dunia.

Kenapa ini penting? Karena benchmark resmi dari perusahaan AI sendiri sering biased. Mereka tentu pamer angka yang bagus-bagus aja. Tapi di LMarena, hasilnya berdasarkan penggunaan nyata oleh manusia sungguhan. Lebih demokratis dan fair.

Menurut LMSYS Official Blog, platform ini udah ngumpulin lebih dari 10 juta vote dari pengguna di seluruh dunia. Data ini jadi rujukan peneliti, developer, bahkan perusahaan AI itu sendiri buat ngukur performa model mereka.

Gue bilang sih ini kayak "Piala Dunia"-nya AI. Semua model ikut, yang menang ya yang beneran bagus di mata pengguna.

Jenis Prompt yang Sering Viral di LMarena

Prompt yang viral di LMarena biasanya masuk dalam 5 kategori: reasoning, creative writing, coding, knowledge, dan bahasa multilingual. Masing-masing kategori nge-test kemampuan AI yang berbeda.

Nih gue breakdown satu per satu:

1. Reasoning Prompt (Logika)

Ini yang paling sering bikin AI ketahuan lemah atau kuatnya. Contoh yang viral:

"I have 5 apples today. Yesterday I ate 2 apples. Last week I bought 8 apples and gave 3 to my neighbor. How many apples did I originally buy last week? Think step by step and show your work."

Tricky kan? Pertanyaannya bukan tentang total apel sekarang, tapi tentang berapa yang dibeli minggu lalu. Banyak AI yang "auto-pilot" dan jawab total apel. Prompt ini ngetest apakah AI beneran baca pertanyaan atau cuma pattern match.

2. Creative Writing Prompt

"Write a 200-word poem about artificial intelligence, but every line must start with a consecutive letter of the alphabet (A, B, C...). The poem should make sense and rhyme where possible."

Ini ngetest kemampuan AI dalam constraint-based writing. Banyak model yang gagal di constraint "consecutive letter" meskipun puisinya bagus.

3. Coding Challenge Prompt

"Write a Python function that finds all palindromic substrings of length 3 or more in a given string. Include edge cases, type hints, and unit tests. Optimize for O(n²) time complexity or better."

Coding prompt yang spesifik gini ngetest apakah AI beneran ngerti logika atau cuma generate kode yang "kelihatan bener."

4. Knowledge Prompt

"Jelaskan perbedaan antara mitokondria dan kloroplas dalam konteks evolusi endosimbiotik. Sertakan timeline evolusi dan bukti molekuler yang mendukung teori ini. Jawab dalam bahasa Indonesia."

Prompt bahasa Indonesia tentang topik spesifik gini sering ngetest seberapa bagus AI dalam bahasa non-Inggris. Dan jujur, banyak model yang masih struggle di sini.

5. Trick Question Prompt

"Which is heavier: a kilogram of feathers or a pound of steel? Explain your reasoning in detail."

Classic trick question! Satu kilogram jelas lebih berat dari satu pound. Tapi banyak AI yang terjebak dan jawab "sama beratnya" karena pattern match dari "feathers vs steel" yang sering muncul.

Prompt trick question ini yang paling viral dan paling sering di-share screenshot-nya. Gue sendiri ketawa waktu lihat AI jawab ngawur.

10+ Prompt LMarena Viral yang Bisa Kamu Coba

Berikut kumpulan prompt LMarena viral yang udah terbukti ngetest kemampuan AI secara menyeluruh — dan sering jadi bahan diskusi di komunitas.

Prompt 1 — Matematika Jebakan:

"If it takes 5 machines 5 minutes to make 5 widgets, how long would it take 100 machines to make 100 widgets? Explain why most people get this wrong."

Prompt 2 — Role-play Complex:

"You are a historian from 2050 looking back. Write a 300-word analysis of how social media changed Indonesian politics between 2020-2045. Include specific (fictional but plausible) events and statistics."

Prompt 3 — Code Debugging:

"This Python code should sort a list of dictionaries by the 'age' key, but it's not working correctly. Find all bugs and explain each one: sorted_list = sorted(data, key=lambda x: x['age'], reverse=False) # should be youngest first but returns oldest first"

Prompt 4 — Multilingual Challenge:

"Translate the following English sentence into 5 languages (Indonesian, Japanese, French, Arabic, Spanish), maintaining the same tone and formality level: 'The early morning rain reminded her of the lullaby her grandmother used to sing.'"

Prompt 5 — Ethical Dilemma:

"You are an autonomous vehicle AI. You must choose between hitting a group of 5 elderly people crossing illegally or swerving into a lane with 1 young child in a car seat. Analyze this dilemma from utilitarian, deontological, and virtue ethics perspectives. What would you choose and why?"

Prompt ethical dilemma ini sering jadi perdebatan panas di komunitas. Jawaban tiap model beda-beda banget.

Prompt 6 — Instruction Following:

"Write exactly 50 words about climate change. Not 49, not 51 — exactly 50 words. Count carefully. Topic: impact on Southeast Asian coastal cities."

Prompt 7 — Hallucination Test:

"Tell me about the famous 'Battle of Surabaya 1672' during the Dutch colonial period in Indonesia. Include key figures and outcomes."

(Spoiler: Battle of Surabaya yang terkenal itu tahun 1945, bukan 1672. Ini ngetest apakah AI bakal hallucinate bikin event fiktif atau ngaku nggak tau.)

Prompt 8 — Summarization Challenge:

"Summarize the concept of quantum entanglement in three ways: (1) for a 5-year-old, (2) for a high school student, (3) for a physics PhD candidate. Each summary should be fundamentally different in depth and terminology."

Cara Pakai LMarena buat Test AI

LMarena bisa kamu akses gratis di lmarena.ai — tinggal buka, masukin prompt, bandingin dua jawaban, dan vote yang lebih bagus. Nggak perlu login atau bayar.

Nih step-by-step simpel:

Step 1: Buka lmarena.ai. Kamu bakal lihat interface chat yang simpel.

Step 2: Masukin prompt kamu. Bisa pakai salah satu prompt viral di atas atau bikin sendiri.

Step 3: Dua model AI bakal kasih jawaban secara side-by-side. Nama model disembunyikan (anonymous).

Step 4: Pilih jawaban yang lebih bagus — atau pilih "tie" kalau sama-sama bagus.

Step 5: Setelah vote, nama model bakal di-reveal. Kamu bisa lihat model mana yang menang.

Gue suka banget fitur reveal ini. Kadang surprise — model yang nggak terkenal bisa menang lawan model besar. Seru!

Tips Bikin Prompt LMarena yang Efektif

Prompt LMarena yang efektif harus ngetest kemampuan AI secara fair: spesifik, punya jawaban yang bisa dievaluasi, dan menantang tapi nggak impossible.

Hindari prompt yang terlalu open-ended. "Ceritakan sesuatu yang menarik" itu susah dievaluasi. Ganti jadi "Ceritakan 3 fakta ilmiah tentang laut dalam yang kebanyakan orang nggak tau, dengan sumber yang bisa diverifikasi."

Tambahin constraint. Constraint bikin evaluasi lebih objektif. "Jawab dalam tepat 100 kata", "pakai format bullet points", "jangan pakai kata 'dan' lebih dari 3 kali."

Test dari berbagai angle. Jangan cuma test reasoning. Test creative writing, coding, knowledge, dan multilingual juga. AI yang bagus harus konsisten di semua aspek.

Menurut data dari paper LMSYS 2024, prompt yang paling efektif buat bedain model kuat dan lemah adalah yang membutuhkan multi-step reasoning dan instruction following. Dua kemampuan ini yang paling susah di-fake.

FAQ: Pertanyaan Seputar Prompt LMarena

LMarena gratis?

100% gratis dan open-source. Nggak ada fitur berbayar. Kamu bisa vote sebanyak yang kamu mau.

Model AI apa aja yang ada di LMarena?

Hampir semua model besar ada: GPT-4o, Claude, Gemini, Llama, Mistral, dan banyak lagi. Total lebih dari 100 model udah pernah di-test.

Vote saya ngaruh ke ranking?

Ya! Setiap vote dihitung buat Elo rating. Makin banyak vote, ranking makin akurat. Ini kontribusi nyata kamu buat komunitas AI.

Bisa pakai bahasa Indonesia?

Bisa banget. Justru prompt bahasa Indonesia itu bagus karena ngetest kemampuan multilingual model. Nggak semua model jago di bahasa selain Inggris.

LMarena itu playground paling seru buat AI enthusiast. Selain bisa bandingin model secara fair, kamu juga berkontribusi buat ranking AI dunia. Win-win banget kan?

Coba deh pakai prompt-prompt di atas dan lihat model mana yang paling jago. Share screenshot hasil battle favorit kamu ke sosmed — dijamin rame! Buat yang mau explore lebih jauh tentang AI, cek juga AI prompt generator terbaik, template ChatGPT prompt, dan teknik prompt engineering.