Buat kamu yang tertarik belajar SEO, harus paham apa itu Google, atau lebih tepatnya apa itu search engine.
Apa itu Search Engine?
Search engine atau mesin pencari adalah sebuah mesin otomatis yang menggunakan sebuah program yang dibuat untuk menelusuri/crawl situs dengan teratur dan kemudian menambahkan halaman/page ke indeks mesin pencari. Dari indeks inilah mesin pencari memiliki database untuk menyajikan informasi yang ingin kamu dapatkan.
Proses penelusuran ini bisa dilakukan dengan 2 cara, yaitu didaftarkan oleh pemilik situs dan ditemukan otomatis oleh mesin pencari.
Pada search engine, terdapat 2 bagian utama, yaitu:
Search Engine Indexing
Search engine indexing adalah proses ketika mesin pencari mengatur dan mengumpulkan informasi dari semua halaman yang ada. Proses ini dilakukan sebelum user melakukan pencarian.
Search Algorithm(s)
Search engine algorithm adalah sebuah formula unik yang digunakan search engine untuk mengambil informasi spesifik yang tersimpan pada sebuah struktur data. Setiap search engine memiliki search algorithm yang unik yang kemudian menentukan ranking dari tiap website pada hasil pencarian.
Saat ini ada berbagai macam search engine yang bisa kamu temui, seperti Google Search, Yahoo!Search, Microsoft Bing, Baidu DuckDuckGo, dan lainnya. Search engine tersebut dibuat oleh masing-masing developer dengan target pasar dan lokasi yang berbeda-beda juga.
Menurut data dari GS Statcounter, search engine yang paling populer dan banyak dipakai adalah Google dengan persentase 92.49% dan disusul oleh Bing dengan persentase 3.07% dan diikuti oleh Yahoo!, Yandex, Baidu, dan DuckDuckGo.
Berdasarkan data di atas, dapat disimpulkan bahwa Google adalah search engine yang paling populer dan digunakan oleh hampir seluruh manusia. Apabila kita mempelajari cara kerja setiap search engine yang ada dengan adanya update algoritma setiap rentang waktu tertentu, maka proses pemahaman akan menjadi tidak efisien.
Pada dasarnya, setiap search engine memiliki proses kerja yang cukup mirip. Maka dari itu untuk mempersingkat waktu, kita akan membahas search engine Google.
Kenapa Harus Tahu Cara Kerja Search Engine Google?
Mungkin kamu masih bertanya-tanya, apakah tujuan atau tugas dari sebuah search engine. Berdasarkan hasil dan cara kerjanya, sebuah search engine bertugas untuk mencari tahu, memahami dan mengorganisir informasi apa saja yang tersebar di internet. Untuk kemudian memberikan jawaban paling relevan terbaik dari pertanyaan atau queries user.
Dari sini bisa disimpulkan bahwa sebuah search engine yang baik harus bisa memberikan informasi yang relevan dan tentunya paling ter-update.
Hasil pencarian di search engine pun sebenarnya terbagi 2, yaitu:
- Organic Result
Hasil pencarian organic merupakan informasi yang disediakan oleh search engine berdasarkan database hasil penelusuran sebelumnya. Informasi yang timbul pada SERP (search engine result page) akan berurutan berdasarkan ranking dari tiap halamannya.
- Paid Result (iklan)
Hasil pencarian paid merupakan informasi yang disediakan oleh search engine berdasarkan layanan beriklan yang disediakan. Informasi yang timbul pada SERP tidak bergantung berdasarkan ranking dari halamannya, tetapi bergantung pada proses tawar-menawar (bidding) dan beberapa faktor lainnya, antara pemilik website dan pihak search engine.
Dengan penjelasan di atas, kita sudah tahu bahwa search engine akan menampilkan hasil pada SERP berdasarkan ranking yang diberikan.
Sebagai seorang pemilik atau pengelola situs atau sebuah brand, tentunya kita ingin situs kita didatangi oleh banyak pengunjung/visitor.
Dengan banyaknya situs dan halaman yang berada di internet, tentunya search engine akan menyajikan banyak sekali informasi dengan SERP yang begitu banyak. Seorang pengguna search engine tentunya tidak akan mengeklik seluruh halaman yang ditampilkan di semua SERP.
Pada umumnya, user hanya akan mengeklik halaman yang disajikan pada page 1 SERP. Dan apabila halaman atau situs kita berada di page 2,3,4, dst., maka akan sulit untuk mendapatkan visitor.
Oleh sebab itu, seorang pemilik situs perlu mengetahui dan memahami cara kerja search engine agar dapat melakukan optimasi konten dan/atau teknikal dengan tepat sehingga situs yang kita miliki bisa mendapatkan ranking yang bagus.
Apa Saja Tahap Dasar Cara Kerja Search Engine Google?
Search engine, khususnya Google, bekerja dengan 3 tahap utama, seperti di bawah ini:
- Crawling
Tahapan ketika sebuah search engine menjelajahi internet untuk mencari konten beserta kode dari setiap URL halaman yang ditemukan.
- Indexing
Proses penyimpanan dan pengaturan konten-konten yang ditemukan ketika proses crawling. Apabila sebuah halaman sudah ter-index, maka halaman tersebut akan digunakan atau disajikan ketika terdapat pertanyaan atau queries yang relevan.
- Ranking
Memberikan konten terbaik dan paling relevan yang dapat menjawab pertanyaan atau queries. Hasil yang ditampilkan akan berurutan dari yang paling relevan hingga ke yang paling tidak relevan.
Search Engine Crawling
Apa itu Crawling?
Dari beberapa penjelasan di atas, sudah banyak sekali muncul istilah crawling. Tapi, sebenarnya apa sih maksud sebenarnya dari crawling?
Crawling adalah proses untuk menemukan konten-konten yang terdapat di internet dengan mengirimkan sebuah tim robot/crawlers/spider.
Crawlers-nya Google disebut dengan Googlebot. Konten yang dicari dan ditemukan dapat berupa konten baru atau konten yang baru saja diperbaharui/update. Kalau berdasarkan jenis file-nya, konten yang dapat ditelusuri bisa berupa halaman web, gambar, video, PDF dan berbagai file lainnya.
Mesin pencari atau search engine dapat menemukan konten-konten tersebut dengan bantuan link.
Untuk memulai proses crawl, robot memasuki beberapa halaman situs dan dilanjutkan dengan mengikuti tautan atau hyperlink yang tersedia pada di halaman tersebut sehingga dapat menemukan halaman atau URL yang baru. Dengan cara inilah robot dapat menemukan konten baru yang kemudian ditambahkan ke dalam indeks yang biasa disebut Caffeine.
Caffeine merupakan database yang berisi keseluruhan URL yang ditemukan oleh robots dan kemudian digunakan sebagai jawaban/queries yang dimasukkan oleh user.
Proses crawl oleh Google terbagi menjadi 2 metode, yaitu yang pertama untuk melakukan pencarian konten baru (URLdiscovery) dan yang kedua untuk meng-update konten yang sudah ada, apabila terdapat pembaharuan (page refreshness).
URL Discovery
URL discovery adalah proses crawl untuk menemukan konten baru. Proses penemuan URL baru ini dapat dilakukan dengan berbagai macam cara, tetapi cara yang paling umum adalah dengan 5 cara berikut:
- Site Navigation
Fungsi site navigation adalah agar user dapat mengetahui informasi apa saja yang bisa didapatkan pada suatu website. Bukan hanya berlaku bagi user tapi juga berlaku bagi Googlebot.
Site navigation yang rapi dan terstruktur akan membantu user maupun Googlebot dengan mudah berpindah dari halaman satu ke halaman lain pada satu website. Hal tersebut juga membantu Googlebot mendeteksi jika ada halaman baru pada sebuah website.
- Internal Link
Penyematan internal link yang mengarah pada halaman lain dalam website yang sama akan membantu Googlebot untuk menemukan halaman baru dan kemudian menelusuri lebih jauh lagi. Hal ini terutama jika penyematan internal link dilakukan pada halaman yang sudah lebih dahulu ter-index pada Google.
- Sitemap
Sitemap merupakan sebuah file yang berisi mengenai informasi halaman apa saja yang terdapat pada sebuah website. Dengan bantuan sitemap, Googlebot akan lebih mudah untuk menelusuri sebuah website.
- URL Submission
URL submission adalah proses memasukkan sebuah URL secara manual melalui Google Search Console. Cara ini sebaiknya hanya dilakukan untuk 1 atau 2 page baru. Apabila kamu memiliki banyak halaman yang perlu di-submit, sebaiknya dimasukkan menggunakan sitemap.
- External Link
Saat ini Google sudah memiliki ratusan milyar halaman website di dalam index-nya. Apabila seseorang meletakkan external link atau backlink ke halaman yang baru dibuat atau belum ter-index, maka Google dapat menemukan halaman baru tersebut, walaupun bukan dari website yang sama.
Page Refreshness
Page refreshness adalah proses crawling/penelusuran dengan menemukan konten lama yang sudah diperbaharui.
Frekuensi crawl untuk mencari konten yang diperbaharui ini sangat bergantung kepada frekuensi update-nya sebuah website. Ketika robot menyadari bahwa ada sebuah page yang akan di-update secara berkala, maka proses crawl akan dilakukan lebih sering.
Sebaliknya, bila Googlebot menyadari bahwa proses perubahan jarang terjadi pada sebuah halaman, maka proses crawl akan terjadi lebih jarang.
Ada beberapa website yang akan sering ditelusuri oleh Googlebot, contohnya media online atau situs berita. Situs berita akan selalu ter-update untuk menampilkan berita terkini. Bila dibandingkan dengan situs lain yang hanya di-update sekali setiap bulan, situs berita ini akan lebih sering ditelusuri oleh Googlebot.
Googlebot akan mempelajari pola update situs tersebut. Apabila update dilakukan tiap jam, maka Googlebot akan mengikutinya, sehingga akan ditelusuri tiap jam juga. Oleh karena itu, penting untuk memposting artikel secara konsisten sesuai jadwal.
Perlu diketahui bahwa perbedaan frekuensi crawl ini bukan penanda baik atau tidaknya kualitas sebuah halaman atau website.
Crawling
Seperti yang sudah dibahas sebelumnya, crawling adalah ketika robot dari mesin pencari mengunjungi dan men-download file dari URL yang ditemukan atau diketahui. Robot dari mesin pencari ini biasa disebut sebagai spider, dan spider milik Google dinamakan Googlebot.
Rendering
Rendering adalah sebuah tahap ketika Google memahami lalu mengekstrak informasi penting dari halaman yang ditelusuri (crawl). Cara mesin pencari untuk memahami adalah dengan menjalankan kode yang terdapat pada halaman yang dituju atau disebut sebagai render.
Detail dari proses rendering ini hanya diketahui oleh pembuat search engine atau Google itu sendiri.
Bagi user seperti kita, detail dari proses ini tidak perlu dipahami terlalu dalam. Yang perlu diketahui adalah proses rendering ini adalah tahap ketika mesin pencari mengekstrak dan mengunduh konten untuk proses indexing.
Bagaimana Cara Mengetahui Crawl Status?
Untuk mengetahui status proses crawling pada suatu website, kita dapat mengecek crawl status report pada Google Search Console. Pada laporan ini terdapat data statistik mengenai crawling behavior, yaitu frekuensi crawl pada website.
Agar bisa mengakses crawl status report pada GSC, diperlukan permission agar bisa menjadi website owner sehingga dapat mengakses data crawl dari website. Crawl status report dapat dilihat pada bagian Setting lalu dilanjutkan ke Crawl Stats.
Pada report ini terdapat 3 informasi yang bisa ditemukan sebagaimana dikutip dari Search Engine Journal, yaitu:
- Total crawl request: jumlah URL yang di-crawl oleh robot. Jumlah URL ini merupakan gabungan dari URL yang berhasil maupun tidak berhasil di-crawl.
- Total download size: size file yang di-download oleh search engine selama proses crawling.
- Average response time: rata-rata waktu yang diperlukan sebuah page untuk merespons ketika robot memulai crawl hingga mendapatkan konten dari halamannya.
Dari grafik di atas, bisa dianalisis apakah proses crawling yang selama ini berjalan stabil atau tidak. Apabila ada penurunan secara tiba-tiba, maka perlu dilakukan pengecekan terhadap hal-hal yang dapat menghambat crawling.
Analisis terhadap average response time juga dapat digunakan untuk mengecek apakah server yang digunakan mampu untuk menangani semua proses yang ada.
Seberapa Sering Halaman Akan Di-crawling?
Sesuai dengan penjelasan sebelumnya, frekuensi sebuah halaman akan di-crawl sesuai dengan seberapa sering kita meng-update website tersebut. Robot/spider akan mempelajari dan mendeteksi seberapa sering website tersebut di-update kemudian mengikuti jadwal update-nya.
Contoh: pada sebuah website, update dilakukan dalam 2 minggu sekali, maka crawl juga akan terjadi dalam 2 minggu sekali. Hal ini terjadi agar proses crawl lebih efektif dan efisien.
Apa yang Menghambat Proses Crawling?
Dari penjelasan di atas, kita dapat memahami kalau search engine akan menelusuri setiap website serta halaman yang berada di internet. Namun ada beberapa hal yang dapat menjadi penghalang sehingga Googlebot tidak bisa melakukan crawl. Apa saja?
Problem pada Server
Apabila ada masalah pada server pemilik website, maka Googlebot tidak dapat menerima konten apapun dari server tersebut. Problem pada server ini memiliki kode masing-masing yang dikenal dengan HTTP status codes, seperti 2xx, 3xx, dan lain-lain.
Network and DNS Errors
Googlebot memperlakukan network timeouts, connection reset, and DNS errors mirip seperti HTTP status code 5xx server error. Hal-hal tersebut memberikan efek yang cepat, bukan hanya pada tahap crawling halaman yang baru namun juga pada halaman yang sudah ter-index di Google, karena di-crawl saja tidak bisa apalagi maju ke tahap berikutnya, yaitu indexing.
Pengaturan pada robots.txt
Pada robots.txt terdapat perintah allow yang berarti pemilik website memperbolehkan Googlebot untuk melakukan crawl pada setiap halaman yang tertera pada sitemap tersebut.
Namun ada beberapa halaman yang pemilik website tidak ingin untuk di-crawl oleh search engine. Maka dari itu, perintah allow diganti dengan disallow. Apabila menemukan perintah ini, Googlebot tidak akan dapat melakukan crawl.
Apa itu Crawl Budget?
Crawl budget adalah jumlah page yang di-crawl oleh robot pada rentang waktu tertentu. Crawl budget ini akan ada sedikit variasi, tetapi pada angka yang relatif stabil.
Jumlah crawl budget pada tiap website pun berbeda-beda, bisa 6 atau 5.000 atau 4 juta halaman per hari.
Jumlah crawl budget yang berbeda-beda ini bergantung pada besar atau jumlah page, website health (apakah ditemukan error ketika proses crawling) dan jumlah link yang mengarah ke website-mu.
Search Engine Indexing
Apa itu Indexing?
Indexing adalah proses penyimpanan dan pengorganisiran konten yang ditemukan pada saat proses crawling. Setelah di-crawl, search engine akan mencoba memahami apa isi dari halaman tersebut. Prosesnya dilakukan dengan cara menganalisis teks konten pada halaman tersebut, tags, dan atribut seperti elemen <title>, dan alt text.
Selama proses peng-index-an berjalan, search engine akan memutuskan apakah ada halaman yang sama (duplicate atau canonical) di internet. Google akan mengelompokkan halaman-halaman dengan konten yang mirip, kemudian memilih konten yang paling relevan dengan queries yang dimasukkan oleh user.
Pada beberapa kasus, walaupun suatu website atau halaman sudah di-crawl, tetapi ada kemungkinan website atau halaman tersebut belum ter-index. Walapun proses crawling sudah berhasil, tetapi belum ada kepastian bahwa website kamu ter-index.
Bagaimana Cara Mengetahui Situs Sudah Di-index atau Belum?
Dengan adanya kemungkinan gagal ter-index, pemilik website wajib untuk melakukan pengecekan. Untuk mengetahui apakah sebuah situs sudah di-index atau belum, bisa dilakukan dengan 2 cara, yaitu dengan menggunakan Advanced Google Search dan juga Google Search Console.
Menggunakan Advanced Google Search
Untuk melakukan pengecekan index dengan menggunakan advanced Google search ini, dapat dilakukan dengan metode yang cukup mudah. Untuk melihat status index suatu website masukkan nama domain website yang mau dicek dengan menambahkan imbuhan “site:” pada bagian depannya, menjadi seperti ini: “site:yourdomain.com”
Setelah pencarian dilakukan, akan muncul jumlah hasil pencarian dari Google. Hasil atau result yang ditampilkan Google bukanlah angka yang pasti, tetapi dapat memberi gambaran jumlah halaman yang sudah ter-index dari domain yang dituliskan.
Menggunakan Google Search Console
Untuk mendapatkan hasil yang lebih akurat, pengecekan bisa dilakukan dengan menggunakan Google Search Console (GSC). Berbeda dengan menggunakan advanced Google search, untuk bisa menggunakan GSC diperlukan permission untuk mengakses data dari website yang akan dicek, sehingga hal ini hanya dapat dilakukan oleh pemilik website saja.
Dengan menggunakan GSC, monitoring halaman yang sudah ter-index oleh Google akan lebih akurat.
Apa yang Menghambat Proses Indexing?
Apabila halaman tidak muncul pada SERP, maka ada beberapa alasan yang mungkin menyebabkan website belum ter-index, yaitu:
- Kualitas konten yang rendah, sehingga dianggap tidak relevan untuk menjawab queries user Google.
- Halaman tersebut masih baru dan Googlebot belum melakukan crawling.
- Ada masalah pada site navigation sehingga menyulitkan robot untuk melakukan crawl secara efektif.
- Halaman tersebut menggunakan metatag “noindex” yang menghalangi search engine untuk melakukan indexing.
- Website terkena pinalti dari Google karena terdapat banyak aktivitas spam.
Apakah Halaman Dapat Dikeluarkan dari Index Google?
Hal ini dapat terjadi dengan beberapa alasan, yaitu:
- Tidak sesuai dengan quality guidelines yang ditetapkan oleh Google. Apabila sebuah website melanggar quality guidelines Google dan kemudian dikeluarkan dari indeks, website owner akan mendapatkan notifikasi melalui Google Search Console. Setelah mendapatkan notifikasi, website owner perlu memodifikasi website atau halamannya sehingga sesuai dengan quality guidelines dari Google. Kemudian submit kembali website atau halamannya agar bisa dipertimbangkan untuk kembali di-index oleh Google.
- Halaman tersebut memiliki HTTP status code 4xx atau 5xx dalam jangka waktu cukup lama sehingga dianggap tidak memiliki konten untuk ditampilkan.
- Halaman tersebut memiliki metatag “noindex”.
Search Engine Ranking
Apa itu Ranking?
Ketika seorang user memasukkan queries pada search box, search engine akan menjelajahi index yang sudah dibuat sebelumnya untuk mencari konten yang memiliki relevansi tinggi untuk kemudian ditampilkan pada SERP. Ketika search engine mengurutkan konten berdasarkan relevansi, hal inilah yang biasa disebut sebagai ranking.
Bagaimana Cara Search Engine Menentukan Rank Halaman-halaman dan Situs-situs?
Secara umum, dapat dikatakan bahwa semakin tinggi ranking suatu website, maka website tersebut memiliki relevansi yang tinggi dengan queries yang dimasukkan. Relevansi ditentukan dengan berbagai macam faktor, beberapa di antaranya adalah lokasi, bahasa, dan device yang digunakan oleh user.
Apabila seorang user memasukkan queries “jasa laundry terdekat”, maka hasil yang akan ditampilkan oleh search engine akan berbeda-beda terhadap user yang berada di Jakarta dan di Bandung. Berikut penjelasan lebih dalam mengenai faktor lokasi, bahasa, dan device dirangkum dari Search Engine Journal.
Location
Alasan lokasi menjadi salah satu faktor untuk menentukan ranking adalah karena relevansi paling tinggi adalah pada product atau informasi yang berada di lokasi yang sama dengan user (lokal).
Contohnya, apabila seorang user memasukkan queries “cafe latte” dan yang muncul adalah sebuah cafe yang letaknya berada di kota yang berbeda maka informasi yang didapatkan oleh user menjadi tidak relevan.
Berikut beberapa informasi yang digunakan Google untuk menentukan lokasi user adalah:
- Lokasi device (GPS, lokasi Wi-Fi, dll.)
- Label lokasi pada Google Maps
- Informasi alamat rumah pada akun Google user
- History aktivitas pada produk Google yang lainnya
- IP address
Language
Hal yang sama juga berlaku untuk bahasa. Agar konten yang dibuat bisa tepat sasaran, maka penggunaan bahasa juga harus disesuaikan. Apabila target visitor adalah orang Indonesia yang berbahasa Indonesia, maka sebaiknya konten juga ditulis dalam bahasa Indonesia.
Kondisi ini mengakibatkan, halaman yang ditulis dalam bahasa Indonesia tersebut mungkin tidak akan memiliki ranking yang tinggi di negara lain yang menggunakan bahasa yang berbeda.
Apabila target visitor yang diinginkan dari website kita adalah dari berbagai macam negara maka disarankan untuk membuat konten dengan berbagai macam bahasa, sesuai dengan target pasarnya.
Device
Perbedaan device yang digunakan oleh user pun dapat memengaruhi ranking. Perbedaan ranking pada mobile dan desktop adalah hal yang wajar. Apa yang menyebabkan perbedaan tersebut?
Faktor perbedaan ranking adalah:
- Speed
- Mobile friendliness
- Perbedaan elemen yang terlihat pada SERP
Selain itu, ada perbedaan intensi ketika seorang user melakukan pencarian pada smartphone. Ketika menggunakan smartphone, mungkin user sedang dalam perjalanan sehingga Google akan memberikan informasi yang lokal.
Sedangkan ketika menggunakan desktop, ada kemungkinan bahwa user ingin mencari informasi yang lebih bersifat visual seperti gambar atau video. Maka dari itu, Google berusaha menyesuaikan hasil pencarian dengan device yang sedang digunakan.
Apa yang Mungkin Membuat Halaman Terindeks tapi Tidak Ranking?
Pada beberapa kasus, hal ini mungkin terjadi dikarenakan:
- Konten pada halaman tidak relevan terhadap queries yang diberikan user
Ingat kembali tujuan Google yaitu memberikan jawaban paling relevan atas pertanyaan atau queries user. Oleh karena itu, ketika konten tidak menjawab pertanyaan user maka akan sulit ditampilkan di SERP (ranking).
- Kualitas konten rendah
Terdapat banyak faktor yang dapat menentukan apakah kualitas konten dari suatu halaman cukup baik atau rendah. Untuk menghindari hal ini, Google sudah menyediakan content-specific guidelines yang dapat digunakan sebagai pedoman.
- Terdapat robots yang mencegah agar halaman tidak ditampilkan pada SERP
Dengan penambahan tag “noindex”, Googlebot akan menghilangkan halaman tersebut dari search result.
Penutup
Untuk menutup pembahasan mengenai cara kerja search engine, perlu kamu pahami bahwa terdapat berbagai macam informasi yang tersebar di internet. Sebuah search engine memiliki tugas untuk mencari, memahami dan mengorganisir semua informasi yang terdapat di internet.
Untuk kemudian dipakai untuk menyajikan informasi yang paling relevan dan terbaik untuk menjawab pertanyaan atau queries yang dimasukkan oleh user.
Dengan memahami cara kerja search engine, kita sebagai seorang website owner dapat memastikan bahwa website kita dapat muncul di hasil pencarian search engine sehingga dapat memberikan informasi yang tepat sasaran kepada user yang membutuhkan.
Cara kerja search engine yang perlu diingat adalah
- Crawling
Proses penelusuran seluruh konten yang terdapat di internet menggunakan robots atau spider.
- Indexing
Proses memahami isi konten yang di-crawl dan pengorganisiran konten-konten agar bisa dipakai sebagai database ketika terdapat queries dari user.
- Ranking
Proses mengurutkan konten yang paling relevan dan terbaik yang sesuai dengan queries yang diberikan user.
Nah, setelah kamu memahami cara kerja search engine, kamu sudah mampu untuk mengoptimalkan website kamu agar bisa mendapatkan lebih banyak visitor lagi. Selanjutnya, kamu juga perlu tahu bagaimana caranya untuk mengoptimasi website kamu!