Google Search কে আপনি লাইব্রেরির মতো ভাবতে পারেন। নতুন নতুন বই (ওয়েব পেজ) খুঁজে বের করা, বইয়ের নাম-লেখক-বিষয় লিখে ক্যাটালগ বানানো, তারপর আপনি “যেটা খুঁজছেন” তার সাথে সবচেয়ে মিল আছে এমন বই আগে দেখানো, এই তিনটাই মূল কাজ। গুগলের ক্ষেত্রে এই কাজগুলো হয় স্বয়ংক্রিয়ভাবে, মানুষের হাতে বসে “এই সাইট র্যাঙ্কে উঠবে” এমন সিদ্ধান্তে না।
এই বিষয়টা বোঝা কেন দরকার, বিশেষ করে বাংলাদেশি ইউজারের জন্য?
বাংলাদেশে বেশিরভাগ মানুষ মোবাইল থেকে সার্চ করে, দ্রুত উত্তর চায়, আর অনেক সময় একসাথে “তথ্য + কেনার সিদ্ধান্ত” নিতে চায়। যেমন “Best smartphone under 20000”, “laptop price in Bangladesh”, “মিরপুরে ফ্ল্যাট ভাড়া”, “nearest diagnostic center”। এ ধরনের সার্চে Google শুধু ওয়েব পেজই না, লোকাল ফলাফল, ছবি, ভিডিও, “Top stories” বা অন্য SERP ফিচারও দেখাতে পারে, সার্চের ধরন অনুযায়ী।
আরেকটা খুব সাধারণ ভুল ধারণা হলো, টাকা দিলেই নাকি Google র্যাঙ্ক বাড়ায়। Google স্পষ্টভাবে বলে: তারা বেশি বার crawl করানোর জন্য বা র্যাঙ্ক বাড়ানোর জন্য টাকা নেয় না; র্যাঙ্কিং হয় প্রোগ্রাম অনুযায়ী। (বিজ্ঞাপন আলাদা জিনিস, সেটি সাধারণত “Ad” হিসেবে লেবেল করা থাকে)।
ক্রলিং (Crawling): Google ইন্টারনেটে পেজ খুঁজে পায় কীভাবে
Google-এর প্রথম কাজ হলো নতুন বা আপডেট হওয়া পেজ খুঁজে বের করা। কারণ ইন্টারনেটের সব ওয়েব পেজের কোনো “একটা কেন্দ্রীয় তালিকা” নেই; তাই Google নিয়মিতভাবে নতুন/আপডেটেড URL খুঁজে বেড়ায়। এই প্রক্রিয়াকে Google “URL discovery” বলে।
Google পেজ “খুঁজে” পায় কোথা থেকে?
Google সাধারণত তিনভাবে নতুন পেজের খোঁজ পায়:
এক, আগে থেকেই জানা পেজে থাকা লিংক ধরে নতুন পেজে পৌঁছায় (যেমন কোনো ক্যাটাগরি পেজ থেকে নতুন ব্লগ পোস্টের লিংক)।
দুই, আপনি sitemap জমা দিলে, সেটাকে সংকেত (hint) হিসেবে ধরে নতুন URL সম্পর্কে জানতে পারে।
তিন, বড় সাইট বা নতুন সাইটের ক্ষেত্রে ভেতরের ইন্টারনাল লিংকিংও খুব গুরুত্বপূর্ণ, কারণ Googlebot লিংক ফলো করে ঘোরে। sitemap থাকলেও Google স্পষ্টভাবে বলে, sitemap সাবমিট করাটা শুধুই “hint”; এটা গ্যারান্টি না যে Google সেটা অবশ্যই ডাউনলোড করবে বা সেখানকার সব URL crawl করবে।
কে crawl করে? Googlebot কী?
Google-এর crawler প্রোগ্রামকে Googlebot বলা হয়। Googlebot অ্যালগরিদমভিত্তিকভাবে ঠিক করে কোন সাইট কত ঘনঘন crawl হবে, কতগুলো পেজ fetch করবে ইত্যাদি।
অনেক ওয়েবসাইট এখন JavaScript দিয়ে কনটেন্ট লোড করে। Google বলছে, crawl করার সময় তারা পেজ render করে এবং পাওয়া JavaScript চালাতে “recent version of Chrome” ব্যবহার করে যাতে ব্রাউজারের মতো করে কনটেন্ট দেখতে পারে।
robots.txt নিয়ে সবচেয়ে কমন ভুল ধারণা
বাংলাদেশে অনেক নতুন ব্লগার/ডেভেলপার robots.txt-কে “গোপন করার ফাইল” মনে করে। কিন্তু Google-এর ডকুমেন্টেশন খুব পরিষ্কার: robots.txt মূলত crawler-কে বলে কোন URL access করতে পারবে; এটি মূলত সার্ভারকে বেশি চাপ না দিতে সাহায্য করার জন্য, “Google থেকে পেজ গায়েব” করার জন্য না। কোনো পেজ Google থেকে বাদ দিতে চাইলে noindex ব্যবহার করা বা পাসওয়ার্ড-প্রটেক্ট করা দরকার।
এখানে আরেকটা গুরুত্বপূর্ণ nuance: Googlebot-কে crawl করতে ব্লক করলে সাধারণত পেজের কনটেন্ট বুঝতে পারবে না, কিন্তু শুধু ব্লক করলেই সবসময় URL একদমই দেখা যাবে না এমন গ্যারান্টি নেই। Googlebot ডকুমেন্টেশনে বলা আছে, crawl ব্লক করলে URL সার্চে দেখা যাওয়া আটকাতেই হবে এমন নয়; noindex এর কাজ আলাদা।
ইনডেক্সিং (Indexing): Google “মেমরি” তে কীভাবে জমা রাখে
Crawling শেষ হলেই সব পেজ সার্চে চলে আসে না। Google নিজেই বলে, Search-এর তিন ধাপ আছে এবং “সব পেজ সব ধাপ পার হয় না”।
Indexing ধাপে Google চেষ্টা করে বুঝতে, পেজটা আসলে কোন বিষয়ে। এই প্রক্রিয়ায় তারা টেক্সট, বিভিন্ন গুরুত্বপূর্ণ ট্যাগ/অ্যাট্রিবিউট (যেমন <title>, ছবি, ভিডিও, alt ইত্যাদি) বিশ্লেষণ করে।
ডুপ্লিকেট, Canonical, আর “কোনটা আসল পেজ”
একই বা খুব কাছাকাছি কনটেন্ট অনেক URL-এ থাকতে পারে (বাংলাদেশে এটা খুব কমন, যেমন একই নিউজ/প্রেস রিলিজ কপি করে বহু সাইটে, বা একই প্রোডাক্টের একাধিক URL)। Google indexing-এর সময় দেখে একটি পেজ আরেকটির ডুপ্লিকেট কি না এবং canonical কোনটা হবে। canonical হলো সেই সংস্করণ, যেটা সার্চে দেখানোর সম্ভাবনা বেশি। Google বলে, তারা একই ধরনের পেজগুলোকে ক্লাস্টার করে, তারপর “সবচেয়ে representative” পেজটিকে canonical হিসেবে নির্বাচন করে।
Indexing কেন হয় না?
Google পরিষ্কারভাবে জানায়: indexing গ্যারান্টি নয়। পেজ প্রসেস করলেও ইনডেক্স হবে এমন না। কিছু কমন কারণের মধ্যে আছে কনটেন্টের মান কম, robots meta দিয়ে indexing বন্ধ, বা সাইট ডিজাইন/টেকনিক্যাল সমস্যা যেটা indexing কঠিন করে।
টেকনিক্যাল দিক থেকে, Google সাধারণত HTTP 200 (success) রেসপন্স পাওয়া পেজই ইনডেক্স করে; error পেজ ইনডেক্স হয় না।
রেজাল্ট দেখানো ও র্যাঙ্কিং (Serving): আপনার সার্চের জন্য কোন পেজ আগে আসে
আপনি কী লিখলেন (query), আপনাকে কী দরকার (intent), আপনি কোথায় আছেন, কোন ভাষায় সার্চ করলেন, মোবাইল না ডেস্কটপ ব্যবহার করছেন এগুলো মিলিয়ে Google ইনডেক্স থেকে ম্যাচিং পেজ বের করে। Google বলছে, relevancy নির্ধারিত হয় “শত শত” ফ্যাক্টর দিয়ে; যেমন লোকেশন, ভাষা, ডিভাইস। একই সার্চ “bicycle repair shops” এক দেশে একভাবে, আরেক দেশে আরেকভাবে দেখাতে পারে।
“Ranking systems” মানে কী?
Google-এর Ranking systems আসলে কয়েকটা নয়, অনেকগুলো অটোমেটেড সিস্টেম একসাথে কাজ করে। Google-এর ভাষায়, তারা সার্চ ইনডেক্সে থাকা “শত শত বিলিয়ন” পেজ ও কনটেন্ট নিয়ে কাজ করে এবং নানা “factors and signals” দেখে খুব অল্প সময়ে সবচেয়ে প্রাসঙ্গিক ও উপকারী ফলাফল দেয়।
কিছু গুরুত্বপূর্ণ উদাহরণ:
BERT: Google বলে, BERT হলো এমন একটি AI সিস্টেম যেটা শব্দের কম্বিনেশন থেকে অর্থ ও intent বুঝতে সাহায্য করে। বাংলায় সহজ করে বললে, আপনি “কী বোঝাতে চেয়েছেন” সেটার কাছাকাছি পৌঁছাতে সাহায্য করে।
Freshness systems: কিছু সার্চে নতুন তথ্য বেশি দরকার। Google বলছে, “query deserves freshness” টাইপ সিস্টেম আছে, যা এমন সার্চে তুলনামূলক নতুন কনটেন্ট দেখাতে পারে (যেমন নতুন সিনেমার রিভিউ, সাম্প্রতিক ভূমিকম্প হলে সাম্প্রতিক খবর)।
Link analysis systems + PageRank: গুগল বলছে, তারা পেজগুলো কীভাবে একে অন্যের সাথে লিংক করে তা বুঝতে বিভিন্ন সিস্টেম ব্যবহার করে, আর এর মধ্যে PageRank আছে। PageRank প্রথম দিকের core system হলেও Google বলছে এটি সময়ের সাথে অনেক evolve হয়েছে, এবং এখনো কোর র্যাঙ্কিং সিস্টেমের অংশ।
Deduplication: একই ধরনের অসংখ্য মিল পেলে Google “অপ্রয়োজনীয় ডুপ্লিকেশন” কমাতে সবচেয়ে প্রাসঙ্গিক ফলাফলগুলো দেখায়। এমনকি Featured snippet হলে একই পেজকে আবার নিচে রিপিট না করতেও ডিডুপ্লিকেশন কাজ করে।
AI Overviews/AI Mode এ ওয়েবসাইট কীভাবে আসে?
Google Search Central-এর গাইড অনুযায়ী, AI Overviews এবং AI Mode-এ আসার জন্য আলাদা কোনো “বিশেষ SEO” বা নতুন কোনো টেকনিক্যাল রিকোয়ারমেন্ট নেই; সাধারণ SEO বেস্ট প্র্যাকটিসই এখানে প্রাসঙ্গিক। তবে একটি গুরুত্বপূর্ণ শর্ত হলো: পেজটি ইনডেক্সড হতে হবে এবং সার্চে স্নিপেট দেখানোর মতোভাবে যোগ্য হতে হবে।
বাংলাদেশে সার্চ করলে ফলাফল কেন বদলায়
বাংলাদেশি পাঠকের প্রশ্ন সাধারণত এ রকম: “আমার বন্ধু ঢাকায় সার্চ করে এক রকম ফলাফল পাচ্ছে, আমি রাজশাহীতে অন্য রকম কেন?” এর মূল কারণ, Google relevence নির্ধারণে লোকেশন, ভাষা, ডিভাইসকে গুরুত্ব দেয়।
এটা লোকাল ব্যবসার ক্ষেত্রে আরও স্পষ্ট। ধরুন আপনি সার্চ করলেন “বেস্ট বিরিয়ানি” বা “ক্যাফে near me” বা “ডেন্টিস্ট বনশ্রী”। এ ধরনের সার্চে Google লোকাল intent ধরতে পারে এবং কাছাকাছি ব্যবসা দেখাতে চেষ্টা করে। Google Business Profile (আগের Google My Business) সাহায্য সেকশনেও বলা আছে, Google কাছাকাছি এমন ব্যবসা দেখাতে চেষ্টা করে যেটা কাস্টমার ভিজিট করতে চাইতে পারে, এবং Business Profile ব্যবহার করে লোকাল র্যাঙ্কিং উন্নত করা যায়।
বাংলাদেশে আরেকটা বাস্তবতা হলো, অনেক ব্যবসা শুধু Facebook পেজ দিয়ে চলে। কিন্তু মানুষ Google-এ সার্চ করে “ফোন নম্বর”, “লোকেশন”, “রিভিউ”, “খোলা আছে কিনা” জানতে চায়। তাই লোকাল সার্চে দৃশ্যমানতা (Maps/Local results) বাড়ানো অনেক সেক্টরে সরাসরি বিক্রি/লিডে প্রভাব ফেলে, বিশেষ করে রেস্টুরেন্ট, কোচিং সেন্টার, ডেন্টাল/ডায়াগনস্টিক, হোম সার্ভিস (ইলেকট্রিশিয়ান/প্লাম্বার) ইত্যাদিতে।
ওয়েবসাইট বা ব্লগ Google-এ না এলে কী কী চেক করবেন
একটা পেজ লাইভ থাকলেই Google-এ দেখা যাবে এমন না। Google নিজেই বলে, তারা crawl/index/serve গ্যারান্টি দেয় না, এমনকি আপনি তাদের বেসিক গাইডলাইন মানলেও।
তাই বাস্তবসম্মত চেকলিস্ট দরকার। নিচের পয়েন্টগুলো বাংলাদেশে নতুন ব্লগার, নিউজ সাইট, বা ই-কমার্স সাইটে সবচেয়ে বেশি কাজে লাগে:
Googlebot কি পেজে ঢুকতে পারছে?
robots.txt দিয়ে ভুল করে গুরুত্বপূর্ণ অংশ ব্লক করা হয়েছে কি না সেটা আগে দেখুন। robots.txt মূলত crawl কন্ট্রোল করে; “Google থেকে সরিয়ে দেওয়া”র টুল না।
Google Search Technical Requirements পাতায় বলা আছে, robots.txt দিয়ে ব্লক থাকা পেজগুলো সাধারণত সার্চ রেজাল্টে দেখানোর সম্ভাবনা কম।
পেজ কি ঠিকঠাক কাজ করছে? (HTTP 200)
অনেক সময় নতুন সাইটে “maintenance”, “soft 404”, বা ভুল রিডাইরেক্টের কারণে পেজ মানুষ দেখতে পারলেও Google সঠিকভাবে ইনডেক্স করতে পারে না। Google বলে, তারা সাধারণত HTTP 200 (success) পেজ ইনডেক্স করে।
noindex ভুলে চালু আছে কি?
WordPress-এ “Discourage search engines…” টাইপ সেটিং, বা কোনো plugin থেকে meta robots noindex বসে গেলে Google ইনডেক্স করবে না। Googlebot ডকুমেন্টেশনেও বলা আছে, ইনডেক্স আটকাতে noindex ব্যবহার করা হয়, শুধু crawl ব্লক করে লাভ নেই।
sitemap আছে কি, আর বাস্তবে কাজে লাগছে কি?
sitemap থাকলে discovery সহজ হতে পারে। কিন্তু মনে রাখবেন, sitemap জমা দেওয়া গ্যারান্টি না; এটা hint মাত্র। তাই sitemap সাবমিট করার পরও internal linking ঠিক আছে কি না, এবং গুরুত্বপূর্ণ URL সেখানে আছে কি না এগুলো মিলিয়ে দেখুন।
কনটেন্টের মান ও “People-first” বিষয়টা ঠিক আছে কি?
Google-এর গাইডলাইন অনুযায়ী, তাদের ranking systems লক্ষ্য করে এমন তথ্য দেখাতে যেটা সহায়ক, নির্ভরযোগ্য, এবং মানুষের উপকারের জন্য তৈরি; শুধু সার্চ র্যাঙ্ক বাড়ানোর উদ্দেশ্যে বানানো কনটেন্টকে তারা প্রাধান্য দিতে চায় না।
বাংলাদেশে খুব কমন সমস্যা: একই টপিকে দশটা সাইট যে ভাষায়/স্টাইলে লিখেছে, আপনি সেটাই কপি-পেস্ট বা সামান্য ঘুরিয়ে লিখলে Google-এর কাছে “নতুন মূল্য” কম মনে হতে পারে। ফলাফল, ইনডেক্স হতে দেরি হয়, বা র্যাঙ্ক আসে না, বা আসলেও টিকে না। (এটা magic না; ব্যবহারকারীর সন্তুষ্টি ও কনটেন্ট ভ্যালুর সাথেই সম্পর্কিত।)
Search Console দিয়ে বাস্তব অবস্থা যাচাই করুন
অনেকেই বলে “ইনডেক্স হয়নি”, কিন্তু আসলে সমস্যা অন্য জায়গায়। Search Console-এর URL Inspection tool নির্দিষ্ট URL সম্পর্কে Google-এর ইনডেক্সড ভার্সন ও ইনডেক্সেবল কিনা তা বুঝতে সাহায্য করে।
আর Google-এর How Search Works গাইডেও আছে: Search Console কোনো পেজ ইনডেক্সড বললেও সার্চে না দেখাতে পারে, যদি কুয়েরির সাথে পেজটা প্রাসঙ্গিক না হয়, কনটেন্টের মান কম হয়, বা robots meta rules serve করা আটকায়।
দ্রুত বোঝার জন্য একটি ছোট টেবিল
| ধাপ | Google কী করে | আপনি (সাইট মালিক/ব্লগার) কী নিশ্চিত করবেন |
|---|---|---|
| Crawling | লিংক/sitemap ধরে পেজ খুঁজে, Googlebot দিয়ে ফেচ করে; প্রয়োজনে JavaScript render করে | robots.txt ভুল না, সার্ভার ঠিক, internal link আছে, গুরুত্বপূর্ণ কনটেন্ট readable |
| Indexing | কনটেন্ট বুঝে, ডুপ্লিকেট/Canonical ঠিক করে, সিগন্যাল সংগ্রহ করে ইনডেক্সে রাখে | টাইটেল/কনটেন্ট ক্লিয়ার, ডুপ্লিকেট কম, canonical সঠিক, noindex অনিচ্ছায় নেই |
| Serving/Ranking | কুয়েরি বুঝে ইনডেক্স থেকে সেরা মিল বের করে; লোকেশন/ভাষা/ডিভাইসসহ শত শত ফ্যাক্টর দেখে | কনটেন্ট মানুষকে সাহায্য করে, লোকাল intent ধরলে লোকাল তথ্য, ট্রাস্ট সিগন্যাল, স্প্যাম এড়িয়ে চলা |
উপসংহার
Google Search কীভাবে কাজ করে বুঝতে পারলে “র্যাঙ্ক কেন কম”, “ইনডেক্স কেন হচ্ছে না”, “লোকাল সার্চে কেন দেখা যাচ্ছে না” এই প্রশ্নগুলোর উত্তর অনেক বাস্তবসম্মতভাবে পাওয়া যায়। মূল কথাটা হলো: Google আগে পেজ খুঁজে (Crawling), তারপর বুঝে ও জমা রাখে (Indexing), তারপর আপনার সার্চের জন্য সবচেয়ে প্রাসঙ্গিক ও উপকারী ফলাফল সাজিয়ে দেখায় (Serving/Ranking)।
আপনি যদি ব্লগার হন, “কীওয়ার্ড বসালেই র্যাঙ্ক” এই পুরোনো ধারণা বাদ দিয়ে, ইনডেক্সেবল টেকনিক্যাল সেটআপ, পরিষ্কার কনটেন্ট, আর মানুষের সমস্যার উত্তর দেওয়ার দিকে ফোকাস রাখলেই বাস্তবে লাভ হয়। Google-এর অফিসিয়াল গাইডও একই দিকেই ঠেলে দেয়: মানুষকে সাহায্য করে, নির্ভরযোগ্য কনটেন্ট তৈরি করা।
সাধারণ জিজ্ঞাসা
Google কি আমার ওয়েবসাইটে নিজে থেকেই আসে, নাকি আমাকে সাবমিট করতে হয়?
বেশিরভাগ পেজ Google নিজে থেকেই খুঁজে পায়, কারণ web crawlers নিয়মিত ওয়েব explore করে। sitemap সাবমিট করা সাহায্য করতে পারে, কিন্তু সেটা গ্যারান্টি না।
Robots.txt দিলে কি আমার পেজ Google থেকে লুকিয়ে যাবে?
না। robots.txt মূলত crawl অ্যাক্সেস নিয়ন্ত্রণের জন্য, “Google থেকে বাদ” দেওয়ার জন্য না। কোনো পেজ ইনডেক্সে না চাইলে noindex বা পাসওয়ার্ড প্রটেকশন দরকার।
আমার পেজ ইনডেক্সড দেখাচ্ছে, কিন্তু Google-এ সার্চ করলে পাচ্ছি না কেন?
Google বলে, এমন হতে পারে যদি সেই কুয়েরির জন্য পেজটা প্রাসঙ্গিক না হয়, কনটেন্টের মান কম হয়, বা robots meta rules serve করা আটকে দেয়।
Ranking এ সবচেয়ে বেশি প্রভাব ফেলে কী?
Google নির্দিষ্ট “একটা” ফ্যাক্টর বলে দেয় না। তারা বলে, তারা অনেক factors and signals দেখে এবং লোকেশন/ভাষা/ডিভাইসসহ শত শত ফ্যাক্টর প্রাসঙ্গিকতা নির্ধারণে ভূমিকা রাখতে পারে।
AI Overviews/AI Mode এ আসতে আলাদা করে কী করতে হয়?
Google Search Central অনুযায়ী, আলাদা কোনো বিশেষ অপ্টিমাইজেশন দরকার নেই; সাধারণ SEO বেস্ট প্র্যাকটিসই যথেষ্ট। তবে পেজ ইনডেক্সড হতে হবে এবং সার্চে স্নিপেট দেখাতে যোগ্য হতে হবে।
লোকাল ব্যবসা হলে Google-এ (Maps/Local results) উপরে উঠতে কী সবচেয়ে দরকার?
Google-এর সহায়তা পাতায় বলা আছে, Google কাছাকাছি প্রাসঙ্গিক ব্যবসা দেখাতে চেষ্টা করে এবং Business Profile ব্যবহার করে লোকাল র্যাঙ্কিং উন্নত করা যায়। তাই Business Profile ঠিকভাবে সেটআপ করা লোকাল দৃশ্যমানতার জন্য খুব গুরুত্বপূর্ণ।


