Home Digital Marketing SEO Robots.txt ফাইল কি? এর কাঠামো ও ব্যবহারবিধি উদাহরণসহ।

Robots.txt ফাইল কি? এর কাঠামো ও ব্যবহারবিধি উদাহরণসহ।

Robots.txt ফাইল

Robots.txt ফাইল কি?

Robots.txt ফাইল হলো একটি সাধারণ টেক্সট ফাইল, যা ওয়েবসাইটের মূল ডিরেক্টরিতে থাকে এবং সার্চ ইঞ্জিন ক্রলার বা বটগুলোর জন্য নির্দেশনা দেয় কোন পেজ বা ফোল্ডারগুলো ক্রল করা যাবে এবং কোনগুলো ক্রল করা যাবে না। এটি ওয়েবসাইটে সার্চ ইঞ্জিনের ক্রলিং কার্যকলাপ নিয়ন্ত্রণ করতে সহায়তা করে।

Robots.txt ফাইল এর মূল উদ্দেশ্য

  • সার্চ ইঞ্জিন ক্রলারকে নির্দেশনা প্রদান করা যে, কোন পেজ বা ফোল্ডারগুলো ক্রল করতে হবে এবং কোনগুলো থেকে দূরে থাকতে হবে।
  • ওয়েবসাইটের কিছু অংশের তথ্য গোপন রাখতে সহায়তা করা, যেমন প্রশাসনিক পেজ, ব্যক্তিগত তথ্য বা কনটেন্ট।
  • সার্ভার লোড কমাতে এবং ক্রলিং প্রক্রিয়া নিয়ন্ত্রণ করতে সাহায্য করা।

Robots.txt ফাইল এর কাঠামো

Robots.txt ফাইল মূলত দুইটি অংশ নিয়ে গঠিত:

  • User-agent: এটি সার্চ ইঞ্জিন ক্রলারের নাম উল্লেখ করে, যার জন্য নির্দেশনা দেওয়া হয়।
  • Disallow/Allow: এই অংশে নির্দিষ্ট পেজ বা ফোল্ডারের অ্যাক্সেস নিষিদ্ধ (Disallow) বা অনুমোদিত (Allow) করা হয়।

Robots.txt ফাইলের একটি সাধারণ উদাহরণ:

txt
User-agent: *

Disallow: /admin/

Disallow: /private/

Allow: /public/

 

উদাহরণ  এর ব্যাখ্যা:

  • User-agent: *: এটি নির্দেশ করছে যে, সব ধরনের ক্রলার বা বটের জন্য নির্দেশনা প্রযোজ্য হবে।
  • Disallow: /admin/: এটি ক্রলারকে নির্দেশ দেয় যে, /admin/ ফোল্ডারটি ক্রল করা যাবে না।
  • Disallow: /private/: এটি ক্রলারকে /private/ ফোল্ডারটি ক্রল করতে নিষেধ করে।
  • Allow: /public/: এটি ক্রলারকে /public/ ফোল্ডারটি ক্রল করার জন্য অনুমতি দেয়।

আরও পড়ুন : কোন ভুলগুলোর কারণে ক্রাউলার সাইট নেভিগেশন সঠিকভাবে করতে পারে না?

Robots.txt ফাইলের উপাদানগুলো 

১. User-agent:

  • এটি ক্রলারের নাম নির্ধারণ করে। উদাহরণস্বরূপ, Googlebot হলো Google-এর ক্রলার, আর Bingbot হলো Bing-এর ক্রলার।
  • আপনি সমস্ত ক্রলারের জন্য একক নির্দেশনা দিতে চাইলে * (অর্থাৎ সবকিছু) ব্যবহার করবেন। তবে নির্দিষ্ট ক্রলারের জন্যও নির্দেশনা দিতে পারেন।

উদাহরণ:

txt
User-agent: Googlebot

Disallow: /private/

২. Disallow:

এটি এমন একটি কমান্ড, যা ক্রলারকে নির্দেশ দেয় যে, ওয়েবসাইটের নির্দিষ্ট পেজ বা ফোল্ডারগুলো ক্রল করা যাবে না।

উদাহরণ:

txt
User-agent: *

Disallow: /admin/

৩. Allow:

এটি এমন একটি কমান্ড, যা ক্রলারকে নির্দিষ্ট ফাইল বা ফোল্ডার ক্রল করার অনুমতি দেয়। এটি সাধারণত Disallow-এর ব্যতিক্রম হিসেবে ব্যবহৃত হয়।

উদাহরণ:

txt
User-agent: Googlebot

Allow: /public/

৪. Sitemap:

এটি সার্চ ইঞ্জিনকে নির্দেশ দেয় যে, সাইটম্যাপ কোথায় পাওয়া যাবে। সাইটম্যাপ হলো XML ফাইল, যেখানে ওয়েবসাইটের সকল URL-এর তালিকা থাকে।

উদাহরণ:

txt
Sitemap: https://www.example.com/sitemap.xml

Robots.txt এর কিছু বাস্তব উদাহরণ 

১. সবকিছু নিষিদ্ধ করা:

যদি আপনি চান যে, কোনো ক্রলার আপনার সাইটের কোনো অংশই ক্রল করতে না পারে, তাহলে আপনি এই নির্দেশনা দিতে পারেন:

txt
User-agent: *

Disallow: /

 

২. সবকিছু ক্রল করা অনুমোদিত:

যদি আপনি চান যে, ক্রলার সাইটের সব অংশ ক্রল করতে পারে, তাহলে কোনো Disallow কমান্ড না দিয়েও এটি করা যায়:

txt
User-agent: *

Disallow:

 

৩. নির্দিষ্ট ফাইল ক্রল করতে নিষেধ করা:

কোনো নির্দিষ্ট ফাইল ক্রল করা নিষিদ্ধ করতে হলে, এটি ব্যবহার করা যায়:

txt
User-agent: *

Disallow: /example-file.html

 

৪. নির্দিষ্ট ফোল্ডার ক্রল করতে নিষিদ্ধ করা:

কোনো নির্দিষ্ট ফোল্ডারকে ক্রলিং থেকে নিষিদ্ধ করতে নিচের উদাহরণটি ব্যবহার করা যায়:

txt
User-agent: *

Disallow: /images/

Robots.txt এর সীমাবদ্ধতা

  • সার্চ ইঞ্জিনকে নির্দেশ পালন করতে বাধ্য করতে পারে না: Robots.txt ফাইল কেবলমাত্র একটি নির্দেশনা। সার্চ ইঞ্জিন ক্রলারগুলো সাধারণত এই ফাইলের নিয়ম মেনে চলে, তবে কিছু ক্ষতিকারক বট বা ক্রলার এটি অমান্য করতে পারে।
  • সংবেদনশীল তথ্য গোপন করার উপায় নয়: Robots.txt দিয়ে কোনো সংবেদনশীল তথ্য লুকিয়ে রাখা উচিত নয়, কারণ কেউ সরাসরি ফাইলটি দেখে জানতে পারে কোন ফোল্ডার বা পেজ নিষিদ্ধ করা হয়েছে।
  • Noindex নির্দেশনা নয়: Robots.txt দিয়ে ক্রলারকে কোনো পেজে প্রবেশ নিষেধ করা যায়, তবে এটি পেজটিকে সার্চ ইঞ্জিনের ফলাফলে প্রদর্শন বন্ধ করে না। এজন্য noindex মেটা ট্যাগ ব্যবহার করা ভালো।

Robots.txt ফাইল কোথায় রাখা হয়

Robots.txt ফাইলটি সর্বদা ওয়েবসাইটের মূল ডিরেক্টরিতে (root directory) রাখতে হয়। উদাহরণস্বরূপ, এটি অ্যাক্সেস করা যাবে https://www.example.com/robots.txt এর মাধ্যমে।

Robots.txt ফাইল পরীক্ষা করার উপায় 

Google Search Console-এর Robots.txt Tester টুল ব্যবহার করে আপনি আপনার Robots.txt ফাইলটি সঠিকভাবে কাজ করছে কিনা, তা পরীক্ষা করতে পারেন। এই টুলটি আপনার নির্দেশনা অনুযায়ী ক্রলারদের আচরণ পরীক্ষা করার জন্য উপযুক্ত।

উপসংহার

Robots.txt ফাইল হলো সার্চ ইঞ্জিন ক্রলারদের নির্দেশনা দেওয়ার একটি গুরুত্বপূর্ণ ফাইল, যা আপনাকে ওয়েবসাইটের নির্দিষ্ট পেজ বা ফোল্ডারগুলোকে ক্রলিং থেকে নিষিদ্ধ করতে সহায়তা করে। এটি সঠিকভাবে ব্যবহার করলে আপনি ওয়েবসাইটের ক্রলিং প্রক্রিয়া নিয়ন্ত্রণ করতে পারবেন, তবে সংবেদনশীল তথ্যের নিরাপত্তার জন্য অতিরিক্ত সুরক্ষা ব্যবস্থা গ্রহণ করা উচিত।

NO COMMENTS

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Exit mobile version