Robots.txt ফাইল কি?
Robots.txt ফাইল হলো একটি সাধারণ টেক্সট ফাইল, যা ওয়েবসাইটের মূল ডিরেক্টরিতে থাকে এবং সার্চ ইঞ্জিন ক্রলার বা বটগুলোর জন্য নির্দেশনা দেয় কোন পেজ বা ফোল্ডারগুলো ক্রল করা যাবে এবং কোনগুলো ক্রল করা যাবে না। এটি ওয়েবসাইটে সার্চ ইঞ্জিনের ক্রলিং কার্যকলাপ নিয়ন্ত্রণ করতে সহায়তা করে।
Robots.txt ফাইল এর মূল উদ্দেশ্য
- সার্চ ইঞ্জিন ক্রলারকে নির্দেশনা প্রদান করা যে, কোন পেজ বা ফোল্ডারগুলো ক্রল করতে হবে এবং কোনগুলো থেকে দূরে থাকতে হবে।
- ওয়েবসাইটের কিছু অংশের তথ্য গোপন রাখতে সহায়তা করা, যেমন প্রশাসনিক পেজ, ব্যক্তিগত তথ্য বা কনটেন্ট।
- সার্ভার লোড কমাতে এবং ক্রলিং প্রক্রিয়া নিয়ন্ত্রণ করতে সাহায্য করা।
Robots.txt ফাইল এর কাঠামো
Robots.txt ফাইল মূলত দুইটি অংশ নিয়ে গঠিত:
- User-agent: এটি সার্চ ইঞ্জিন ক্রলারের নাম উল্লেখ করে, যার জন্য নির্দেশনা দেওয়া হয়।
- Disallow/Allow: এই অংশে নির্দিষ্ট পেজ বা ফোল্ডারের অ্যাক্সেস নিষিদ্ধ (Disallow) বা অনুমোদিত (Allow) করা হয়।
Robots.txt ফাইলের একটি সাধারণ উদাহরণ:
txt |
User-agent: *
Disallow: /admin/ Disallow: /private/ Allow: /public/ |
উদাহরণ এর ব্যাখ্যা:
- User-agent: *: এটি নির্দেশ করছে যে, সব ধরনের ক্রলার বা বটের জন্য নির্দেশনা প্রযোজ্য হবে।
- Disallow: /admin/: এটি ক্রলারকে নির্দেশ দেয় যে, /admin/ ফোল্ডারটি ক্রল করা যাবে না।
- Disallow: /private/: এটি ক্রলারকে /private/ ফোল্ডারটি ক্রল করতে নিষেধ করে।
- Allow: /public/: এটি ক্রলারকে /public/ ফোল্ডারটি ক্রল করার জন্য অনুমতি দেয়।
আরও পড়ুন : কোন ভুলগুলোর কারণে ক্রাউলার সাইট নেভিগেশন সঠিকভাবে করতে পারে না?
Robots.txt ফাইলের উপাদানগুলো
১. User-agent:
- এটি ক্রলারের নাম নির্ধারণ করে। উদাহরণস্বরূপ, Googlebot হলো Google-এর ক্রলার, আর Bingbot হলো Bing-এর ক্রলার।
- আপনি সমস্ত ক্রলারের জন্য একক নির্দেশনা দিতে চাইলে * (অর্থাৎ সবকিছু) ব্যবহার করবেন। তবে নির্দিষ্ট ক্রলারের জন্যও নির্দেশনা দিতে পারেন।
উদাহরণ:
txt |
User-agent: Googlebot
Disallow: /private/ |
২. Disallow:
এটি এমন একটি কমান্ড, যা ক্রলারকে নির্দেশ দেয় যে, ওয়েবসাইটের নির্দিষ্ট পেজ বা ফোল্ডারগুলো ক্রল করা যাবে না।
উদাহরণ:
txt |
User-agent: *
Disallow: /admin/ |
৩. Allow:
এটি এমন একটি কমান্ড, যা ক্রলারকে নির্দিষ্ট ফাইল বা ফোল্ডার ক্রল করার অনুমতি দেয়। এটি সাধারণত Disallow-এর ব্যতিক্রম হিসেবে ব্যবহৃত হয়।
উদাহরণ:
txt |
User-agent: Googlebot
Allow: /public/ |
৪. Sitemap:
এটি সার্চ ইঞ্জিনকে নির্দেশ দেয় যে, সাইটম্যাপ কোথায় পাওয়া যাবে। সাইটম্যাপ হলো XML ফাইল, যেখানে ওয়েবসাইটের সকল URL-এর তালিকা থাকে।
উদাহরণ:
txt |
Sitemap: https://www.example.com/sitemap.xml |
Robots.txt এর কিছু বাস্তব উদাহরণ
১. সবকিছু নিষিদ্ধ করা:
যদি আপনি চান যে, কোনো ক্রলার আপনার সাইটের কোনো অংশই ক্রল করতে না পারে, তাহলে আপনি এই নির্দেশনা দিতে পারেন:
txt |
User-agent: *
Disallow: / |
২. সবকিছু ক্রল করা অনুমোদিত:
যদি আপনি চান যে, ক্রলার সাইটের সব অংশ ক্রল করতে পারে, তাহলে কোনো Disallow কমান্ড না দিয়েও এটি করা যায়:
txt |
User-agent: *
Disallow: |
৩. নির্দিষ্ট ফাইল ক্রল করতে নিষেধ করা:
কোনো নির্দিষ্ট ফাইল ক্রল করা নিষিদ্ধ করতে হলে, এটি ব্যবহার করা যায়:
txt |
User-agent: *
Disallow: /example-file.html |
৪. নির্দিষ্ট ফোল্ডার ক্রল করতে নিষিদ্ধ করা:
কোনো নির্দিষ্ট ফোল্ডারকে ক্রলিং থেকে নিষিদ্ধ করতে নিচের উদাহরণটি ব্যবহার করা যায়:
txt |
User-agent: *
Disallow: /images/ |
Robots.txt এর সীমাবদ্ধতা
- সার্চ ইঞ্জিনকে নির্দেশ পালন করতে বাধ্য করতে পারে না: Robots.txt ফাইল কেবলমাত্র একটি নির্দেশনা। সার্চ ইঞ্জিন ক্রলারগুলো সাধারণত এই ফাইলের নিয়ম মেনে চলে, তবে কিছু ক্ষতিকারক বট বা ক্রলার এটি অমান্য করতে পারে।
- সংবেদনশীল তথ্য গোপন করার উপায় নয়: Robots.txt দিয়ে কোনো সংবেদনশীল তথ্য লুকিয়ে রাখা উচিত নয়, কারণ কেউ সরাসরি ফাইলটি দেখে জানতে পারে কোন ফোল্ডার বা পেজ নিষিদ্ধ করা হয়েছে।
- Noindex নির্দেশনা নয়: Robots.txt দিয়ে ক্রলারকে কোনো পেজে প্রবেশ নিষেধ করা যায়, তবে এটি পেজটিকে সার্চ ইঞ্জিনের ফলাফলে প্রদর্শন বন্ধ করে না। এজন্য noindex মেটা ট্যাগ ব্যবহার করা ভালো।
Robots.txt ফাইল কোথায় রাখা হয়?
Robots.txt ফাইলটি সর্বদা ওয়েবসাইটের মূল ডিরেক্টরিতে (root directory) রাখতে হয়। উদাহরণস্বরূপ, এটি অ্যাক্সেস করা যাবে https://www.example.com/robots.txt এর মাধ্যমে।
Robots.txt ফাইল পরীক্ষা করার উপায়
Google Search Console-এর Robots.txt Tester টুল ব্যবহার করে আপনি আপনার Robots.txt ফাইলটি সঠিকভাবে কাজ করছে কিনা, তা পরীক্ষা করতে পারেন। এই টুলটি আপনার নির্দেশনা অনুযায়ী ক্রলারদের আচরণ পরীক্ষা করার জন্য উপযুক্ত।
উপসংহার
Robots.txt ফাইল হলো সার্চ ইঞ্জিন ক্রলারদের নির্দেশনা দেওয়ার একটি গুরুত্বপূর্ণ ফাইল, যা আপনাকে ওয়েবসাইটের নির্দিষ্ট পেজ বা ফোল্ডারগুলোকে ক্রলিং থেকে নিষিদ্ধ করতে সহায়তা করে। এটি সঠিকভাবে ব্যবহার করলে আপনি ওয়েবসাইটের ক্রলিং প্রক্রিয়া নিয়ন্ত্রণ করতে পারবেন, তবে সংবেদনশীল তথ্যের নিরাপত্তার জন্য অতিরিক্ত সুরক্ষা ব্যবস্থা গ্রহণ করা উচিত।