Robots.txt ফাইল কি? এর কাঠামো ও ব্যবহারবিধি উদাহরণসহ।

October 30, 2024

Robots.txt ফাইল কি?

Robots.txt ফাইল হলো একটি সাধারণ টেক্সট ফাইল, যা ওয়েবসাইটের মূল ডিরেক্টরিতে থাকে এবং সার্চ ইঞ্জিন ক্রলার বা বটগুলোর জন্য নির্দেশনা দেয় কোন পেজ বা ফোল্ডারগুলো ক্রল করা যাবে এবং কোনগুলো ক্রল করা যাবে না। এটি ওয়েবসাইটে সার্চ ইঞ্জিনের ক্রলিং কার্যকলাপ নিয়ন্ত্রণ করতে সহায়তা করে।

Robots.txt ফাইল এর মূল উদ্দেশ্য

সার্চ ইঞ্জিন ক্রলারকে নির্দেশনা প্রদান করা যে, কোন পেজ বা ফোল্ডারগুলো ক্রল করতে হবে এবং কোনগুলো থেকে দূরে থাকতে হবে।
ওয়েবসাইটের কিছু অংশের তথ্য গোপন রাখতে সহায়তা করা, যেমন প্রশাসনিক পেজ, ব্যক্তিগত তথ্য বা কনটেন্ট।
সার্ভার লোড কমাতে এবং ক্রলিং প্রক্রিয়া নিয়ন্ত্রণ করতে সাহায্য করা।

Robots.txt ফাইল এর কাঠামো

Robots.txt ফাইল মূলত দুইটি অংশ নিয়ে গঠিত:

User-agent: এটি সার্চ ইঞ্জিন ক্রলারের নাম উল্লেখ করে, যার জন্য নির্দেশনা দেওয়া হয়।
Disallow/Allow: এই অংশে নির্দিষ্ট পেজ বা ফোল্ডারের অ্যাক্সেস নিষিদ্ধ (Disallow) বা অনুমোদিত (Allow) করা হয়।

Robots.txt ফাইলের একটি সাধারণ উদাহরণ:

txt

User-agent: *

Disallow: /admin/

Disallow: /private/

Allow: /public/

উদাহরণ এর ব্যাখ্যা:

User-agent: *: এটি নির্দেশ করছে যে, সব ধরনের ক্রলার বা বটের জন্য নির্দেশনা প্রযোজ্য হবে।
Disallow: /admin/: এটি ক্রলারকে নির্দেশ দেয় যে, /admin/ ফোল্ডারটি ক্রল করা যাবে না।
Disallow: /private/: এটি ক্রলারকে /private/ ফোল্ডারটি ক্রল করতে নিষেধ করে।
Allow: /public/: এটি ক্রলারকে /public/ ফোল্ডারটি ক্রল করার জন্য অনুমতি দেয়।

আরও পড়ুন : কোন ভুলগুলোর কারণে ক্রাউলার সাইট নেভিগেশন সঠিকভাবে করতে পারে না?

Robots.txt ফাইলের উপাদানগুলো

১. User-agent:

এটি ক্রলারের নাম নির্ধারণ করে। উদাহরণস্বরূপ, Googlebot হলো Google-এর ক্রলার, আর Bingbot হলো Bing-এর ক্রলার।
আপনি সমস্ত ক্রলারের জন্য একক নির্দেশনা দিতে চাইলে * (অর্থাৎ সবকিছু) ব্যবহার করবেন। তবে নির্দিষ্ট ক্রলারের জন্যও নির্দেশনা দিতে পারেন।

উদাহরণ:

txt

User-agent: Googlebot

Disallow: /private/

২. Disallow:

এটি এমন একটি কমান্ড, যা ক্রলারকে নির্দেশ দেয় যে, ওয়েবসাইটের নির্দিষ্ট পেজ বা ফোল্ডারগুলো ক্রল করা যাবে না।

উদাহরণ:

txt

User-agent: *

Disallow: /admin/

৩. Allow:

এটি এমন একটি কমান্ড, যা ক্রলারকে নির্দিষ্ট ফাইল বা ফোল্ডার ক্রল করার অনুমতি দেয়। এটি সাধারণত Disallow-এর ব্যতিক্রম হিসেবে ব্যবহৃত হয়।

উদাহরণ:

txt

User-agent: Googlebot

Allow: /public/

৪. Sitemap:

এটি সার্চ ইঞ্জিনকে নির্দেশ দেয় যে, সাইটম্যাপ কোথায় পাওয়া যাবে। সাইটম্যাপ হলো XML ফাইল, যেখানে ওয়েবসাইটের সকল URL-এর তালিকা থাকে।

উদাহরণ:

txt

Sitemap: https://www.example.com/sitemap.xml

Robots.txt এর কিছু বাস্তব উদাহরণ

১. সবকিছু নিষিদ্ধ করা:

যদি আপনি চান যে, কোনো ক্রলার আপনার সাইটের কোনো অংশই ক্রল করতে না পারে, তাহলে আপনি এই নির্দেশনা দিতে পারেন:

txt

User-agent: *

Disallow: /

২. সবকিছু ক্রল করা অনুমোদিত:

যদি আপনি চান যে, ক্রলার সাইটের সব অংশ ক্রল করতে পারে, তাহলে কোনো Disallow কমান্ড না দিয়েও এটি করা যায়:

txt

User-agent: *

Disallow:

৩. নির্দিষ্ট ফাইল ক্রল করতে নিষেধ করা:

কোনো নির্দিষ্ট ফাইল ক্রল করা নিষিদ্ধ করতে হলে, এটি ব্যবহার করা যায়:

txt

User-agent: *

Disallow: /example-file.html

৪. নির্দিষ্ট ফোল্ডার ক্রল করতে নিষিদ্ধ করা:

কোনো নির্দিষ্ট ফোল্ডারকে ক্রলিং থেকে নিষিদ্ধ করতে নিচের উদাহরণটি ব্যবহার করা যায়:

txt

User-agent: *

Disallow: /images/

Robots.txt এর সীমাবদ্ধতা

সার্চ ইঞ্জিনকে নির্দেশ পালন করতে বাধ্য করতে পারে না: Robots.txt ফাইল কেবলমাত্র একটি নির্দেশনা। সার্চ ইঞ্জিন ক্রলারগুলো সাধারণত এই ফাইলের নিয়ম মেনে চলে, তবে কিছু ক্ষতিকারক বট বা ক্রলার এটি অমান্য করতে পারে।
সংবেদনশীল তথ্য গোপন করার উপায় নয়: Robots.txt দিয়ে কোনো সংবেদনশীল তথ্য লুকিয়ে রাখা উচিত নয়, কারণ কেউ সরাসরি ফাইলটি দেখে জানতে পারে কোন ফোল্ডার বা পেজ নিষিদ্ধ করা হয়েছে।
Noindex নির্দেশনা নয়: Robots.txt দিয়ে ক্রলারকে কোনো পেজে প্রবেশ নিষেধ করা যায়, তবে এটি পেজটিকে সার্চ ইঞ্জিনের ফলাফলে প্রদর্শন বন্ধ করে না। এজন্য noindex মেটা ট্যাগ ব্যবহার করা ভালো।

Robots.txt ফাইল কোথায় রাখা হয়?

Robots.txt ফাইলটি সর্বদা ওয়েবসাইটের মূল ডিরেক্টরিতে (root directory) রাখতে হয়। উদাহরণস্বরূপ, এটি অ্যাক্সেস করা যাবে https://www.example.com/robots.txt এর মাধ্যমে।

Robots.txt ফাইল পরীক্ষা করার উপায়

Google Search Console-এর Robots.txt Tester টুল ব্যবহার করে আপনি আপনার Robots.txt ফাইলটি সঠিকভাবে কাজ করছে কিনা, তা পরীক্ষা করতে পারেন। এই টুলটি আপনার নির্দেশনা অনুযায়ী ক্রলারদের আচরণ পরীক্ষা করার জন্য উপযুক্ত।

উপসংহার

Robots.txt ফাইল হলো সার্চ ইঞ্জিন ক্রলারদের নির্দেশনা দেওয়ার একটি গুরুত্বপূর্ণ ফাইল, যা আপনাকে ওয়েবসাইটের নির্দিষ্ট পেজ বা ফোল্ডারগুলোকে ক্রলিং থেকে নিষিদ্ধ করতে সহায়তা করে। এটি সঠিকভাবে ব্যবহার করলে আপনি ওয়েবসাইটের ক্রলিং প্রক্রিয়া নিয়ন্ত্রণ করতে পারবেন, তবে সংবেদনশীল তথ্যের নিরাপত্তার জন্য অতিরিক্ত সুরক্ষা ব্যবস্থা গ্রহণ করা উচিত।

{{post_title}}

Robots.txt ফাইল কি? এর কাঠামো ও ব্যবহারবিধি উদাহরণসহ।

Robots.txt ফাইল কি?

Robots.txt ফাইল এর মূল উদ্দেশ্য

Robots.txt ফাইল এর কাঠামো

আরও পড়ুন : কোন ভুলগুলোর কারণে ক্রাউলার সাইট নেভিগেশন সঠিকভাবে করতে পারে না?