robots.txt คืออะไร ?? สำคัญขนาดไหน ??
robots.txt คือไฟล์ข้อความธรรมดา โดยสามารถสร้างจากโปรแกรม notepad ก็ได้ หรือโปรแกรม text editor อื่นๆ ทั่วไป แต่สำคัญคือ ต้องตั้งชื่อไฟล์ว่า robots.txt เท่านั้น
นำไฟล์นี้ไปวางไว้ที่ root ของเว็บไซต์ เช่น www.mywebsite.com/robots.txt เป็นต้น
โดยไฟล์นี้ทำหน้าที่บอกความหมายให้ Bot Google ทราบว่า จะให้ทำ index เว็บไซต์ของเราที่ลิ้งค์ไหนบ้าง เพราะหากไม่ใส่ Google ก็จะเก็บทุกหน้าที่เข้าถึงได้อยู่แล้ว แต่ปัญหาจะเกิดที่ตรงนี้ บางทีระหว่างพัฒนาเว็บไซต์อาจจะปิดไม่ให้ Google เข้ามาเก็บหน้าเว็บ แต่พอเปิดใช้งานจริงดันลืมแก้ไข ทำให้ Google ไม่สามารถเข้ามาเก็บหน้าเว็บได้ และก็มีผลต่อ SEO แน่นอน
ดูเหมือนจะเป็นเรื่องเล็กน้อยแต่ถ้าเปิดเว็บไปสักพักแล้วไม่ติด Google อันนี้จะเป็นปัญหาใหญ่เลย เพราะบางทีทำทุกทางแล้วแต่เว็บไซต์ไม่ index เลย
เรามาดูไวยากรณ์ที่สำคัญและจำเป็นกันครับ
User-agent: *
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
จะเห็นว่ามีอยู่ 3 ส่วนที่สำคัญได้แก่ ช่วงแรก บอกว่า Google Bot ห้ามมาเก็บหน้าไหนของเราบ้าง หรือ Folder ไหนของเราบ้าง เพราะบางทีข้อมูลที่เป็นส่วนของลูกค้าเราก็แจ้ง Bot ไม่ต้องนำไป index ได้
ส่วนที่สอง คือ แจ้งว่า Google Bot จะเก็บหน้าไหนบ้าง โดยทั่วไป จะกำหนดไว้แบบนี้เลย เพราะถ้าห้ามเก็บก็เอาไปใส่ในส่วนแรกแทน และสุดท้ายควรจะใส่ก็คือ sitemap เพื่อบอก Google bot ว่าเรามีลิ้งค์หน้าเว็บไซต์อะไรบ้าง
ทั้งหมดนี้เป็นสิ่งจำเป็นต้องใส่ เพราะผมเคย รับทำ SEO ให้ลูกค้า แต่ปรากฏว่าทางลูกค้าลืมเปลี่ยนค่าใน robots.txt ทำให้หน้าเว็บไม่ติดใน Google เลย