Thủ thuật dùng file htaccess để điều hướng bot trong SEO (phần 2) | SEO Company


Thủ thuật dùng file htaccess để điều hướng bot trong SEO (phần 2)

Thứ ba, 30/06/2015 | 09:23

Bài viết trước đã nói về phần nào về cách sử dụng file htaccess để điều hướng bot trong SEO. Bài viết này sẽ đề cập đến cách tối ưu và bảo mật website bằng cách sử dụng file .htaccess

 

thu thuat dung file htaccess de dieu huong bot trong seo phan 2 hinh anh 1

 

3. Tối ưu và bảo mật website bằng file .htaccess

Sử dụng file .htaccess để tối ưu và bảo mật website của bạn hơn: bảo vệ các file quan trọng, giới hạn upload, chuyển hướng 301, trang lỗi tùy chỉnh, tắt liệt kê nội dung thư mục, nén nội dung…

a, Định nghĩa .htaccess:

Để làm được như vậy, trước tiên bạn cần chmod file .htaccess là 644, về chmod bạn có thể tìm hiểu ở nhiều tài liệu, hoặc google.

.htaccess có tác dụng trên thư mục hiện hành (nơi chưa nó) và tất cả các thư mục con. Vì vậy, muốn sử dụng .htacess để quản lí truy cập vào website của mình, đơn giản bạn chỉ việc soạn thảo một file .htaccess, và lưu nó vào thư mục root của website.

b, Comment trong .htaccess:

Nếu đã sử dụng và một lần sửa đổi cấu hình Apache thì chắc chắn bạn cũng biết, muốn sử dụng một module nào đó trong những available modules, bạn phải xóa dấu “#” (hash). Dấu “#” này dùng để định nghĩa một đoạn comment trong httpd.conf, và .htaccess cũng vậy. Một ví dụ:

CODE

#Enable Rewrite mod

RewriteEngine on

c, Những chú ý quan trọng:

.htaccess là một công cụ rất mạnh trong việc quản lí website. Một lỗi cú pháp nhỏ (thậm chí là một khoản trắng) cũng khiến website của bạn hoạt động không được bình thường như trước. Sau khi áp dụng .htaccess, bạn nên kiểm tra một lượt website của mình xem .htaccess có gây ra lỗi ở phần, trang con nào không? Do vậy trước khi làm việc với .htaccess, bạn nên backup cẩn thận dữ liệu của mình, nếu có trục trặc xảy ra, việc khôi phục trở nên đơn giản.

d, Vấn đề về performance:

.htaccess cho phép bạn cấu hình mà không cần động chạm vào cấu hình chính của Apache. Tuy nhiên, về mặt hiệu năng và bảo mật, nếu có thể, bạn nên sử dụng httpd.conf hơn là sử dụng .htaccess. Cụ thể, khi được cấu hình để sử dụng .htaccess, thi Apache sẽ tìm kiếm tất cả những folder có chứa .htaccess để thực thi, và nó sẽ thực thi tất cả những file .htaccess tìm được. Do vậy, sẽ làm website của bạn trở nên ì ạch một cách không cần thiết. Nếu website của bạn là website cá nhân, hoặc ít người truy cập, thì đó là chuyện nhỏ. Nhưng nếu là một website đại chúng (báo điện tử, trang nhạc, film..) thì đây là một vấn đề rất lón. Do vậy .htaccess chỉ có tác dụng trong trường hợp bạn không có quyền cấu hình trên httpd.conf của Apache.

e, Những kí tự đặc biệt sử dụng khi cấu hình .htaccess

#

Như đã nói ở trên, # đặt trước một dòng để định nghĩa dòng này là một đoạn comment, dòng này sẽ không được thực thi cho đến khi bạn xóa dấu “#” đi. Khi comment, bạn chỉ nên sử dụng các chữ cái, số, dấu gạch ngang hoặc gạch dưới để tránh những lỗi cú pháp không cần thiết.

[F]

Forbidden: Kí tự này dùng để chỉ định server sẽ trả về client trang lỗi 403 nếu truy cập vào những nơi không được phép

[L]

Last rule: kí tự này để ấn định rằng bước trước đã xong thì ngừng và không tiếp tục thực thi lệnh rewrite tiếp theo nữa.

[N]

Next: chỉ thị cho server tiếp tục rewrite cho đến khi tất cả các mục chỉ định được rewrite hoàn toàn.

[G]

Gone: Chỉ định server trả về client trang báo lỗi không tồn tại (no longer exit)

[P]

Proxy: chỉ định server điểu kiển các yêu cầu được ấn định bởi mod_proxy

[C]

Chain: Chỉ định server thực hiện rule hiện hành song song với rule trước đó

[R]

Redirect: chỉ định server đổi hướng request sang một trang khác trong trường hợp trình duyệt gởi yêu cầu duyệt một trang được sửa chữa đường dẫn (rewrite) trước đó.

[NC]

No-case: Chỉ định server match những kí tự tương tự nhau, ví dụ dòng lệnh sau:

CODE

RewriteCond %{HTTP_REFERER} !^http://domain.com/.*$ [NC]

#Thì referrer là domain.com || Domain.com || DoMain.com…đều được match.

[PT]

Pass Through: có nghĩa là dùng kí tự để buộc “rewrite engine” ấn định bảng giá trị của uri trở thành giá trị của tên files

[OR]

Đây có thể gọi là một toán tử, các biểu thức được nối tiếp nhau bằng toán tử OR, trong đó biểu thức nào đúng, sẽ là quy tắc để lệnh Rewrite áp dụng.

Ví dụ:

CODE

RewriteBase /

RewriteCond %{HTTP_USER_AGENT} ^Anarchie [OR]

RewriteCond %{HTTP_USER_AGENT} ^ASPSeek [OR]

RewriteCond %{HTTP_USER_AGENT} ^attach [OR]

RewriteRule ^.* – [F,L]

Như vậy, mỗi dòng Rewritecond là một biểu thức chỉ định USER_AGENT, nếu bất cứ USER_AGENT nào match, thì RewriteRule sẽ được áp dụng, sau đó ngừng.

Vì sao ngừng: Một request chỉ có một USER_AGENT, vì vậy không cần thiết phải quay trở lại kiểm tra các biểu thức còn lại, sẽ làm giảm hiệu năng phục vụ.

Lời bàn:như ở trên đã nói, bạn chỉ sử dụng những chức năng này của .htaccess nếu không có quyền cấu hình trên Apache và firewall. Những chức năng lọc và chặn User agents Mod_security và Iptables đều có thể thực hiện được, vì vậy nếu đã có rule cho iptables và Mod_security, việc thêm rule trên cho .htaccess là dư thừa, và không cần thiết.

[NE]

No Escape: Chỉ định server xử lí các gói tin trả về mà không dùng kí tự thoát

[NS]

No Subrequest: Chỉ định server bỏ qua thư mục hiện hành nếu request nhắm vào thư mục con.

[QSA]

Append Query String: chỉ định server gắn chuỗi truy vấn vào cuối cùng của URL

[S=x]

Skip: Chỉ định server bỏ qua không xem xét các X rules tiếp theo nữa nếu một rule đã được thực thi.

[T=MIME-type]

MIME-type: Khai báo định dạng files của server

[]

Chỉ định các kí tự đặt đặt trong [] sẽ được match. Cụ thể [xyx] thì các request có mang theo các kí tự x, y hoặc z sẽ được match.

[]+

Tương tự như trên, nhưng trong trường hợp này, nếu ta đặt [xyz]+ thì tất cả các request có mang theo kí tự x, y, z hoặc x’s, y’s. z’s hoặc sự kết hợp của x,y,z với bất kì kí tự nào đều được match.

[^]

Ngược lại với [], các kí tự được đặt theo dạng [xyz^] sẽ không được match.

[a-z]

Dấu ‘-‘ đặt giữa 2 kí tự bên trong cặp dấu [] sẽ match tất cả các kí tự nằm trong khoảng từ kí tự đầu đến kí tự cuối. Ví dụ [a-bA-B] sẽ match tất cả các kí tự thường vào in hoa abcd và ABCD.

a{n}

Sẽ chỉ định chính xác n kí tự a được match. Ví dụ a{3} thì 3 kí tự a sẽ được match.

a{n,}

Tương tự như trên, nhưng trong trường hợp này sẽ match các kí tự a từ na trở lên.

a{n,m}

Chỉ định một khoảng chính xác các kí tự (m-n)a sẽ được match.

()

Nhóm các phương thức truyền dữ liệu (method). VD:

CODE

RewriteCond %{REQUEST_METHOD} ^(HEAD|TRACE|DELETE|TRACK) [NC,OR]

Các request bắt đầu (^) HEAD, TRACE, DELETE hoặc TRACK sẽ được match.

^

Bắt đầu bằng (xem ví dụ ở trên).

$

Kết thúc bằng ( .*$: kết thúc bằng bất cứ gì)

?

Thường dùng chung với (), như trong trường hợp test(ti)? thì test hoặc ti sẽ được match.

!

Phủ định. VD: “!string” sẽ match tất cả các kí tự, ngoại trừ string

-

Loại đi một chức năng, hoặc một rule đang thực thi nào đó. VD:

CODE

# không cho xem chỉ mục trong một folder nào đó

Options All –Indexes

+

Chỉ định 1 hoặc nhiều kí tự cho trước sẽ được match. Hoặc thêm một chức năng nào đó VD: G+ sẽ

match tất cả các kí tự G, Gs, Gx, G..

*

Tất cả đều được match. Ví dụ:

CODE

RewriteCond %{HTTP_REFERER} !^http://domain.com/.*$

Thì tất cả request files không mở đầu bằng _http://domain.com đều được match.

|

Hoặc. Ví dụ x|y thì hoặc x hoặc y sẽ được match.

\

Kí tự thoát. VD: www\.domainname\.com Chỉ có www được match, chứ không có wwww hoặc wwwww,

domainname chứ không có domainnames hoặc domainnamex…

-d

Kiểm tra thư mục có tồn tại hay không?

-f

Kiểm tra file có tồn tại hay không

-s

Kiểm tra giá trị của file có khác 0 hay không?

f, Mã chuyển hướng trang báo lỗi

- 401 – Authorization Required : Lỗi chưa được xác thực user và password

- 400 – Bad request : Lỗi truy cập không hợp lệ, do server không chấp nhận request, hoặc request thiếu một số yêu cầu nào đó.

- 403 – Forbidden : Lỗi truy cập vào trang bị cấm

- 500 – Internal Server Error : Lỗi do server

- 404 – Wrong page : Lỗi truy cập vào trang không tồn tại

-301 – Moved Permanently: 302 – Moved Temporarily: Lỗi truy cập vào trang đã bị di chuyển

Qua hai bài viết đã nói về cách sử dụng file htaccess để điều hướng bot trong SEO. Nếu bạn có thể tối ưu file htaccess thì bài viết SEO của bạn sẽ lên top google rất dễ dàng. Chúc bạn may mắn

 

>>Xem thêm: http://sccom.vn/xu-huong-website-2015-nhu-the-nao-123.html

Nguồn: Sưu tầm Internet bởi công ty seo