Search Engine (SE) hay máy chủ tìm kiếm là gì?

Search Engine là từ tiếng Anh chỉ máy chủ chuyên thực hiện tìm kiếm nội dung (hình ảnh, văn bản, âm thanh, video,…) trên internet

Thuật ngữ máy chủ tìm kiếm mặc dù không phản ánh hết được ý nghĩa nó muốn bao hàm nhưng đã được đa số mọi người hiểu là máy chủ tìm kiếm web (hay máy chủ tìm kiếm internet).

Trước khi Google thống trị lĩnh vực tìm kiếm internet, người dùng cao tuổi chắc hẳn vẫn còn nhớ tới Altavista, Lycos, Yahoo,… là những nhà cung cấp dịch vụ tìm kiếm thông tin internet với đội ngũ chuyên gia phân loại, tóm tắt và đánh giá nội dung hùng hậu (đánh giá chất lượng thông tin thủ công). Việc đánh giá này tất nhiên là sẽ tốt hơn nhưng với sự phát triển mạnh mẽ về hạ tầng phần cứng và viễn thông, cũng như xu hướng bùng nổ thông tin trên internet với lượng tài nguyên thông tin khổng lồ vào những năm đầu 2000 thì các cỗ máy tìm kiếm bán tự động không đáp ứng được nhu cầu tìm kiếm của người sử dụng.

Năm 1998, 2 đồng sáng lập Google đã đưa ra thuật toán PageRank trong luận văn của mình nhằm giúp đánh giá chất lượng nội dung các website một cách tự động tốt hơn và triển khai thử nghiệm trên internet. Đến 2013-2014, với sự hoàn thiện về tính năng cũng như có các cộng sự xuất sắc về kỹ thuật máy tính và hạ tầng đủ mạnh, Google được cả thế giới tin dùng với lượng thị phần chiếm tới 85% thị phần. Đến nay, khái niệm máy chủ tìm kiếm được nhắc tới thì ai cũng nghĩ tới Google.

Cơ chế hoạt động của máy chủ tìm kiếm

1. Crawing – Thu thập thông tin

Các máy chủ tìm kiếm sử dụng các phần mềm gọi là robot để đi “săn” thông tin, chúng truy cập vào các website để sao chép toàn bộ dữ liệu của website và lưu trữ vào hệ thống cơ sở dữ liệu của mình. Với lượng website hiện có đang là khoảng 1 tỷ website lớn nhỏ, việc thu thập thông tin và lưu trữ về máy chủ riêng đòi hỏi cần có 1 hệ thống đồ sộ hệ thống máy tính và hạ tầng mạng tốt. Vì vậy, các máy chủ tìm kiếm internet đều cần các trung tâm dữ liệu riêng.

2. Indexing – Chỉ mục

Indexing trong kỹ thuật lập trình là sắp xếp và chuẩn bị trước việc lưu trữ thông tin trong cơ sở dữ liệu theo cấu trúc để phục vụ riêng cho việc tìm kiếm. Với khối lượng thông tin internet lớn như hiện tại, các máy chủ tìm kiếm đều cần có các giải pháp tối ưu nhất và sắp xếp kết quả trả về phù hợp nhất cho người tìm.

3. Searching – Tìm kiếm

Máy chủ tìm kiếm cho phép người dùng tìm kiếm thông tin nhanh nhất và phù hợp với yêu cầu tìm kiếm thông tin của họ nhất. Tuy nhiên, khi cả thế giới truy cập vào 1 website thì sức chịu tải của website đó cũng phải được thiết kế tối ưu nhất trên nền tảng hệ thống máy tính vững vàng nhất. Với Google, có cả 1 đội ngũ các nhà toán học hàng đầu thế giới tư vấn giải thuật để đảm bảo kết quả tìm kiếm là hàng triệu nhưng chỉ thực thi mất chưa đầy 1 giây.

Thị phần máy chủ tìm kiếm

Trên thế giới, Google có nhiều đối thủ và đều là các “ông lớn” trong ngành công nghệ, thậm chí họ liên kết với nhau nhằm hạ vị trí độc tôn của Google nhưng tới nay Google vẫn duy trì được ví trí quán quân bỏ xa hàng loạt các “lão làng” khác. Số liệu chia sẻ đăng tải trên wiki năm 2015 thì Google đang chiếm 70% thị phần, bỏ xa Bing của Microsoft (chỉ 12%)

 

Thông tin cập nhật tháng 9-2015 về thị phần của Google trong lĩnh vực tìm kiếm thông tin trên internet

Thông tin cập nhật tháng 9-2015 về thị phần của Google trong lĩnh vực tìm kiếm thông tin trên internet
Thông tin cập nhật tháng 4-2018 về thị phần của Google trong lĩnh vực tìm kiếm thông tin trên internet (nguồn Business Insider)

Tại Việt Nam, máy chủ tìm kiếm Cốc Cốc có nhiều hình thức quảng cáo và các dịch vụ cung cấp bản địa hóa hợp với người Việt Nam nên cũng đang chiếm 1 tỉ trọng đáng kể. Theo chủ quan đánh giá của chúng tôi thì đang có khoảng 20% người dùng Việt Nam sử dụng Cốc Cốc.

Trong SEO, việc hiểu máy chủ tìm kiếm của mình là tối quan trọng nhưng bạn hiểu Google thì cũng đã cầm trong tay tới 90% thành công.

Nguồn tham khảo:
https://en.wikipedia.org/wiki/Web_search_engine
https://en.wikipedia.org/wiki/PageRank
https://www.businessinsider.com/how-google-retains-more-than-90-of-market-share-2018-4