Tìm kiếm tài liệu là loại tìm kiếm hoạt động chủ yếu trên văn bản tự do phi cấu trúc (không chỉ riêng tài liệu). Cho dù bạn tìm kiếm trang web, tìm sản phẩm hay làm việc với nội dung chọn lọc, bạn đều cần sử dụng một công cụ tìm kiếm. Bạn truy cập một trang web và nhập vào hộp văn bản Tìm kiếm. Nhấp vào “tìm kiếm” và bạn sẽ nhận được (hy vọng) nhiều mục có liên quan đáp ứng mục tiêu thông tin của bạn.
Công cụ tìm kiếm đã phát triển nhờ công nghệ cơ sở dữ liệu – chúng lưu trữ dữ liệu và xử lý truy vấn dựa trên dữ liệu đó. Cơ sở dữ liệu truyền thống chủ yếu hoạt động với nội dung có cấu trúc – dữ liệu được sắp xếp thành các bảng và cột, tích hợp với lược đồ. Công việc của cơ sở dữ liệu là truy xuất tất cả hàng dữ liệu, dựa trên truy vấn khớp với giá trị trong cột. Công cụ tìm kiếm hoạt động với dữ liệu có cấu trúc (tài liệu), trong đó chứa cả siêu dữ liệu và khối văn bản phi cấu trúc kích thước lớn (văn bản tự do). Công cụ tìm kiếm sử dụng quy tắc ngôn ngữ để chia nhỏ những khối văn bản kích thước lớn này thành các thuật ngữ có thể so khớp. Ngoài ra, công cụ tìm kiếm còn tích hợp khả năng xếp hạng để sắp xếp các kết quả và đưa thông tin tốt nhất lên đầu. Trong khi cơ sở dữ liệu quan hệ và cơ sở dữ liệu NoSQL truy xuất tất cả kết quả, công cụ tìm kiếm lại truy xuất kết quả tốt nhất.
Ứng dụng của công cụ tìm kiếm được chia thành ba loại lớn: tìm kiếm tài liệu, hoạt động chủ yếu trên văn bản tự do phi cấu trúc; tìm kiếm thương mại điện tử, hoạt động trên cả dữ liệu có cấu trúc và phi cấu trúc; và giảm tải truy vấn, hoạt động chủ yếu trên dữ liệu có cấu trúc.
