Google, một hiện tượng!

Vietsciences- Nguyễn Trọng Cơ     

 

Tháng  tư năm ngoái, sau khi làm “nhức đầu” Microsoft với dịch vụ Điện thư trên mạng (web-based mail service) miễn phí tên Gmail, có sức lưu trữ 2 Gig (2 tỷ byte), cuối tháng sáu năm nay, 2005, Google đă làm ngạc nhiên khách hâm mộ Internet với Google Earth (Địa cầu Google). Đây là một nhu liệu/phần mềm ứng dụng (application software), khi hoạt động cho người xem có cảm giác như bay trong không gian, quan sát địa cầu từ xa, hay nếu muốn, phóng đại ảnh (zoom in) từng vùng trên trái đất. Mặc dù miễn phí, ta đă được nh́n địa cầu từ trên cao, qua những góc độ khác nhau, một phần giống như Greg Olsen, người đă phải trả 20 triệu đô la để du lịch 10 ngày trên không gian qua phi thuyền Soyuz và Trạm không gian quốc tế.

Để “download” (nạp xuống) ứng dụng này chúng ta vào Earth.Google. com, “click” (bấm) tại khung “Get Google Earth free version” rồi làm theo chi tiết chỉ dẫn trên màn. Sau khi đă mang Google Earth vào chạy trên máy, ta phải tiếp tục nối với Internet hầu liên tục nhận tin tức từ “Google servers” (Hệ phục vụ của Google). Ở đây có hàng ngàn tỷ “bytes” dữ kiện của công ty Keyhole mà Google đă mua tháng 10 năm ngoái, chờ đợi chúng ta sử dụng. Là một hăng chuyên về “Digital and Satellite Image Mapping” (Tạm dịch: Vẽ bản đồ bằng h́nh ảnh qua vệ tinh và kỹ thuật số), khi sát nhập vào Google Keyhole đă cung cấp cho người dùng một nhu liệu t́m kiếm hữu hiệu những h́nh ảnh ba chiều (3D) của mặt đất cũng như những cơ sở dữ liệu (database) về đường sá, cơ sở thương mại, và những điểm đáng chú ư khác. Mặc dù những phong cảnh trông rất thực nhưng đây không phải là h́nh ảnh sống (real time) v́ có nhiều h́nh đă được thu cách đây hai, ba năm. Tuy nhiên Google thường xuyên cập nhật dữ kiện. Hiện nay ta có thể quan sát những vùng bị tàn phá bởi trận động đất vừa qua tại Pakistan.

Khi “zoom in” để nh́n chi tiết của từng vùng, có chỗ ta nh́n rất rơ, có chỗ bị mờ. Lư do v́ khối lượng dữ kiện của Google được lấy từ nhiều nguồn khác nhau và do đó có độ Phân giải (resolution) không đều. Hiện nay, Google đă có cơ sở dữ liệu khá tốt về Mỹ quốc, Gia nă Đại, Anh quốc và Tây Âu, do đó ảnh phóng đại của những vùng này có thể cho ta thấy tên từng con đường, hay có thể từng căn nhà, cũng như những cơ sở thương mại quan trọng. Tuy nhiên những chi tiết về những vùng khác th́ không được rơ ràng như vậy. Ngoài ra v́ đây chỉ là Bản chạy thử chót (beta version) nên có thể vẫn c̣n những lỗi kỹ thuật (bugs).

Bây giờ ta hăy thử  dùng chuột (mouse) “click” vào hộp “Fly to” ở góc đỉnh bên trái của màn và đưa vào ô ở dưới đó số nhà, đường phố, và “zip code” của một địa chỉ ở Hoa kỳ hay Anh quốc, sau đó bấm vào hộp “Search.” Google sẽ cho ta cảm giác bay từ từ đến nơi này. Khi đến nơi ta có thể “zoom in” để nh́n những chi tiết chung quanh căn nhà như vườn tược, cây cối, hồ bơi,...  Ta cũng có thể “click” vào những tầng (layers) khác nhau ở phía dưới để có thêm tin tức về đường xá, cây xăng, tiệm ăn, tiệm cà phê, nhà bank,... Thêm vào đó, ngoài khả năng quay h́nh qua trái hay phải, ta có thể làm nghiêng h́nh (tilt) để có thể có cảm giác ở trong không gian ba chiều. Ta cũng có thể t́m tin tức trong từng vùng khi dùng “Local Search,” hay lấy hướng dẫn để lái xe từ chỗ này qua chỗ kia khi bấm hộp “Directions”.. .

Tháp Eiffel

1: Nhà thờ Đức Bà, 2: Bưu điện Sài G̣n, 3: Công viên, 4: Dinh Độc  Lập

Chợ Bến Thành

Từ địa chỉ ở trên, nếu ta đưa vào ḍng chữ “saigon, vietnam” rồi bấm “Search,” ta sẽ được bay qua nhiều lục địa, đại dương để về Sài G̣n. Với tên mới, thành phố có vài chi tiết sơ sài, và như trên đă nói, h́nh ảnh đường phố rất mù mờ. Để trở lại Little Saigon ở California, ta viết “little saigon, california, usa” rồi bấm “Search.” Bất ngờ, máy in ra một  ḍng báo “your search returned no results!” (không t́m được!). Vô lư, Little Saigon rất nổi tiếng, làm sao máy “dốt” quá vậy! Chắc nhu liệu có một một “bug” nào đó. Ta hăy dùng giải pháp đi ṿng: đưa vào “garden grove, california, usa” rồi bấm “Search.” Tốt, đến được! Bây giờ đưa trở lại “little saigon, california, usa” rồi bấm “Search.” Thành công! Little Saigon hiện ra với đường xá khang trang và những quán ăn quen biết. Ta có thể tiếp tục hưởng thú “vân du” khi đi thăm Grand Canyon, Kim tự tháp Ai cập, vv... Dĩ nhiên để có nhu liệu có phẩm chất tốt hơn cùng với những chọn lựa (options) khác nhau, ta có thể đóng tiền để dùng “Google Earth Plus,” hay “Google Earth Pro.”

Khi những ḍng này được viết th́ trong thị trường chứng khoán giá mỗi cổ phần (share) của Google Inc. khoảng 420 đô la (1), so với giá vào tháng 8 năm ngoái xấp xỉ 100. Trong khi đó, ở cùng khoảng thời gian này giá cổ phần của các đại công ty như Microsoft, IBM, Sun Microsystems, Oracle, Yahoo,... thay đổi rất ít. Ở t́nh trạng tŕ trệ kinh tế như hiện nay, quả đây là một sự thành công ngoạn mục về tài chánh. Chưa hết, năm nay Google c̣n đạt một vinh dự khác: được tạp chí Scientific American bầu là “Cơ sở thương mại hàng đầu trong năm” (Business Leader of the Year).

Hiện nay Google có chừng 3000 nhân viên với tài sản thương mại (market cap) khoảng 120 tỷ đô la, so với Microsoft khoảng 290 tỷ và IBM khoảng 140 tỷ.  Chuyên về máy t́m (search engine) trên Internet và những dịch vụ liên hệ, Google đang bành trướng mạnh mẽ trên toàn thế giới. Ngay từ năm 2001, người dùng ở mọi nơi có thể t́m kiếm tin tức trên mạng bằng 28 ngôn ngữ khác nhau. Gần đây, năm 2004, Google đă hănh diện thông báo một trụ sở mới ở Âu châu với 150 nhân viên từ 35 quốc gia, nói 17 thứ tiếng.

Để bành trướng, Google phải t́m mua những hăng có kỹ thuật cao (mà Keyhole là một), tạo đồng minh, và dĩ nhiên lôi kéo nhân tài. Trong số những cộng sự viên, trước hết ta phải kể đến Craig Silverstein, bạn đồng môn tại Stanford của Sergey Brin và Larry Page, hai người đă khai sinh ra Google. Với chức giám đốc kỹ thuật, và đă tham gia Google từ những ngày đầu tiên, Silverstein được coi là người đứng sau hậu trường điều khiển chiến lược của Google. Làm việc rất chăm chỉ, tay giám đốc 32 tuổi này đang kiểm soát thứ tự ưu tiên cho những dự án (projects) của Google cũng như những phương thức toán học t́m lời giải từng bước (mathematical algorithm) của máy t́m.

Một nhân vật quan trọng khác là Eric Schmidt, người được mời làm chủ tịch và giám đốc điều hành của công ty từ năm 2001. Schmidt đă từng làm việc cho Novell, Sun Microsystems, Xerox, Bell Lab, và đă có Ph.D. tại UC Berkeley. Thêm vào đó, khi nh́n vào danh dách ban giám đốc (board of directors) ta c̣n thấy những tên tuổi lẫy lừng như John Hennessy củaa đại học Stanford, Shirley M. Tilghman từ đại học Princeton, và Paul Otellini, giám đốc điều hành hăng Intel.

Đặc biệt, để trông coi cơ sở Khảo cứu và Phát triển (R & D) tại Trung quốc, tháng 5 vừa qua Google đă mời được Kai Fu-Lee từ Microsoft. Có Ph.D. tại đại học Carnegie Mellon, Lee là một chuyên viên về  Nhận biết tiếng nói (speech recognition) . Lee đă làm việc với Microsoft từ năm 1998, và có công thiết lập pḥng thí nghiệm khảo cứu của Micorsoft ở Trung hoa lục địa. Tại đây với khoảng 100 triệu người dùng Internet, theo tiên đoán số thương vụ về online (trực tuyến), wireless (vô tuyến), games (tṛ chơi vi tính) và interactive (hoạt động tương tác) có thể lên đến nhiều tỷ đô la trong ṿng 5 năm tới. Microsoft đă ḍm ngó thị trường này từ lâu, và coi việc ra đi của Lee là một sự bội ước. Theo Microsoft, họ xử Lee rất hậu. Năm 2000 Lee được thăng chức phó chủ tịch và đă được trả gần 4 triệu đô la trong khoảng thời gian 2000-2004. Hiện nay Microsoft đang kiện cả Lee và Google về tội vi phạm Thoả thuận cấm cạnh tranh (noncompete agreement). C̣n Lee và Google th́ đang dựa vào luật California để vô hiệu hoá sự kết tội này... 

Đă đến lúc ta trở lại với Brin và Page, hai sáng lập viên của Google.

Sergey Mihailovich Brin (Sergey Brin) và Lawrence E. Page (Larry Page) có nhiều điểm chung: cùng có gốc Do thái, cùng sinh năm 1973, cùng có bố làm nghề dạy học, cùng thích và giỏi về computer từ nhỏ, cùng là ứng viên tiến sĩ (Ph.D. candidates) tại đại h̔ 5;c Stanford, California,. ..Tuy nhiên, Brin sinh tại Moscow, Nga và theo gia đ́nh di cư vào Mỹ năm 1979, c̣n Page th́ sinh tại tiểu bang Michigan, Hoa kỳ.

Khi đến Stanford, khởi đầu Brin nghiên cứu về "Data mining" (Đào xới dữ kiện) và "Pattern extraction" (Khai thác mẫu dạng), hai hướng khảo cứu đang thịnh hành lúc đó. Brin gặp và quen Page khi có nhiệm vụ đưa chàng này đi thăm khuôn viên Stanford. Sau đó họ làm việc chung nhưng không thuận thảo lắm, và hầu như luôn luôn tranh căi khi đề cập về bất kỳ đề tài nào. Tuy nhiên họ có một điểm quan tâm chung: làm sao để t́m được những  tin tức hữu dụng trong hàng núi dữ kiện trên Internet. Năm 1998, họ cùng công bố một bài viết có tính cách cơ bản, sau này trở thành một trong 10 bài được t́m đọc nhiều nhất tại đại học Stanford. Đó là bài "The Anatomy of a Large-Scale Hypertextual Web Search Engine," tạm dịch: Cấu trúc chi tiết của một máy T́m có quy mô lớn trên Mạng dùng Hypertext (một cách viết đặc biệt dùng trong trang web).

Trong bài viết này ta thấy Brin và Page giới thiệu mẫu đầu tiên (prototype) của một máy t́m  loại lớn, có thể trả lời thật nhanh chính xác những Truy vấn (queries) của người dùng. Với số lượng khổng lồ của các trang web, và độ gia tăng đến chóng mặt của những dữ kiện mỗi ngày, trong lúc thiết kế (design) máy phải có một tính chất đặc biệt: vừa có quy mô lớn vừa có thể tăng trưởng (scalable) dễ dàng. Để mô tả mục tiêu tiến đến một máy t́m vĩ đại, họ đặt tên máy là Google, từ chữ googol, một từ được dùng để chỉ một số vô cùng lớn: 10100 (10 lũy thừa 100; gồm số 1 với 100 con số không theo sau).

 

Như vậy Google hoạt động ra sao?

Ta đă biết là mỗi web site (điểm mạng) có một địa chỉ thường được gọi là URL (Uniform Resource Locator), thí dụ như http://www.yahoo. com/, để từ đó những "browser" (bộ duyệt t́m) có thể đi tới và đọc những trang web trong đó. Những trang web này thường được viết bằng một loại ngôn ngữ đặc biệt có tên HTML (HyperText Markup Language), và có thể có những "link" (nối) để nhẩy tới những trang web khác. Những tin tức mà chúng ta muốn t́m có thể nằm đâu đó trên những trang web của hàng triệu web site trên Internet. Google không chờ đến lúc có truy vấn mới đi t́m dữ kiện v́ như vậy rất mất th́ giờ. Máy phải thành lập sẵn một loại tự điển khổng lồ, hiện đại.

Để làm điều này, trước hết Google cho những nhu liệu gọi là Máy ḅ (crawler), dựa vào danh sách những URL trên Internet, "download" những trang web, Nén lại (compress) và bỏ vào một Kho chứa (depository) thật lớn. Mỗi trang web bây giờ trở thành một loại tài liệu (document), được cho một Số nhận dạng (ID, identification) , gọi là docID (số nhận dạng tài liệu).  Để lọc lựa và sắp xếp những chữ (word) có ư nghĩa và những "link" trên những trang tài liệu này, một nhu liệu có tên Indexer (nhu liệu lập chỉ số) được dùng. Những chữ cùng những chi tiết về link được cho một Số nhận dạng chữ (wordID) và được chuyển đến những bộ phận tồn trữ đặc biệt gọi là Thùng chứa (barrels).

Một nhu liệu khác có tên Sorter (nhu liệu lập thứ tự) sắp xếp các chữ theo thứ tự wordID và tạo nên một Danh sách có chỉ số ngược (inverted index). Gọi là “ngược” v́ từ những chữ trong danh sách này, vốn giống như những chữ của một cuốn tự điển, ta có thể t́m lại tất cả những chi tiết liên hệ đến h́nh dạng (kiểu chữ, độ lớn), nguồn gốc (URL, link,...),.. . của chữ đó. Phương pháp tạo chỉ số (indexing) đă giúp máy t́m ra thật nhanh những chi tiết cần thiết. Một cách lập chỉ số quen biết có tên ISAM (Index sequential access mode) đă được Google sử dụng để tạo chỉ số cho các docIDs. Cộng vào đó với sự nghiên cứu cẩn thận về cách thiết kế, kỹ thuật tồn trữ, lối t́m kiếm, Google đă đạt được vận tốc vô cùng nhanh.

Thí dụ như khi ta muốn truy vấn ḍng chữ “little saigon california,” th́ Google sẽ tức khắc đổi các chữ trên thành các “wordIDs” và lục thật nhanh trong các “barrels” để đưa ra kết quả. Trong ṿng dưới 0.45 giây Google sẽ đưa ra danh sách trên 800,000 trang web liên hệ!

 

Tới đây vấn đề nhanh coi như đă giải quyết xong, chỉ c̣n vấn đề chính xác.

Ta không có th́ giờ để lục hết hàng trăm ngàn trang web mà Google đưa ra, và ta muốn có chi tiết cần biết trong những trang web đầu tiên. Để phần nào đọc được ư nghĩ của chúng ta, Brin và Page đă đưa ra một phép tính dựa vào những "links" giữa các trang web, gọi là PageRank (Phân cấp Trang), để lập thứ tự quan trọng của những trang web đă được t́m. Ta có thể nhận ra giá trị của PageRank nếu ta có thể thấy điều muốn biết trong 10 trang web đầu của bảng kết quả. PageRank được cấp bằng phát minh (patented) năm 2001 dưới tên đại học Stanford, với Lawrence Page là người phát minh...

 Biết rơ khả năng của ḿnh và biết ḿnh muốn ǵ, giữa năm 1998 Brin và Page quyết định ngưng học Ph.D. để mở công ty riêng. Họ viết Dự án thương mại (business plan) cho công ty và đi gơ cửa các nhà đầu tư để gây vốn. Tháng 9 năm 1998, Google Inc. ra mắt tại Menlo Park, California với số nhân viên là ba người (Brin, Page và Silverstein) . Để mở cửa văn pḥng họ phải dùng một Remote control (thiết bị viễn khiển) v́ công ty nằm trong nhà để xe của một người bạn. Tuy nhiên phẩm chất của máy t́m ở Google.com, mặc dù đang là bản chạy thử cuối cùng (beta) và dĩ nhiên miễn phí, đă được đánh giá cao bởi các báo USA Today, Le Monde và PC Magazine. Mỗi ngày có khoảng 10,000 truy vấn.

 Tháng 2 năm 1999, với số truy vấn mỗi ngày lên đến 500,000, công ty phải tăng số nhân viên lên thành tám người và dọn đến trụ sở mới tại Palo Alto. Uy tín lên cao, Google được các công ty đàn anh mời vào đồng minh và đến tháng 6, t́nh trạng tài chánh của công ty đă được bảo đảm nhờ 25 triệu đô la đầu tư từ hai công ty Sequoia Capital và Kleiner Perkins Caufield & Byers. Từ đây công ty tiếp tục phát triển mạnh: tháng 9 máy t́m chấm dứt chạy thử để bắt đầu chạy chính thức, và số truy vấn lên tới 3 triệu mỗi ngày. Trong khi uy tín của máy t́m Google miễn phí cho quần chúng càng lên cao th́ các dịch vụ như bán kỹ thuật t́m kiếm (search technology) và quảng cáo trên Internet càng mang nhiều lợi nhuận cho Google. Cuối năm 2001 công ty bắt đầu có lời và từ đó Google lên như diều gặp gió.

 Có khả năng, chăm chỉ, yêu nghề, nh́n xa trông rộng, và dám chấp nhận thử thách, Brin và Page thành công là phải. Tuy nhiên họ đạt được thành công lớn như hiện nay là nhờ “Thiên thời.” Đúng như Silverstein nói, “ Google was in the right place at the right time”  (tạm dịch: Google đă đến đúng chỗ, đúng lúc). Theo ước tính, lúc giá mỗi cổ phần của Google khoảng 111 đô la, th́ Brin và Page mỗi người có khoảng 11 tỷ đô la. Bây giờ, với  giá mỗi cổ phần tăng lên gần gấp bốn, th́ gia sản của họ phải lớn hơn nhiều. Mới đây hai người đă mua một phản lực cơ chở khách cỡ lớn, Boeing 767, để làm phương tiện di chuyển riêng...

Coi công việc là một thú vui và luôn luôn công khai tuyên bố “Don’t be evil” (Không làm điều xấu), những người ở Google sẽ c̣n cho chúng ta nhiều ngạc nhiên trong những ngày tới.