
Bài này được dịch và tổng hợp vào năm 2018, khi vụ bê bối dữ liệu Facebook – Cambridge Analytica bị đưa ra ánh sáng, trước cả thời điểm Quy định chung về bảo vệ dữ liệu (GDPR) của Liên minh Châu Âu chính thức có hiệu lực từ ngày 25/5/2018. Các dữ liệu trong bài viết lấy từ thời điểm tháng 5/2018, không được cập nhật bổ sung. Nay, Facebook lại nằm trong tâm bão qua những tiết lộ gây sốc (với những người dùng bình thường) của Frances Haugen – một cựu quản lý cấp cao Facebook, tôi đăng lại bài này với tính chất tham khảo chuyên môn, không dành cho giới truyền thông.
Các chuyên gia thường chỉ ra cuộc Cách mạng công nghiệp 4.0 sẽ diễn ra trên 3 lĩnh vực chính: Công nghệ sinh học, Kỹ thuật số và Vật lý. Trong đó, những yếu tố cốt lõi của kỹ thuật số được coi là bộ khung, bao gồm: Big Data, AI (Trí tuệ nhân tạo), Internet of Things (IoT). Hãy liên kết những nội dung dưới đây để xem “bộ khung” này đã làm được những gì.
Big Data đã và đang là một thị trường màu mỡ đáng giá hàng tỷ đô la Mỹ, nhưng giờ đây, các ông lớn công nghệ đều phủ nhận, tự tách mình khỏi Big Data. Họ lo ngại điều gì? Big Data từng là thứ được Silicon Valley “nâng như nâng trứng, hứng như hứng hoa”, giờ đã trở thành cái gai trong mắt và bị ruồng bỏ. Những ông trùm công nghệ như Google và Facebook đã xây dựng đế chế quảng cáo khổng lồ dựa trên những gì mà họ biết về khách hàng của mình, nhưng trước sự quan tâm đặc biệt của giới hành pháp trên toàn thế giới lẫn người dùng trong thời gian gần đây về quyền riêng tư, dường như không còn ai muốn phô trương nó nữa. Trong báo cáo tài chính tháng 5/2018, cả Google và Twitter đều chủ đích “nói giảm, nói tránh” mảng kinh doanh dựa trên dữ liệu người dùng của họ, cũng như những sự ảnh hưởng về doanh thu khi Quy định chung về bảo vệ dữ liệu (GDPR) của Liên minh Châu Âu (EU) chính thức có hiệu lực từ ngày 25/5/2018. Bê bối Cambridge Analytica của Facebook cũng đã tập trung sự chú ý của công chúng về cách mà các công ty công nghệ thu thập dữ liệu của người dùng, nhiều khả năng sẽ làm nền tảng cho các quy định khác về bảo mật dữ liệu chứ không chỉ dừng lại ở GDPR của Châu Âu. Google có quyền truy cập vào lượng thông tin người dùng rất lớn, lớn đến mức khó có thể đong đếm được thông qua nhiều nền tảng và dịch vụ của mình: Search, Youtube, Gmail, Cloud, Chrome và Maps. Trong quý I/2018, Google thu về 26,6 tỷ USD chỉ từ quảng cáo, chiếm tới 85% tổng doanh thu của công ty. eMarketer ước tính Google chiếm 31% tổng doanh thu từ quảng cáo kỹ thuật số của cả thế giới trong năm.
Thế nhưng, Google luôn lập luận rằng mảng kinh doanh quảng cáo cốt lõi của họ không thực sự phụ thuộc vào dữ liệu người dùng nhiều đến như vậy, nên họ sẽ không gặp nhiều rủi ro khi các quy định mới được ban hành. Sundar Pichai, CEO của Google nói: “Điều quan trọng mà mọi người cần phải hiểu là phần lớn mảng kinh doanh quảng cáo của chúng tôi đến từ Search, nơi chúng tôi dựa vào lượng thông tin rất hạn chế là các từ khóa mà người dùng truy vấn để hiển thị những quảng cáo liên quan”. Twitter, một nền tảng mạng xã hội cũng kiếm tiền chủ yếu nhờ quảng cáo khẳng định rằng họ không hề giống các công ty khác, những công ty đang biến quyền riêng tư của người dùng trở thành những rắc rối không đáng có. Trên thực tế, công ty chỉ mới bắt đầu có lợi nhuận trong thời gian gần đây. CEO Jack Dorsey cho biết: “Chúng tôi khác với những công ty kia, vì Twitter là công khai. Chúng tôi là nền tảng với những cuộc hội thoại công khai, nên tất cả các dữ liệu của chúng tôi đều ở ngoài đó, đều được công khai, đều được mở. Và mảng kinh doanh dữ liệu của chúng tôi chỉ tổ chức lại những dữ liệu công khai đó theo thời gian thực để các thương hiệu, các nhà nghiên cứu và các tổ chức có thể sử dụng nó dễ dàng hơn mà thôi”. Apple, công ty kiếm tiền chủ yếu nhờ phần cứng cũng đưa ra lập luận tương tự. Khi CEO Tim Cook được MSNBC phỏng vấn hồi tháng 4 rằng ông sẽ làm gì khi rơi vào tình cảnh của Mark Zuckerberg, ông nói: “Làm gì ư? Tôi sẽ không bao giờ rơi vào tình huống đó”.
Nhưng điều họ nói có đúng không? Hãy xem lại những gì đã xảy ra!
Nhà tâm lý học Michal Kosinski đã phát triển một phương pháp để phân tích con người dựa trên hành vi của họ trên Facebook theo từng phút. Và nó đã giúp ông Donald Trump giành chiến thắng. Ngày 09/11/2016, vào khoảng 08h30 sáng, trong khách sạn Sunnehus ở Zurich, Michal Kosinski thức dậy. Nhà nghiên cứu 34 tuổi này trước đó đã thuyết trình tại Trung tâm nguy cơ của ETH, một hội nghị về những mối nguy hiểm của Big Data và cái gọi là cuộc cách mạng kỹ thuật số. Ông Kosinski liên tục trình bày những bài thuyết trình như vậy ở khắp nơi trên thế giới. Ông là một chuyên gia hàng đầu về psychometrics (tâm trắc học). Khi mở TV sáng đó, ông thấy một quả bom phát nổ: Donald J. Trump vừa đắc cử tổng thống Mỹ, trái với mọi dự đoán của tất cả các nhà thống kê hàng đầu. Kosinski xem kỹ buổi lễ mừng chiến thắng của ông Trump và kết quả bầu cử của các tiểu bang. Ông nghi ngờ rằng kết quả có lẽ có điều gì đó cần phải làm với nghiên cứu của mình. Rồi ông hít vào thật sâu và tắt TV. Trong cùng ngày, một công ty có trụ sở ở London (Anh), rất ít được biết đến, gửi đi một thông cáo báo chí: “Chúng tôi rất vui mừng cách tiếp cận truyền thông được định hướng bởi dữ liệu mang tính cách mạng của chúng tôi đã đóng góp nền tảng vào chiến thắng của ông Donald Trump”. Ông Nix, 43 tuổi, là CEO của Cambridge Analytica. Ông luôn xuất hiện trong bộ vest, đeo kính thời trang và mái tóc vàng lượn sóng được chải ngược ra sau. Một Kosinski hay suy nghĩ, một Nix kín tiếng và một Donald Trump cười toe toét – một người đã làm cho cuộc cách mạng số trở nên khả thi, một người đã áp dụng nó thành công và một người hưởng lợi từ nó.
Mặt trái của Big Data nguy hiểm như thế nào? Bất cứ ai không sống trên Mặt Trăng trong 5 năm gần đây đều biết hoặc nghe đến thuật ngữ “Big Data”. Big Data có nghĩa là tất cả mọi thứ chúng ta làm, bất kể trên mạng hay ngoài đời, đều để lại dấu vết kỹ thuật số. Mỗi khi mua sắm bằng thẻ, bất cứ tìm kiếm nào từ Google, bất kỳ động thái nào với chiếc điện thoại trong túi, từng cái nhấn like trên mạng xã hội, tất cả đều được lưu giữ. Đặc biệt là mỗi lần nhấn like. Từ rất lâu rồi, người ra đã không hoàn toàn rõ lý do tại sao và dữ liệu này phục vụ cho việc gì. Cũng không rõ là liệu Big Data là một nguy cơ lớn hay lợi ích lớn cho nhân loại. Song kể từ ngày 09/11/2016, chúng ta biết câu trả lời: Đằng sau chiến dịch bầu cử trực tuyến của Trump và cũng đứng sau chiến dịch trưng cầu dân ý về việc Anh rời khối Liên minh châu Âu là một công ty dữ liệu lớn: Cambridge Analytica với Giám đốc điều hành Alexander Nix.
Để hiểu được kết quả của cuộc bầu cử Mỹ và những gì có thể diễn ra ở châu Âu, chúng ta phải bắt đầu với một sự việc kỳ lạ tại Đại học Cambridge trong năm 2014. Cụ thể là ở Khoa Psychometrics của Kosinski. Psychometrics, đôi khi được gọi là psychography, là một nỗ lực khoa học để đo lường tính cách của một người. Trong tâm lý học hiện đại, tiêu chuẩn này được gọi là “phương pháp Ocean” (Ocean là viết tắt của 5 từ tiếng Anh, gọi là Big Five). Trong những năm 1980, hai nhà tâm lý học đã thành công trong việc chứng minh rằng tất cả các đặc điểm của một con người có thể được đo lường dựa trên 5 chiều cá tính, Big Five: Openness – Cởi mở (bạn có cởi mở với những điều mới mẻ?), Conscientiousness – Sự tận tâm (bạn là người cầu toàn?), Extraversion – Hướng ngoại (bạn là người hoà đồng?), Agreeableness – Dễ chịu (bạn có dễ cảm thông và hợp tác?) và Neuroticism – Nhạy cảm (bạn hay lo lắng, bất an, dễ bị tổn thương?). Dựa trên các hướng này, một người có thể nói tương đối chính xác về loại người chúng ta phải đối phó, chẳng hạn, anh ta có nhu cầu hay sợ hãi điều gì, và anh ta sẽ hành xử với chủ đích gì? Vấn đề là thu thập được dữ liệu này và sẽ khó khăn trong một thời gian dài bởi vì để xác định được, bạn phải điền vào bảng câu hỏi phức tạp, đầy tính cá nhân. Cho đến khi có Internet. Rồi Facebook. Và Kosinski.
Đầu năm 2014, một phó giáo sư trẻ tên Alexander Kogan tìm đến Kosinski. Ông ta đại diện cho một công ty quan tâm đến phương pháp của Kosinski. Đề án nghiên cứu là sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook. Để làm gì thì khách hàng không nói, lý do bảo mật. Lúc đầu Kosinski đồng ý, vì dù sao việc đó cũng đem lại khoản tiền lớn cho Viện nghiên cứu của ông, nhưng rồi ông đã trì hoãn. Cuối cùng, ông cũng bắt Kogan tiết lộ tên công ty: SCL – Strategic Communications Laboratories. Ông thử vào google tìm hiểu – “chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử” – website của công ty ghi, và chào dịch vụ tiếp thị dựa trên tâm lý và logic. Những trò ảo thuật làm ảnh hưởng kết quả bầu cử. Kosinski lướt qua các trang của website, nghĩ mông lung về việc công ty này sẽ làm gì ở Mỹ. Có một điều mà lúc đó Kosinski chưa biết: sau lưng SCL là một hệ thống vô cùng phức tạp, liên quan đến thiên đường thuế, sau này được tiết lộ qua Hồ sơ Panama và Wikileaks.
Michal Kosinski là một du học sinh đến từ Ba Lan. Anh bắt đầu một cuộc sống mới khi được Đại học Cambridge danh tiếng chấp nhận vào năm 2008. Anh được nhận vào Trung tâm Psychometrics thuộc Cavendish Laboratory, một phòng thí nghiệm tâm lý. Cùng với bạn học, Kosinski trình bày một ứng dụng nhỏ mà sau này vẫn còn sử dụng để quản lý Facebook: My Personality. Trong ứng dụng này, bạn có thể điền rất nhiều câu hỏi tâm lý để duy trì các ứng dụng, có thể một số ít các câu hỏi tâm lý lấy từ bảng câu hỏi Ocean. Kết quả là bạn tạo được profile về cá tính của mình, còn tác giả của App thì có được những thông tin cá nhân vô giá. Như mong đợi, đã có hàng ngàn, hàng triệu người bộc lộ niềm tin sâu thẳm của họ một cách nhanh chóng bằng cách điền câu trả lời vào bảng câu hỏi Ocean. Và đột nhiên hai nghiên cứu sinh này sở hữu một kỷ lục về dữ liệu tâm lý trong lịch sử nghiên cứu tâm lý con người. Phương pháp mà Kosinski và đồng nghiệp của mình phát triển trong vài năm thực sự khá đơn giản. Đầu tiên, đối tượng thử nghiệm được đề nghị điền trả lời vào một bảng câu hỏi trắc nghiệm trực tuyến. Từ câu trả lời, các nhà khoa học tính toán những phẩm chất của họ. Sau đó, Kosinski và nhóm nghiên cứu so sánh tất cả những dữ liệu trực tuyến khác của đối tượng: họ like, share hoặc đăng gì trên Facebook, tuổi tác, giới tính, địa điểm cư trú hoặc thăm thú… Vì vậy, các nhà nghiên cứu có được những mối liên hệ, từ hành động trực tuyến đơn giản cho đến những kết luận đáng kinh ngạc, đáng tin cậy có thể được rút ra. Ví dụ, những người đàn ông like thương hiệu mỹ phẩm MAC có xác suất cao là đồng tính. Ngược lại, đàn ông nam tính thích Wu-Tang Clan, một nhóm nhạc hip-hop New York. Những người theo dõi Lady Gaga là người hướng ngoại với xác suất rất cao. Những ai like bài đăng dạng trích dẫn triết học là người hướng nội hơn. Kosinski và các đồng nghiệp đã không ngừng tinh chỉnh mô hình của mình.
Trong năm 2012, Kosinski chứng minh rằng phân tích 68 like trên Facebook là đủ để xác định màu da của người dùng (với độ chính xác đến 95%), liệu người dùng đó có đồng tính (88%) và ủng hộ đảng Dân chủ hay Cộng hoà (85%). Thậm chí, nó còn đủ thông tin để có thể tính toán được người đó có thông minh không, theo tôn giáo nào, mức độ uống rượu, hút thuốc hay sử dụng ma tuý… Ngay cả khi cha mẹ của một người có ly hôn cho đến khi họ 21 tuổi hay không cũng có thể được dự đoán từ các dữ liệu. Một mô hình tốt được thể hiện qua việc nó có thể dự đoán một người sẽ trả lời những câu hỏi cụ thể như thế nào. Kosinski tiếp tục tinh chỉnh mô hình của mình và mô hình này có thể sẽ dự đoán được một người còn tốt hơn là đồng nghiệp của họ trung bình với chỉ 10 cái like trên Facebook, 70 like sẽ tốt hơn cả một người bạn, 150 like hơn cả cha mẹ và với 300 like, máy có thể dự đoán hành vi của một người còn rõ ràng hơn cả bạn tình của họ. Và nếu nhiều like hơn nữa, thì có lẽ máy sẽ hiểu biết về một người còn rõ ràng hơn cả chính bản thân họ.
Vào ngày Kosinski công bố những phát hiện này, ông đã nhận được hai cuộc gọi. Một là lời đe dọa về các hành động pháp lý và một lời mời làm việc. Cả hai đều của Facebook.
(Tổng hợp từ Das Magazine, VnReview, Viettimes thời điểm tháng 5/2018)