This is a bilingual snapshot page saved by the user at 2024-3-17 21:59 for https://app.immersivetranslate.com/pdf/?file=file%3A%2F%2F%2FC%3A%2FUsers%2Ftahon%2FDesktop%2Frecomm..., provided with bilingual support by Immersive Translate. Learn how to save?

xviii

GIỚI THIỆU

làm theo lời khuyên một cách đáng tin cậy có dẫn đến kết quả mong muốn không? Khách quan và chủ quan, các công cụ đề xuất có khiến mọi người cảm thấy hiệu quả và được trao quyền nhiều hơn không? Hay thất vọng và phụ thuộc? Những số liệu nào là thích hợp nhất để xác định thành công? Amazon và Spotify rõ ràng có các tiêu chí đánh giá khác nhau, chẳng hạn như những người giới thiệu dịch vụ chăm sóc sức khỏe hoặc phát triển chuyên môn.

Làm thế nào để “mức độ liên quan” được xác định và xác định? Những người giới thiệu càng thân thiết và đầy khát vọng thì những công cụ đánh giá đó càng cần hiệu quả hơn.

Trách nhiệm giải trình Ai chịu trách nhiệm về lời khuyên tốt hoặc lôi cuốn? Những người giới thiệu tốt có nên chịu trách nhiệm về kết quả xấu? Ngược lại, mọi người nên bị xử phạt hay trừng phạt nếu phớt lờ hoặc từ chối làm theo lời khuyên tốt? Một lần nữa, công cụ khuyến nghị càng lan rộng, mang tính cá nhân và thuyết phục thì trách nhiệm giải trình càng cao.

Cơ quan Cơ quan đề cập đến quyền lực và khả năng của các cá nhân hành động độc lập và thực hiện lựa chọn. Sự thông minh và phức tạp ngày càng tăng của các công cụ đề xuất, khả năng học hỏi các hành vi cá nhân và xã hội, có nghĩa là chúng sẽ gây ảnh hưởng ngày càng tăng đối với từng cơ quan trên toàn thế giới. Giống như bản sắc được hình thành bởi gia đình, bạn bè, học vấn,

GIỚI THIỆU

xix

văn hóa và mô hình tiêu dùng, sự đổi mới khuyến nghị sẽ ngày càng định hình tương lai của đại lý.

Năm tương lai này có thể được tóm tắt và tổng hợp theo một cách khác: tương lai của bản thân. Các công cụ đề xuất sẽ tiếp tục chuyển đổi khả năng tự nhận thức, tự khám phá và tự hiểu biết. Điều đó mang đến, dù tốt hay xấu, những cơ hội và mối đe dọa to lớn. Những điều này sẽ được thảo luận trong chương cuối cùng. “Kiến thức thiết yếu” về các công cụ đề xuất được hiểu rõ hơn thông qua các tương lai này hơn bất kỳ tập hợp công nghệ cụ thể nào.

Nói thẳng ra, thách thức khó khăn nhất khi viết cuốn sách này không phải là cắt giảm tầm quan trọng của chủ đề này mà là quyết định mức độ chi tiết nào sẽ phù hợp và hữu ích nhất. Ví dụ: khi điều này được viết và xem xét, học máy đã phát triển từ một tập hợp các kỹ thuật thuật toán hữu ích thành một nền tảng thống trị cho việc thiết kế và sản xuất công cụ đề xuất. Tuy nhiên, đây không thể và không nên là một cuốn sách khác về mạng lưới thần kinh và các thuật toán học sâu cũng như một cuốn sách về ô tô nói về những khác biệt quan trọng giữa động cơ đốt trong và pin.

Tôi muốn người đọc đọc xong không phải với kiến ​​thức kỹ thuật về tài liệu cơ bản mà với sự nắm bắt khái niệm chắc chắn về những khía cạnh nào của công nghệ khiến người giới thiệu có hiệu quả mạnh mẽ đến vậy. Có rất nhiều tài nguyên để tìm hiểu sâu về các chi tiết kỹ thuật; nhiệm vụ ở đây là

xx

GIỚI THIỆU

để người đọc hiểu một cách hữu ích cách chuỗi giá trị của công cụ đề xuất mang lại khả năng khám phá, tính mới và sự hài lòng cho hàng tỷ người trên toàn thế giới một cách đáng tin cậy. Tôi muốn độc giả thấy những nguyên tắc cơ bản nào vượt qua công nghệ và thị trường, đồng thời đánh giá cao những “trường hợp sử dụng” truyền cảm hứng cho sự đổi mới. Trên hết, tôi muốn độc giả sẽ cảm thấy kinh ngạc—như tôi—trước sự sáng tạo, đa dạng và cơ hội của miền này. Để diễn giải Churchill, chúng ta chưa đến gần thời điểm kết thúc đổi mới công cụ đề xuất. Tuy nhiên, có thể nhận thấy một cách công bằng rằng chúng ta đang ở giai đoạn cuối của sự khởi đầu.

1

NGƯỜI GIỚI THIỆU LÀ GÌ/ TẠI SAO NGƯỜI GIỚI THIỆU LÀ QUAN TRỌNG

Là một công cụ, công nghệ và nền tảng kỹ thuật số, các công cụ đề xuất hấp dẫn và quan trọng hơn nhiều so với những gì định nghĩa của chúng có thể gợi ý. Các định nghĩa kỹ thuật hẹp không nên hạn chế về mặt ngữ nghĩa đối với phạm vi, phạm vi và tác động to lớn của các công cụ đề xuất đối với cuộc sống hàng ngày.

Ngày càng nhiều người trên thế giới trở nên phụ thuộc hơn—thậm chí phụ thuộc—vào các công cụ đề xuất để tư vấn, cung cấp thông tin và truyền cảm hứng tốt hơn cho họ. Những người giới thiệu ngày càng ảnh hưởng đến cách các cá nhân sử dụng thời gian, tiền bạc và sức lực của mình để nhận được nhiều hơn từ cuộc sống. Điều đó giải thích tại sao các tổ chức toàn cầu từ Alibaba đến Netflix, Spotify, Amazon đến Google lại đầu tư rất nhiều vào chúng.

Như chương này minh họa, các công cụ đề xuất đồng thời định hình và dự đoán tương lai của người dùng.

2

Chương 1

Wikipedia không thể tránh khỏi định nghĩa các công cụ đề xuất (và nền tảng và hệ thống) là “một lớp con của hệ thống lọc thông tin tìm cách dự đoán ‘xếp hạng’ hoặc ‘ưu tiên’ mà thế giới người dùng dành cho một mục”.

Cẩm nang Giới thiệu về Hệ thống Đề xuất tuyên bố “Hệ thống Đề xuất (RS) là các công cụ và kỹ thuật phần mềm cung cấp đề xuất về các mục sẽ hữu ích cho người dùng. Ở dạng đơn giản nhất, các đề xuất được cá nhân hóa được cung cấp dưới dạng danh sách các mục được xếp hạng. Khi thực hiện xếp hạng này, RS cố gắng dự đoán những sản phẩm hoặc dịch vụ phù hợp nhất là gì, dựa trên sở thích và ràng buộc của người dùng.”

Một bài nghiên cứu về người giới thiệu của Thụy Điển nhận xét rằng “Hệ thống người giới thiệu có thể được mô tả như một hệ thống tự động lựa chọn thông tin liên quan đến cá nhân để đưa ra quyết định.

người dùng dựa trên sở thích của họ. Vấn đề mà hệ thống gợi ý giải quyết có thể được xác định theo nhiều cách khác nhau. . . nhưng phổ biến nhất. . . như sau: Ước tính mức độ người dùng sẽ thích hoặc không thích những món đồ mà người dùng chưa từng trải nghiệm.”

Mỗi định nghĩa phản ánh tiện ích thực tế và nền tảng thuật toán giúp người giới thiệu hoạt động. Chúng cũng nêu bật chức năng thiết yếu của chúng: dự đoán về mặt toán học sở thích cá nhân.

Nhà nghiên cứu Amit Sharma của Microsoft khẳng định trên Quora: “Về cốt lõi, các hệ thống đề xuất không là gì khác ngoài 'những kẻ săn lùng sự tương đồng'. Cụm từ đó có vẻ đơn giản đến mức dễ bị đánh lừa.

Chức năng thiết yếu của hệ thống gợi ý là dự đoán về mặt toán học sở thích cá nhân.

4

Chương 1

và tiết lộ: Việc tìm kiếm sự tương đồng—được hỗ trợ bởi sự đổi mới thuật toán—là một nền tảng mạnh mẽ đáng kinh ngạc để dự đoán—và đề xuất—tương lai.

“Tùy thuộc vào cách người ta định nghĩa ‘sự tương đồng’ giữa hai ‘mục’ [hoặc người hoặc nhóm],” Sharma giải thích thêm, “bạn có thể phát triển một loạt ứng dụng [đề xuất] ”

Mua: Người mua X cũng mua Y

• Experience: People who read/watched/enjoyed X

cũng rất thích Y

• Địa điểm: Những người đã từng ở/ăn/nghỉ ở X cũng đã đến Y

• Current website: People who come to this website

cũng duyệt Y

• Education: People who knew about/worked on/

đã học/ X cũng đã học Y

Tuyển dụng: Những người có kỹ năng như nhân viên của bạn

Bí quyết: Người nấu X cũng nấu Y

Bối cảnh: Những người có tâm trạng X, vào thời điểm Z thực hiện hoạt động Y nhiều hơn

Tài chính: Cổ phiếu được mua bởi X người thành công

KHUYẾN NGHỊ LÀ GÌ

5

• Mức độ phổ biến: Các mặt hàng phổ biến trong giờ, tuần, năm, sự kiện vừa qua

• Khuyến mại: Những người phản hồi khuyến mãi X sẽ được khuyến mại Y

Xã hội: Mọi người/bạn bè đang nói về mục Y

Sức khỏe: Người khỏe mạnh làm Y nhiều hơn

Thuốc: Những người có đặc điểm X phản ứng với thuốc Y tốt hơn

Những điểm tương đồng đơn giản—chẳng hạn như “Những người thích bạn”—có thể bắt nguồn từ bất kỳ khía cạnh, thuộc tính và thái độ nào mà hệ thống gợi ý nhận ra hoặc phân loại là có liên quan. “Sự tương đồng” tạo ra con đường dự đoán cho sự phù hợp. “Mức độ liên quan” lần lượt nắm bắt sự cạnh tranh—ví dụ: các loại thìa khác nhau—và các sản phẩm bổ sung—dao, nĩa và các loại dao kéo khác giúp xác định các lựa chọn thay thế mong muốn. Tuy nhiên, “các cuộc tìm kiếm điểm tương đồng” đa chiều chỉ đơn thuần là các phương tiện và cơ chế tính toán nhằm đạt được mục đích đề xuất. Các đề xuất “tốt hơn” có thể đo lường được cho những người dùng cụ thể là mục đích và mục tiêu cuối cùng.

Về mặt chủ đề, người giới thiệu hỗ trợ người dùng theo bốn khía cạnh chính (có thể trùng lặp hoặc không): họ giúp người dùng quyết định những gì họ có thể hoặc nên làm tiếp theo; chúng giúp người dùng khám phá nhiều tùy chọn phù hợp với ngữ cảnh;

6

Chương 1

có thể trùng lặp hoặc không): chúng giúp người dùng quyết định những gì họ có thể hoặc nên làm tiếp theo; chúng giúp người dùng khám phá nhiều tùy chọn phù hợp với ngữ cảnh; chúng giúp người dùng so sánh các lựa chọn liên quan đó; và có lẽ quan trọng nhất là chúng giúp người dùng khám phá các lựa chọn và cơ hội mà chính họ có thể không tưởng tượng ra. Nói chung, trợ giúp tiềm năng này khiến người giới thiệu trở nên hấp dẫn không thể cưỡng lại đối với người dùng cũng như nhà phát triển.

Cuốn sách này mô tả và thảo luận về sự kết hợp giữa dữ liệu và thuật toán được tính toán bằng ma trận và “máy học” để đưa ra các đề xuất rất hiệu quả. Cái nhìn sâu sắc cần thiết là các công cụ đề xuất (r) phát triển xung quanh một từ cho đến nay vẫn chưa được đề cập đến: sự lựa chọn.

Trong phân tích đầu tiên và cuối cùng, người giới thiệu quan tâm đến sự lựa chọn. Tương lai của người giới thiệu là về tương lai của sự lựa chọn. Tương lai của sự lựa chọn có thể được tìm thấy trong tương lai của người giới thiệu.

Tại sao công cụ đề xuất lại quan trọng . .

Bởi vì nhiều người hơn chưa bao giờ có nhiều lựa chọn hơn xung quanh nhiều cơ hội hơn trong nhiều lĩnh vực hơn: chẳng hạn như vì một Video Amazon Prime cung cấp hơn 20.000 phim và video; bởi vì mỗi phút có hơn năm trăm giờ video được tải lên YouTube; bởi vì mỗi ngày có hơn năm mươi triệu bức ảnh được tải lên Instagram; bởi vì Amazon đã lưu trữ hơn ba triệu cuốn sách trong khi Spotify lưu trữ hơn hai mươi triệu bài hát. Bởi vì sự phong phú ngày càng tăng vốn đã thu hẹp thời gian và thời gian của một cá nhân.

Trong phân tích đầu tiên và cuối cùng, người giới thiệu quan tâm đến sự lựa chọn.

8

Chương 1

chú ý để có quyết định chu đáo. Bởi vì hầu hết mọi người đều nhận ra rằng họ cần những lời khuyên tốt hơn, những gợi ý tốt hơn và những đề xuất tốt hơn. Bởi vì những người thực sự muốn đưa ra những lựa chọn tốt hơn ngày càng chấp nhận rằng những khuyến nghị tốt nhất ngày càng đến từ những chiếc máy thông minh.

Công cụ khuyến nghị thay đổi sự lựa chọn của con người.

Giống như động cơ hơi nước đã phát động mạnh mẽ một cuộc cách mạng công nghiệp, các công cụ đề xuất xác định lại cái nhìn sâu sắc và tầm ảnh hưởng trong thời đại thuật toán. Bất cứ nơi nào sự lựa chọn quan trọng, người giới thiệu sẽ phát triển. Những người giới thiệu tốt hơn luôn có nghĩa là những lựa chọn tốt hơn. Máy tạo năng lượng bằng hơi nước; người giới thiệu trao quyền cho mọi người. Họ là những động lực chính của thời đại tương ứng của họ. Họ thay đổi cách thực hiện công việc.

Đó là lý do tại sao Amazon, Alibaba, Google, Netflix và TikTok không chỉ là những công cụ thương mại đơn thuần; họ là những người hỗ trợ cho từng cơ quan. Nền tảng của họ cung cấp thông tin chi tiết tức thì và các tùy chọn được cá nhân hóa cho từng người dùng mà họ phục vụ. Các thuật toán của họ đưa ra các đề xuất dựa trên dữ liệu được thiết kế rõ ràng để truyền cảm hứng cho việc khám phá ngay lập tức. Sự liên quan không ngừng của chúng tạo ra sự tò mò tự tin. Những người giới thiệu này theo nghĩa đen—bằng số lượng, bằng số lượng—dự đoán những gì “mọi người thích bạn”—và đặc biệt là bạn—có thể muốn hoặc cần. Đề xuất giá trị hấp dẫn đó đã thâm nhập vào các tương tác kỹ thuật số trên toàn thế giới.

Kết quả đã nói lên điều đó: hệ thống gợi ý ảnh hưởng đến video mà mọi người xem, những cuốn sách họ

KHUYẾN NGHỊ LÀ GÌ

9

những cuốn sách họ đọc, âm nhạc họ nghe, những trò chơi điện tử họ chơi, những khoản đầu tư họ thực hiện, những người bạn họ gặp, quần áo họ mặc, đồ ăn họ ăn, những nhà hàng họ thường lui tới, loại rượu họ uống, những kỳ nghỉ họ đi, tin tức họ theo dõi, những bài tập họ làm, những người bạn đồng hành họ tán tỉnh, những sản phẩm họ mua, những chiếc xe họ lái hoặc mưa đá, những tuyến đường họ đi du lịch, phần mềm họ viết mã, những slide họ trình bày, email họ gửi, những lớp học họ chụp, tác phẩm nghệ thuật họ sưu tầm, người trông trẻ và người giúp việc họ thuê, nhân viên họ quảng cáo, ảnh họ chia sẻ, nghiên cứu học thuật họ đánh giá, quà tặng họ tặng, sự kiện trực tiếp họ tham dự, quảng cáo họ xem, khu phố họ sinh sống về công việc họ ứng tuyển, hạt giống họ gieo trồng, loại dược phẩm họ sử dụng, và — tích lũy — cách họ thực sự và thực tế lựa chọn cuộc sống của mình.

Bất cứ nơi nào thiết bị di động kết nối—từ Bangalore đến Boston đến Bắc Kinh đến Berlin đến Bogota—đề xuất kỹ thuật số thúc đẩy, tư vấn và đưa ra quyết định sáng suốt hơn. Mua sắm, thương mại và tiêu dùng chỉ là những ví dụ rõ ràng nhất về ảnh hưởng ngày càng tăng của chúng.

“Hệ thống gợi ý là chìa khóa thành công của các trang web Thương mại điện tử cũng như các nhà cung cấp dịch vụ lập chỉ mục khác, chẳng hạn như Alibaba, Ebay, Google, Baidu, YouTube, v.v.”, các nhà khoa học dữ liệu từ JD.com, một trong những nhà khoa học dữ liệu của Trung Quốc nhận xét. các trang web thương mại điện tử lớn nhất, trong một bài báo học thuật mô tả các công cụ đề xuất thế hệ tiếp theo. Sự vắng mặt của người giới thiệu hầu như đảm bảo

10

Chương 1

Sự vắng mặt của người giới thiệu hầu như đảm bảo sự kém hiệu quả về mặt thương mại. Các cuộc khảo sát thị trường chỉ ra rằng khách hàng và khách hàng tiềm năng trên toàn thế giới ưa thích—và hành động theo—sự lựa chọn được cá nhân hóa. Mọi người chọn sự lựa chọn. Điều này đúng cho cả thị trường mới nổi và thị trường lâu đời.

Một cuộc khảo sát nhà cung cấp năm 2019 khẳng định rằng đề xuất sản phẩm được cá nhân hóa chiếm gần 31% doanh thu trong ngành thương mại điện tử toàn cầu. Một nghiên cứu riêng của Salesforce cho thấy người mua sắm trực tuyến có khả năng thêm mặt hàng vào giỏ hàng của họ và hoàn tất giao dịch mua hàng sau khi nhấp vào bất kỳ đề xuất sản phẩm nào cao hơn 4,5 lần. Đây không phải là những con số cận biên.

Netflix nhận thấy rằng 75% nội dung mọi người xem trên dịch vụ này đến từ các đề xuất sản phẩm được cá nhân hóa của họ. (Thật vậy, dữ liệu của người giới thiệu được sử dụng để đề xuất các chương trình mới và chương trình gốc cho dịch vụ.) Nghiên cứu độc lập cho thấy rõ ràng rằng người giới thiệu chiếm khoảng một phần ba doanh thu của Amazon một cách trực tiếp và gián tiếp. Helly Hansen, cửa hàng quần áo ngoài trời ở Na Uy, đã kết hợp công cụ giới thiệu của mình với dự báo thời tiết, chẳng hạn như gợi ý về áo mưa khi thời tiết chuyển xấu ở Đức. Các tư vấn tập trung vào thời tiết của Hansen đã sớm tăng tỷ lệ chuyển đổi lên 170% đối với những người mua sắm thường xuyên trên web và tăng tỷ lệ chuyển đổi lên hơn 50% đối với những khách truy cập lần đầu.

Tác động của người giới thiệu tự báo cáo của Alibaba thậm chí còn ấn tượng hơn. Nền tảng thương mại điện tử lớn nhất Trung Quốc

KHUYẾN NGHỊ LÀ GÌ

11

tiết lộ rằng từ quý 1 năm 2015 đến quý 1 năm 2016—chỉ trong một năm—công nghệ máy học—những người giới thiệu đã tăng cường tác động của họ lên gấp ba lần tác động của họ đối với tổng doanh số bán hàng tổng khối lượng hàng hóa (GMV) của công ty. Vì GMV năm 2016 của Alibaba đã vượt quá nửa nghìn tỷ đô la, người giới thiệu của họ đã tiết lộ rằng đóng góp của hệ thống là rất lớn.

Có lẽ còn hơn cả Jeff Bezos – người đồng cấp Amazon của ông – người sáng lập Alibaba Jack Ma coi việc đổi mới khuyến nghị là trọng tâm đối với công nghệ và trải nghiệm người dùng của công ty ông. Khuyến nghị nhanh chóng phát triển từ “bổ sung” mang lại lợi nhuận thành “nguyên tắc tổ chức” cơ bản.

Các doanh nghiệp kỹ thuật số hậu hiện đại, hậu công nghiệp phụ thuộc và xây dựng dựa trên những người giới thiệu vì con người và lợi nhuận. Chính Bezos đã nhận xét trong những ngày đầu của Amazon: “Nếu tôi có 2 triệu khách hàng trên Web thì tôi phải có 2 triệu cửa hàng trên Web”. Hệ thống gợi ý giúp “cá nhân hóa hàng loạt” trở nên khả thi về mặt kỹ thuật và kinh tế.

Nền tảng thương mại điện tử lớn nhất Trung Quốc Họ tùy chỉnh ngay cả khi mở rộng quy mô.

Tuy nhiên, hiệu quả thương mại không nên che khuất tầm nhìn sâu sắc hơn về cá nhân, xã hội và toàn cầu: những người đề xuất thuật toán đại diện cho một điều bình thường mới. Mọi người trên khắp thế giới đang được đào tạo một cách hiệu quả để mong đợi và tôn trọng những đề xuất được cá nhân hóa. Giờ đây, họ đảm nhận việc bán kèm, bán thêm và khám phá tình cờ dựa trên dữ liệu.

Đề xuất theo thời gian thực không phải là sự gián đoạn cơ hội không thường xuyên trên thiết bị của một người mà là sự hiện diện phổ biến hàng ngày. Xen kẽ giữa tiện ích hữu ích

Hệ thống gợi ý

làm cho việc cá nhân hóa hàng loạt trở nên khả thi về mặt kỹ thuật và kinh tế.

KHUYẾN NGHỊ LÀ GÌ

33

Giống như tìm kiếm, thách thức không chỉ dừng lại ở việc mang lại kết quả xuất sắc; nó đòi hỏi phải mang lại kết quả xuất sắc trong một phần nghìn giây. Do đó, độ phức tạp và độ trễ là kẻ thù không đội trời chung của hệ thống đề xuất. Tốc độ (và quá trình tiền xử lý thông minh) trở nên cần thiết. Những đổi mới về kiến ​​trúc máy tính—ở cấp độ thiết bị và mạng—cùng với những cải tiến liên tục trong học máy, mang lại những phương pháp thực hành tốt nhất hiện nay cho các giải pháp mở rộng quy mô.

Việc thực hiện “các chu kỳ đạo đức” một cách nghiêm túc sẽ đưa ra một nguyên tắc tổ chức để thoát khỏi những hạn chế đó. Xây dựng niềm tin của người giới thiệu giúp giảm bớt những lo ngại về quyền riêng tư; cải thiện quyền riêng tư có thể cải thiện các vấn đề thưa thớt; khả năng mở rộng nâng cao cải thiện các đề xuất theo thời gian thực nhằm củng cố niềm tin; nhiều khuyến nghị hơn làm giảm sự thưa thớt.

Với sự đổi mới liên tục trong học máy, trí tuệ nhân tạo, cảm biến, thực tế tăng cường, công nghệ thần kinh và các phương tiện kỹ thuật số khác, phạm vi tiếp cận của đề xuất trở nên phổ biến, mạnh mẽ và quan trọng hơn. Tương lai khuyến nghị hứa hẹn sẽ không chỉ mang tính cá nhân hơn, phù hợp hơn và có thông tin tốt hơn mà còn mang tính biến đổi theo những cách đảm bảo gây ngạc nhiên (thuyết phục).

2

VỀ NGUỒN GỐC CỦA

SỰ GIỚI THIỆU

Chương này đưa ra một cái nhìn tổng quan sâu rộng về nguồn gốc con người đặc biệt của khuyến nghị với dàn nhân vật đáng chú ý. Ở đây không thiếu thiên tài, trí tưởng tượng hay sự lập dị. Thông tin chi tiết mang tính lịch sử quan trọng: mọi người trên khắp thế giới—các vị vua cũng như thường dân—tìm kiếm các công cụ, kỹ thuật và công nghệ mới trong hành trình tìm kiếm lời khuyên hữu ích của cá nhân họ.

Chắc chắn là họ không muốn được bảo phải làm gì; họ đang hỏi họ nên làm gì tiếp theo. Họ muốn được giúp đỡ; họ cần được hướng dẫn. Họ khao khát sự sáng suốt và tầm nhìn xa. Lịch sử của lời khuyên là lịch sử của cách mọi người theo đuổi và tiếp nhận lời khuyên. Điều gì làm cho lời khuyên đó trở nên tốt và đáng mong đợi? Câu trả lời cho câu hỏi đó mô tả cốt truyện của chương này.

Bối cảnh lịch sử của khuyến nghị là cần thiết để hiểu được động lực hình thành nhiều tương lai của nó.

LỊCH SỬ TÓM LƯỢC CỦA CÁC THIẾT BỊ KHUYẾN CÁO

107

nhanh hơn bao giờ hết. Phản hồi trước đây phải mất nhiều ngày để tổng hợp giờ đây được triển khai trong vài phút.

Theo bài đăng của Verge, hơn 70% thời gian xem trên trang web hiện được điều khiển bởi các đề xuất thuật toán của YouTube. Tổng thời gian mọi người dành để xem video trên trang chủ YouTube đã tăng gấp 20 lần so với ba năm trước. Brain đã thay đổi hoàn toàn mô hình và cách thực hành “khám phá và khai thác” của YouTube.

Casey Newton, tác giả bài đăng Brain/YouTube, kết luận: “Tôi đã truy cập YouTube để tìm kiếm câu trả lời cho câu hỏi của mình và nó đã tiết lộ một vũ trụ” thông qua đề xuất do Não bộ điều khiển.

Những cảm giác khám phá và khám phá bản thân đó thật đáng chú ý. Nhưng chúng chính xác là thứ mà các công cụ đề xuất ngày càng được thiết kế lại để gợi lên. Điều làm cho tổng quan lịch sử ngắn gọn này trở nên nổi bật không phải là khuyến nghị và công nghệ của nó đã tiến xa hay nhanh như thế nào mà là những thành công của chúng ngày càng gợi nhớ đến những huyền thoại và bí ẩn trong quá khứ.

Khi điều này đang được viết, không có nhà khoa học máy tính, nhà tâm lý học nhận thức, nhà sinh lý học thần kinh hay chuyên gia máy học nào nắm bắt chính xác cách thức hoạt động của các thuật toán học sâu loại Google Brain này. Các quy trình cơ bản giải thích cách đề xuất mới lạ này hoặc đề xuất tình cờ đó xuất hiện từ các nhóm học sâu

108

Chương 3

Các quy trình cơ bản giải thích làm thế nào đề xuất mới lạ này hoặc đề xuất ngẫu nhiên đó xuất hiện từ các nhóm học sâu vẫn chưa rõ ràng. Trong một sự trớ trêu siêu việt mà những người theo chủ nghĩa Khắc kỷ và những người Babylon cổ đại chắc chắn có thể đánh giá cao, những người giới thiệu giỏi nhất trên thế giới ngày nay gần như có thể được mô tả là những hành vi bói toán kỹ thuật số. Hiểu được cơ chế ma trận của các công cụ đề xuất dựa trên học sâu đã trở thành một thách thức ngày càng tương đương với việc hiểu những bí ẩn sâu sắc nhất của bộ não và tâm trí con người.

4

CÁCH LÀM VIỆC CỦA NGƯỜI GIỚI THIỆU

Một người hoài nghi, Oscar Wilde nhận xét một cách đầy hoài nghi, biết giá của mọi thứ và giá trị của chẳng có gì cả. Ngược lại, các công cụ đề xuất là những công cụ tính toán lạc quan: chúng không chỉ biết giá của mọi thứ mà còn dự đoán giá trị của nó cho bạn. Các công cụ thành công được thiết kế kỹ thuật số để hiểu bạn hơn. Chúng được xây dựng để tìm hiểu những gì bạn có thể thích nhất.

Chính thức hơn, những người giới thiệu ước tính một “chức năng tiện ích” dự đoán, xếp hạng và trình bày các sở thích hàng đầu của bạn một cách tự động và toán học. Chương này giải thích ngắn gọn cách thức và lý do điều đó có hiệu quả.

Về cơ bản, người giới thiệu tính toán các mối quan hệ—mối quan hệ giữa mọi người, giá cả, giao dịch mua, sở thích, tính cách, mặt hàng, hình ảnh, nghệ sĩ, tính năng, đặc điểm, siêu dữ liệu, giai điệu, thứ hạng, xếp hạng, tài năng, lần nhấp, vuốt, chạm, thẻ, văn bản, vị trí, khoảnh khắc

110

ChapTeR 4

những khoảnh khắc, những thời điểm trong ngày—điều đó có thể cung cấp thông tin và cải thiện sự lựa chọn của con người tốt hơn. Những mối quan hệ này nắm bắt và tính toán các mô hình, đặc điểm và điểm tương đồng thiết yếu để mô tả và bối cảnh hóa sự lựa chọn. Người giới thiệu chỉ thành công khi người dùng nhận được những lựa chọn mong muốn và có thể thực hiện được; chúng sẽ thất bại nếu người dùng không quan tâm hoặc không bị ảnh hưởng bởi các tùy chọn có sẵn.

Do đó, những khuyến nghị – những lựa chọn – mà mọi người bỏ qua có thể tỏ ra có tính dự đoán giống như những gì họ theo đuổi. Mọi lựa chọn mà người ta đưa ra—hoặc từ chối—đều trở thành dữ liệu hữu ích và có thể sử dụng được. Lựa chọn của người dùng đào tạo hiệu quả các lựa chọn của người giới thiệu. Các nhà đề xuất đủ loại từ khắp nơi trên thế giới—Alibaba, Amazon, Booking.com, Facebook, Quora, LinkedIn, Instagram, Netflix, YouTube, Pinterest, Spotify, TikTok, StitchFix—tích cực theo dõi và học hỏi từ các lựa chọn của người dùng. Phần mềm và hệ thống của họ được dành riêng để tạo ra những suy luận và hiểu biết sâu sắc nhằm học cách dự đoán những gì bạn có thể muốn tiếp theo vào thời điểm đó, trong bối cảnh đó. . . và có thể hơn thế nữa.

Về mặt đó, các công cụ đề xuất là hình ảnh thu nhỏ và mở rộng quá trình phát triển đang diễn ra của máy học. Bất kỳ tập dữ liệu, thuật toán hoặc dòng mã nào giúp hệ thống học cách đưa ra, xếp hạng hoặc tối ưu hóa các lựa chọn đều có thể được tích hợp vào công cụ đề xuất. Công cụ đề xuất không chỉ đề xuất; họ có thể và thực sự học cách tùy chỉnh, cá nhân hóa và ngữ cảnh hóa các đề xuất. Họ phát triển về mức độ liên quan. Học máy, với sự đa dạng thuật toán rộng lớn của nó,

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

111

đã trở thành con đường chính để cá nhân hóa và đề xuất thông minh hơn. Để hiểu được tương lai của công cụ đề xuất hiện nay đòi hỏi phải hiểu được tương lai của học máy.

Dữ liệu là chìa khóa. Dữ liệu tốt hơn—về bạn và dành cho bạn—có thể đưa ra các đề xuất tốt hơn. Liệu dữ liệu đó có rời rạc và mang tính phân loại hay không—các giá trị cụ thể không có thang đo kèm theo; có không; vắng mặt; đỏ/xanh dương/xanh lục—hoặc liên tục, với thang đo số tự nhiên—nhiệt độ, thời gian, chiều cao, cân nặng hoặc chi phí. Các loại dữ liệu khác nhau và đa dạng cung cấp và thúc đẩy các nhóm thuật toán phân loại, phân cụm, xếp hạng và dự đoán các mối quan hệ của người đề xuất. Những tập hợp này xác định và xác định những điểm tương đồng và bất ngờ có liên quan đến ngữ cảnh để xếp hạng và đưa ra các đề xuất hấp dẫn.

Ba nguồn dữ liệu cốt lõi thúc đẩy thiết kế đề xuất: người dùng, vật phẩm và sự tương tác giữa chúng. Tất nhiên, người dùng là những người đang tìm kiếm video để xem, nhạc để nghe, truyện để đọc, đồ ăn để ăn, bạn bè để gặp gỡ, biểu tượng cảm xúc để nhắn tin, lời khuyên để theo dõi cũng như các sản phẩm và dịch vụ để mua. Các đề xuất được xếp hạng, xếp hạng và tối ưu hóa cho chúng. Dữ liệu người dùng là tất cả về hồ sơ, sở thích và cá nhân hóa. Các tính năng, đặc điểm và lựa chọn của người dùng phải được nắm bắt, sắp xếp và định lượng.

Các mục là những đồ vật, chủ đề và trải nghiệm cụ thể—video, bài hát, câu chuyện, sách, du lịch, ăn uống, công việc, hình ảnh, quần áo—mà người giới thiệu đề xuất.

112

ChapTeR 4

Dữ liệu mặt hàng mô tả chất lượng, tính năng và thuộc tính làm cho các mặt hàng đó trở nên đặc biệt hoặc được ưa chuộng; ví dụ như phim hành động và/hoặc truyện tranh hoặc phim hài lãng mạn; những bài hát buồn, tăng tiết tấu hoặc hit; khách sạn sang trọng, kinh doanh và / hoặc trung tâm thành phố. Làm thế nào các mục có thể được phân loại, phân loại, dán nhãn hoặc gắn thẻ để nâng cao đề xuất đáng tin cậy? Đó là cách các vật phẩm có thể trở nên nhiều hơn tổng—hoặc sản phẩm— của các phần tử riêng lẻ của chúng.

Tương tác xảy ra bất cứ khi nào người dùng gặp mặt hàng. Giá trị được cảm nhận—hoặc tiện ích—của những tương tác đó xác định những gì được đề xuất và tại sao. Có trận đấu không? Có một cú nhấp chuột, một cú vuốt, một giao dịch mua hàng không? Tương tác thường được mô tả là rõ ràng hoặc tiềm ẩn. Tương tác rõ ràng phản ánh quyết định có chủ ý của người dùng để xếp hạng, xếp hạng hoặc đánh giá các mục. Ví dụ: các lượt thích “thích” của Facebook cũng như các ngôi sao và bài đánh giá của Amazon, báo hiệu rõ ràng về tiện ích được nhận thấy. Người dùng tuyên bố rõ ràng sở thích hoặc mối quan hệ.

Ngược lại, các tương tác ngầm sẽ nắm bắt được hành vi của người dùng. Như trường hợp của YouTube minh họa, việc theo dõi số lần nhấp qua về mặt kỹ thuật rất đơn giản, cũng như đo lường thời gian dành cho video được xem. Các tương tác trên màn hình—vuốt, chạm, vuốt và/hoặc thời gian dừng—có thể được ghi lại để rút ra những suy luận dựa trên dữ liệu có ý nghĩa về sở thích của người dùng, tức là mọi người “thích” video mà họ xem trong thời gian dài hơn. Sự dễ dàng tương đối của việc điều chỉnh các hành vi tiềm ẩn bằng kỹ thuật số giải thích tại sao các nhà khoa học dữ liệu trên toàn thế giới đã xem xét chúng

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

113

có giá trị cho đề xuất hơn là xếp hạng rõ ràng. Nói theo thống kê, hành động (liên) có ý nghĩa hơn xếp hạng.

Một số “ngụ ý” ban đầu có thể gây hiểu lầm; ví dụ: họ có thể đưa vào danh sách các bài hát mà bạn không thực sự nghe. Tuy nhiên, theo thời gian và sự đào tạo, các công cụ đề xuất sẽ tìm hiểu những hành vi nào có thể dự đoán được sở thích cá nhân. Càng ngày, những người giới thiệu càng được thiết kế và xây dựng một cách rõ ràng với tính chất ẩn ý.

Việc đối chiếu các tính năng, thành phần và thuộc tính của người dùng, vật phẩm và hoạt động tương tác sẽ tạo ra các tập dữ liệu để đề xuất. Netflix càng có nhiều dữ liệu—và siêu dữ liệu—về video, người xem và lượt xem; Amazon yêu cầu càng nhiều chi tiết về khách hàng và sản phẩm của mình; Facebook càng tạo điều kiện thuận lợi cho sự tương tác và tương tác nhiều hơn giữa các gia đình, “bạn bè” và “người theo dõi” thì các đề xuất của họ càng chính xác và thuyết phục hơn. Không có sự hoài nghi kiểu Wildean ở đây: các công cụ đề xuất thành công ưu tiên việc cá nhân hóa hơn là giá cả. Họ nhận được giá trị lớn hơn từ người dùng bằng cách tìm hiểu những gì người dùng đánh giá cao.

Các thuật toán chuyển đổi dữ liệu thành các đề xuất có liên quan bằng cách tìm kiếm, tính toán và xếp hạng các mối tương quan và sự kiện xảy ra thú vị nhất đối với người dùng. Các thuật toán đề xuất thường chạy hai phép tính thiết yếu trên mối quan hệ tương tác giữa người dùng và mục: dự đoán và lựa chọn; tức là dự đoán xếp hạng và lựa chọn mục.

Các thuật toán chuyển đổi dữ liệu thành các đề xuất có liên quan bằng cách tìm kiếm, tính toán và xếp hạng các mối tương quan và sự kiện xảy ra thú vị nhất đối với người dùng.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

115

Dự đoán xếp hạng sẽ ấn định điểm (xếp hạng) cho các mục tiềm năng phản ánh sở thích đã biết của người dùng. Ngược lại, việc lựa chọn mặt hàng kết hợp xếp hạng với các tiêu chí dựa trên dữ liệu khác để sắp xếp và/hoặc xếp hạng các đề xuất về mặt hàng. Ví dụ: bối cảnh—thời gian trong ngày hoặc địa điểm—có thể ảnh hưởng mạnh mẽ đến việc đề xuất mục nào; một nhà hàng gần đó để ăn trưa hoặc mua sắm.

Càng sử dụng nhiều công cụ đề xuất thì chúng càng kết hợp, hợp nhất và kết hợp các kết quả thuật toán lựa chọn và dự đoán càng đáng tin cậy. Bản thân các khuyến nghị được đưa ra sẽ trở thành nguồn dữ liệu. Những động cơ thành công nhất thúc đẩy chu trình học tập có đạo đức. Họ cung cấp năng lượng cho chính mình bằng chính dữ liệu mà họ giúp tạo ra.

Mỗi phần dữ liệu rõ ràng và/hoặc ẩn được thu thập và xử lý để dự đoán và lựa chọn đều được định lượng. Như Christian Rudder, người đồng sáng lập trang web giới thiệu hẹn hò tiên phong OKCupid, đã lưu ý trong Dataclysm của mình:

Các thuật toán không hoạt động tốt với những thứ không phải là số nên khi bạn muốn máy tính hiểu một ý tưởng, bạn phải chuyển đổi nó thành chữ số càng nhiều càng tốt. Do đó, thách thức mà các trang web và ứng dụng [và người đề xuất] phải đối mặt là chia nhỏ và dồn trải nghiệm liên tục của con người vào các nhóm nhỏ 1, 2, 3 mà không ai nhận ra: để phân chia một số quy trình rộng lớn, không thể diễn tả được—cho Facebook, tình bạn, cho Reddit, cộng đồng, cho các trang web hẹn hò,

116

ChapTeR 4

tình yêu—thành từng mảnh mà máy chủ có thể xử lý. Đồng thời, bạn phải giữ lại càng nhiều trải nghiệm je ne sais quois càng tốt để người dùng tin rằng những gì bạn đang cung cấp đại diện cho cuộc sống thực.

Việc tìm kiếm sự cân bằng đó đòi hỏi phải định lượng và định lượng con người một cách nhân bản. Việc yêu cầu mọi người đánh giá phim một cách rõ ràng hoặc ngấm ngầm theo dõi thời gian người dùng đọc các bài đánh giá trực tuyến mang lại những con số khó khăn. Tuổi, giới tính, địa điểm, thời gian trong ngày và cỡ giày cũng rất dễ định lượng. Định lượng sở thích của người dùng hiện tại cho phép suy luận tính toán và hiểu rõ hơn về sở thích của người dùng trong tương lai.

Nói chung, các thuật toán đề xuất sẽ phân loại hoặc chạy hồi quy trên dữ liệu được định lượng. Các thuật toán phân loại dự đoán một điểm dữ liệu thuộc về loại hoặc danh mục nào— ví dụ: nam/nữ; sang trọng, kinh doanh, gia đình; rẻ, vừa phải, đắt tiền; màu sắc, tâm lý khách hàng.

Ngược lại, các thuật toán hồi quy sử dụng dữ liệu để dự đoán kết quả liên tục thay vì sắp xếp thành các danh mục riêng biệt. Nghĩa là, câu trả lời là những đại lượng bằng số như “xu hướng mua” hay “số phút”, không phân bổ vào các nhóm cụ thể.

Vì vậy, khi phân loại được sử dụng để xác định liệu ngày mai trời có mưa hay không, phương pháp hồi quy sẽ dự đoán lượng mưa có thể xảy ra. Trong ngữ cảnh của công cụ đề xuất, trình phân loại sẽ xác định những bài hát bạn có thể phát và hồi quy sẽ dự đoán bạn sẽ phát trong bao lâu.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

117

có thể chơi chúng. Phân loại + hồi quy = cá nhân hóa dự đoán.

So sánh sự giống nhau

Khả năng dự đoán cá nhân hóa nhạy bén đó tạo nên bí mật của khuyến nghị về 'sự tương đồng'. Dù được định nghĩa rộng hay hẹp, những điểm tương đồng đều khám phá, khai thác và giải thích động lực dựa trên dữ liệu của đề xuất và đề xuất “những người như bạn” và “những người đã mua ‘cái này’ cũng đã mua ‘cái kia’”. Các mẫu dữ liệu có vẻ mơ hồ lại trở nên có liên quan một cách thuyết phục. Những yếu tố chung nào – những tính năng nào – mà các mặt hàng mong muốn sở hữu? Những khía cạnh và thuộc tính nào của người dùng ngụ ý thị hiếu và sở thích có thể so sánh được? Những cụm và lớp tương tự nào có khả năng quan trọng nhất? Các thuật toán—riêng lẻ và tập thể (được gọi là “tập hợp”)—tính toán các câu trả lời đó.

Trớ trêu thay nhưng quan trọng là những điểm tương đồng có thể được cắt lát, cắt nhỏ và xác định bằng kỹ thuật số theo các chiều hoàn toàn khác nhau. “Những điểm tương đồng khác nhau” có thể bao gồm từ những điểm gần như giống hệt nhau—một màu sắc (hơi) khác nhau của đôi giày bằng cách nào đó khiến nó nổi bật về mặt hình ảnh—đến những điểm tương đồng xiên xẹo nhưng sâu sắc thu hút sự chú ý—ví dụ: một diễn viên có nhân vật kỳ quặc nhưng lôi cuốn, người luôn khiến một bộ phim trở nên đáng nhớ. , hoặc nhà sản xuất âm nhạc có âm thanh táo bạo tạo ra sự lây nhiễm của sâu tai.

118

ChapTeR 4

Ví dụ: các công cụ đề xuất hẹn hò có những cách tiếp cận khác nhau đáng kể đối với sự giống nhau. Tinder và eHarmony mang đến những quan điểm tối ưu hóa hoàn toàn không tương thích với đề xuất mai mối. “Độ hấp dẫn” của một cuộc hẹn hò hoặc hẹn hò có thể được tính toán rất khác so với các mối quan hệ đã cam kết “cùng nhau già đi”.

Việc định lượng những điểm tương đồng kỳ quặc giúp có thể đưa ra đề xuất mang tính cá nhân hóa và mang tính khiêu khích hơn bao giờ hết. Điều đó nói lên rằng, mặc dù việc cải thiện khả năng dự đoán là tuyệt vời nhưng bản thân khả năng dự đoán thì không. Bất ngờ có ý nghĩa rất lớn. Thực sự, sự đa dạng của sự tương đồng là gia vị của cuộc sống giới thiệu. Sự giống nhau về mặt toán học—và sự giống nhau về mặt toán học—cho phép các công cụ đề xuất thoát khỏi bẫy có thể dự đoán được. Với dữ liệu kịp thời và đa dạng, người giới thiệu học cách phân biệt giữa thay đổi tinh tế và thay đổi đáng kể.

Nghịch lý thiên tài về sự giống nhau là lời hứa toán học về sự ngạc nhiên có thể dự đoán được, còn được gọi là “sự tình cờ”. Đó là cách những người giới thiệu lập trình thành công danh sách nhạc giúp tiếp thêm năng lượng cho ngày của bạn, gợi ý các nhà hàng khám phá các món ăn mới và giới thiệu bạn với những người bạn mà bạn chưa gặp. Họ tận dụng một cách tính toán những hiểu biết sâu sắc cần thiết rằng, “về cốt lõi, các hệ thống đề xuất không là gì khác ngoài những công cụ săn lùng sự tương đồng”. Khả năng gây bất ngờ đã được tính toán—một giải pháp kịp thời và phù hợp với bối cảnh

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

119

”Khả năng gây bất ngờ đã được tính toán — chắc chắn là một sự ngạc nhiên kịp thời và phù hợp với bối cảnh — cũng biến họ thành “những thợ săn tình cờ”. Nếu các công cụ đề xuất không liên tục khiến người dùng cảm thấy may mắn thì có điều gì đó không ổn. Các thuật toán đề xuất thành công sẽ điều hướng một cách khéo léo giữa tính liên tục và tính mới.

“Khu vực săn lùng điểm tương đồng” của khuyến nghị thực sự trông như thế nào? “Đây là sự thật phũ phàng, lạnh lùng,” những người tiên phong về khuyến nghị Joseph Konstan và John Riedl tuyên bố. “Bạn là một dãy số rất dài trong một bảng rất lớn. Hàng này mô tả mọi thứ bạn đã xem, mọi thứ bạn đã nhấp vào và mọi thứ bạn đã mua trên trang web; phần còn lại của bảng đại diện cho hàng triệu người mua sắm khác trên Amazon. Hàng của bạn thay đổi mỗi khi bạn vào trang web và nó lại thay đổi theo mọi hành động bạn thực hiện khi ở đó. Thông tin đó lần lượt ảnh hưởng đến những gì bạn nhìn thấy trên mỗi trang bạn truy cập cũng như những email và ưu đãi đặc biệt mà bạn nhận được từ công ty.”

Đừng giới hạn những sự thật phũ phàng đó đối với Amazon; họ xác định và mô tả các kiến ​​trúc gợi ý trên toàn thế giới. Các hàng dài và các cột khổng lồ không chỉ là những cấu trúc dữ liệu khổng lồ; chúng là những nền tảng đa chiều để tùy chỉnh hàng loạt những điểm tương đồng có ý nghĩa. Họ làm nó như thế nào?

Ba chủ đề thiết kế bao quát chiếm ưu thế: các hệ thống dựa trên nội dung dựa trên các thuộc tính và

120

ChapTeR 4

đặc điểm của mặt hàng; hệ thống lọc cộng tác đề xuất các mục dựa trên các thước đo tương tự được tính toán giữa những người dùng; và các hệ thống kết hợp tập hợp các khía cạnh và yếu tố tốt nhất của nội dung cũng như hệ thống lọc cộng tác để đưa ra các đề xuất vượt trội hơn so với từng hệ thống riêng lẻ. Toán học cơ bản của họ nhanh chóng trở nên phức tạp nhưng trước tiên hãy bắt đầu với các phương pháp đề xuất đơn giản nhất.

Phổ biến nhất

Mức độ phổ biến là câu chuyện thành công đơn giản nhất của khuyến nghị. Trưng bày những mặt hàng phổ biến nhất theo một số chiều đặc biệt: những bộ phim, tin tức, điểm đến hoặc quần áo phổ biến nhất. Mặt hàng nào đang được ưa chuộng nhất hiện nay? Giới thiệu những sản phẩm bán chạy nhất trong tuần. Hiển thị những câu chuyện được đọc nhiều nhất/được chia sẻ nhiều nhất/được tweet nhiều nhất. Điều gì phổ biến nhất đối với nam giới? Phụ nữ? Sự phổ biến là sự tương đồng siêu việt. Nhật ký hệ thống và giao dịch bán hàng cung cấp dữ liệu cần thiết; không cần toán học phức tạp. Nhưng tại sao không biến nó thành đề xuất cửa ngõ cho việc cá nhân hóa và hồ sơ trở nên phổ biến? Theo dõi những mặt hàng nào giành được nhiều lượt vuốt và đăng ký nhất. Giám sát người dùng, vật phẩm và tương tác. Mức độ phổ biến là cách giới thiệu phổ biến nhất; đó là cách dễ dàng và phổ biến nhất để giải quyết vấn đề về người giới thiệu “khởi đầu nguội”.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

121

Quy tắc hiệp hội và mô hình giỏ thị trường

Các quy tắc kết hợp và phân tích “rổ thị trường” là cặp song sinh định lượng anh em; họ sử dụng các phép tính thống kê giống nhau để tìm các mặt hàng được mua cùng nhau. Họ khai thác dữ liệu giao dịch lịch sử để xác định các trường hợp xảy ra thường xuyên khó có thể xảy ra một cách tình cờ. Nói cách khác, khả năng những mặt hàng này sẽ được mua cùng nhau là bao nhiêu? Ví dụ, trở lại những năm 1990, Walmart phát hiện ra rằng những khách hàng mua búp bê Barbie có 60% khả năng cũng mua một trong ba loại thanh kẹo. Họa tiết kinh điển—nếu là ngụy tạo—“hiệp hội” có những người cha mới đồng thời mua bia và tã lót khi họ đi mua sắm. Hãy rút ra những suy luận về sự xuất hiện đồng thời của riêng bạn.

Khi khách hàng mua từng món một (ví dụ: khoản vay ngân hàng) thì đó là sự liên kết. Khi họ mua nhiều mặt hàng cùng một lúc, đó là giỏ hàng. “Phân tích liên kết” được tính toán ở cấp độ khách hàng—nói một cách đơn giản là “tài khoản của họ có gì?” “Phân tích giỏ hàng thị trường” diễn ra tại thời điểm giao dịch— “trong giỏ hàng của họ có gì?”

“Quy tắc liên kết/người giới thiệu giỏ thị trường” yêu cầu ba bước:

1.

Tính toán mối quan hệ bán/mua giữa từng mặt hàng được chào bán và mọi mặt hàng khác bằng cách sử dụng số liệu thống kê “toán kết hợp”. Tức là tính toán tất cả các trường hợp có thể xảy ra. Điều này tạo ra một bảng tính khá lớn về các lần bán hàng cùng xảy ra.

122

ChapTeR 4

2. Xác định và ưu tiên các cặp đôi có liên quan nhiều nhất đến việc thúc đẩy doanh số bán hàng và/hoặc tỷ suất lợi nhuận. Ví dụ: những khách hàng có thẻ tín dụng và thẻ ghi nợ kết hợp có thể có khả năng vay mua ô tô cao gấp ba hoặc bốn lần so với những khách hàng cho vay mua ô tô được chọn ngẫu nhiên.

3. Chơi tỷ lệ cược xác suất bằng cách cá nhân hóa các ưu đãi dành cho những khách hàng có một mặt hàng có cặp liên kết chặt chẽ nhưng không có mặt hàng kia.

Đơn giản và nhanh chóng về mặt tính toán, các công cụ đề xuất sự xuất hiện yêu cầu chuẩn bị và xử lý dữ liệu ở mức tối thiểu. Kiến thức chi tiết về khách hàng ngoài các sản phẩm hiện có là không cần thiết. (Tốt cho quyền riêng tư.) Các công ty có dịch vụ hạn chế nhận thấy các phân tích liên kết và/hoặc giỏ thị trường giúp việc cá nhân hóa có thể thực hiện được về mặt tính toán. Nhưng “nhà cung cấp báo trước”: cách tiếp cận này vốn nhấn mạnh đến doanh số bán hàng hơn là sự hài lòng của khách hàng. Các phân tích mang tính giao dịch, không tương tác. Những phân tích này tương tự như thành công của công cụ giới thiệu “mặt hàng được mua cùng nhau” của Amazon. Đó không phải là ngẫu nhiên.

Lọc nội dung, Lọc cộng tác và kết hợp

Về mặt toán học, các công cụ đề xuất này tồn tại trong ma trận. Cụ thể hơn, chúng sống trong ma trận tiện ích.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

123

Các bảng hoặc bảng tính khổng lồ mà Riedl và Konstan thảo luận ở trên là các ma trận chứa các mối quan hệ và sở thích—các mối quan hệ do dữ liệu xác định—giữa người dùng và các mục. Mỗi hàng và cột chứa dữ liệu cần thiết về các đặc điểm và thuộc tính liên quan của người dùng cũng như các mục—người dùng là các hàng; các mục là các cột.

Mỗi giao điểm giữa người dùng/mặt hàng—mỗi cặp ma trận—cho thấy mức độ ưa thích của người dùng đối với mặt hàng đó. Đối với những người đề xuất lọc cộng tác và dựa trên nội dung, ma trận tiện ích là nơi việc tìm kiếm những điểm tương đồng mang lại kết quả. Nhưng không phải mọi người dùng đều nêu hoặc tiết lộ sở thích hoặc xếp hạng về mặt hàng. Trên thực tế, hầu hết các mặt hàng sẽ không được xếp hạng chính thức. Về mặt kỹ thuật, những khoảng trống đó làm cho ma trận trở nên “thưa thớt”, tức là trống hơn là đầy - giống như một miếng pho mát Thụy Sĩ khổng lồ về mặt tính toán. Đó là vấn đề kỹ thuật và toán học cần giải quyết.

Mục tiêu và mong muốn của người giới thiệu là dự đoán một cách đáng tin cậy—điền vào—những khoảng trống trong ma trận tiện ích đó. Người đề xuất sử dụng các thủ thuật và kỹ thuật thuật toán để suy luận và áp đặt những tùy chọn còn thiếu của người dùng từ dữ liệu hiện có. Cho dù mua sắm trên Amazon, xem video Netflix say sưa hay nghe danh sách phát Spotify, toán học ma trận — thao tác toán học của những hàng dài và cột khổng lồ đó — đều tập trung vào việc cá nhân hóa những dự đoán về những gì mọi người có thể sẽ thích nhất.

Những người đề xuất lọc cộng tác và dựa trên nội dung dựa trên các loại điểm tương đồng khác nhau để đưa vào

126

ChapTeR 4

phim. Ví dụ: nếu sáu trong số những bộ phim được chọn đó là phim hành động kinh phí lớn có sự tham gia của các ngôi sao nam nổi tiếng, thì hồ sơ sở thích/sở thích và ma trận tiện ích của người dùng sẽ hoàn toàn khác với những người dùng đã xem bốn bộ phim lãng mạn kinh phí lớn, hai bộ phim nước ngoài độc lập nhỏ và một bộ phim truyền hình. Phim tài liệu đoạt giải Oscar.

Việc tìm kiếm các tính năng chính—hoặc (các) cụm tính năng— có mối tương quan tích cực với sở thích của người dùng có thể sẽ dễ dàng hơn đối với người xem trước so với người xem sau.

Làm thế nào để các khuyến nghị cụ thể được tính toán xuất hiện từ dữ liệu? Chúng đến từ việc xác định, xác định và suy ra những điểm tương đồng mong muốn. Xem xét các tính năng và thuộc tính dùng để xác định hồ sơ người dùng và mặt hàng. Bạn có hàng; bạn có các cột. Bạn có các giá trị số điền vào các hàng và cột đó.

Đơn giản nhất: tính toán mối tương quan giữa các tập dữ liệu người dùng/vật phẩm để dự đoán các đề xuất. Mối tương quan lớn hơn hàm ý sự tương đồng lớn hơn. (Lưu ý rằng “mối tương quan không hàm ý quan hệ nhân quả”. Nghĩa là, không có nỗ lực giải thích “lý do” cơ bản cho mối tương quan đó.)

Các mối tương quan được tính toán phổ biến và dễ dàng nhưng có những hạn chế và ràng buộc (cũng như tất cả các kỹ thuật thống kê như vậy). Ngoài ra, hãy coi các hàng và cột đó như các tập hợp số. Bạn sẽ nhớ lại một tập hợp trong toán học chỉ đơn giản là một tập hợp được xác định rõ ràng gồm các phần tử riêng biệt. Tập hợp các tính năng mà người dùng “thích” (hoặc có mặt) ở mức độ nào?

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

127

trong các mục mà người dùng thích) trùng lặp với tính năng của một mục—chẳng hạn như một bộ phim, một cuốn sách, một bài hát, một nhà hàng hoặc một khoản đầu tư—thực sự sở hữu?

Sự trùng lặp đó—giao điểm của các tập hợp đó—là một cách khác để mô tả về mặt toán học sự giống nhau của chúng. Nói một cách dí dỏm, các bộ càng giống nhau thì người dùng càng có nhiều khả năng thích những món đồ đó. Một số người đề xuất tính toán sự chồng chéo giữa các nhóm “hồ sơ người dùng” và các nhóm “hồ sơ mục”. Ngay cả khi số lượng và kích thước của những bộ này rất lớn, máy tính vẫn có thể tính toán và xếp hạng những điểm tương đồng của chúng một cách nhanh chóng và dễ dàng. lượt thích” (hoặc có mặt. Mục/người dùng trùng lặp càng dày đặc và phong phú thì các mục đó càng có nhiều khả năng được đề xuất.

Những hàng và cột này có thể được mô tả về mặt toán học theo những cách mạnh mẽ và hữu ích khác. Thay vì xem chúng dưới dạng tập hợp, hãy bắt đầu xem chúng dưới dạng vectơ. Hãy nhớ lại rằng vectơ là một đối tượng toán học có hướng và độ lớn. Ví dụ, gió có tốc độ (cường độ) và hướng và thường được mô hình hóa toán học bằng vectơ.

Các công cụ đề xuất sử dụng “vectơ đặc trưng”—vectơ chứa nhiều phần tử về một đối tượng hoặc vật phẩm—cho công việc của chúng. Các vectơ đặc trưng là danh sách có thứ tự các thuộc tính được định lượng tồn tại ở nhiều chiều. Nói cách khác, chúng là chuỗi không gian của dữ liệu số có liên quan đến dự đoán hoặc ưu tiên.

Việc kết hợp các vectơ đặc trưng của các vật phẩm và đối tượng với nhau sẽ tạo ra không gian đặc trưng. Đặc điểm đa chiều này

128

ChapTeR 4

không gian là nơi tìm thấy các mô hình và hình học tương tự. Các biểu diễn vectơ đặc trưng thường được sử dụng trong máy học và trong công cụ đề xuất vì chúng rất dễ dàng cho phép so sánh toán học.

Bạn còn nhớ định lý Pythagore, a+ b= c không? Một cách đơn giản để so sánh các vectơ đặc trưng của hai mục là tính khoảng cách Euclide của chúng. Các vectơ này cách nhau bao xa? Càng gần nhau thì chúng càng giống nhau. Một cách tiếp cận lượng giác thay thế hoặc bổ sung: tính góc giữa các vectơ. Góc càng nhỏ—nghĩa là góc càng gần 0—các vectơ đó càng giống nhau. (Vuông góc hoặc “trực giao” ngụ ý độ khác biệt tối đa.) Kỹ thuật này được gọi là “sự tương tự cosine”.

Vì vậy, chẳng hạn, đối với phim, người giới thiệu sẽ "vector hóa" các tính năng, thuộc tính và mô tả có trọng số, chẳng hạn như ngân sách, thể loại, giải thưởng và đánh giá. Các vectơ đặc trưng này sẽ đóng gói kỹ thuật số hồ sơ mục của phim. Hồ sơ người dùng sẽ bao gồm một vectơ đặc trưng tổng hợp các vectơ đặc trưng của các bộ phim mà người dùng thích. Ví dụ, sự kết hợp giữa khoảng cách Euclide và độ tương tự cosine có thể được sử dụng để lọc, xếp hạng và đề xuất những bộ phim đáng xem tiếp theo để xem.

Để so sánh các blog và các câu chuyện tin tức, người ta có thể luân phiên sử dụng thuật toán “túi từ” hoặc thuật ngữ tần số tài liệu nghịch đảo tần số (TF-IDF) để vector hóa chúng.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

129

túi từ” hoặc thuật ngữ tần số tài liệu nghịch đảo tần số (TF-IDF) để vector hóa nội dung của chúng. Tức là xác định các đặc điểm—từ, tên và cụm từ—để xây dựng hồ sơ tài liệu để so sánh.

Các vectơ do TF-IDF xác định đó chứa số từ của tài liệu tương ứng. (TF-IDF là thước đo thống kê nhằm đánh giá tầm quan trọng của một từ cụ thể đối với một tài liệu trong một bộ sưu tập hoặc “kho tài liệu”.). Độ tương tự cosine đo góc giữa hai vectơ được chiếu vào không gian đa chiều trong đó mỗi chiều tương ứng với một từ trong tài liệu. Điều này ghi lại hướng không gian tương đối của các tài liệu. Một lần nữa, góc giữa các vectơ càng nhỏ thì các tài liệu càng giống nhau.

Nhưng việc hiểu các chi tiết tính toán chính xác ít quan trọng hơn quan điểm khái niệm rộng hơn: các khuyến nghị xuất hiện từ những nỗ lực tính toán đổi mới nhằm xác định, xác định và dự đoán những điểm tương đồng có liên quan giữa dữ liệu. Hãy nghĩ về một đám mây rộng lớn—thậm chí cả các thiên hà—gồm các điểm dữ liệu. Khoảng cách dữ liệu được tính toán càng lớn thì độ tương tự càng ít; khoảng cách dữ liệu càng gần thì độ tương tự càng lớn. Khoảng cách là đại diện cho sự tương đồng.

Không gian tính năng, dành cho những người đề xuất dựa trên nội dung, là nơi săn tìm sự tương đồng/tình cờ vui vẻ. Công cụ đề xuất lọc cộng tác sử dụng những điểm tương đồng để theo dõi các đề xuất khác nhau. Nội dung mục hoàn toàn không quan trọng; sự tương đồng giữa những người dùng—giữa con người—là những gì được đo lường và là những gì quan trọng nhất.

Hãy nghĩ về một đám mây rộng lớn—thậm chí cả các thiên hà—gồm các điểm dữ liệu. Khoảng cách dữ liệu được tính toán càng lớn thì độ tương tự càng ít; khoảng cách dữ liệu càng gần thì độ tương tự càng cao.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

131

Do đó, những người đề xuất dựa trên người dùng nắm bắt được sự nhạy cảm của cộng đồng và khu vực lân cận: tập hợp các nhóm người đã xếp hạng các mặt hàng, phim, âm nhạc, nhà hàng hoặc buổi hẹn hò; tính toán khoảng cách toán học—những điểm tương đồng (dis)—giữa mỗi “người ghép đôi” dựa trên xếp hạng của họ; tìm những cá nhân giống/gần gũi nhất với bạn nhất; giới thiệu cho bạn những món đồ mà “những người như bạn” cũng thích. Những xếp hạng này—dữ liệu đó—có thể ẩn, rõ ràng hoặc cả hai.

Một lần nữa, những điểm tương đồng của người dùng—cũng giống như những điểm tương đồng về nội dung—có thể được tính toán. Chỉ định trọng số tương tự cho tất cả người dùng so với người dùng đang hoạt động; chọn những người dùng có độ tương đồng cao nhất với người dùng đang hoạt động—còn được gọi là “khu vực lân cận”; và sau đó tính toán các dự đoán từ sự kết hợp có trọng số của xếp hạng của những người hàng xóm đã chọn. Về mặt định lượng, khu phố toán học này chứa đầy những người như bạn.

Mặc dù tính năng lọc cộng tác dựa trên người dùng hoạt động tốt nhưng việc tạo, duy trì và cập nhật các vùng lân cận một cách đáng tin cậy có thể tốn kém về mặt tính toán. Những khu phố này nên lớn đến mức nào? Với hàng triệu—thậm chí hàng trăm triệu—người dùng, việc tính toán các vùng lân cận “có kích thước phù hợp” rất tốn kém về mặt tính toán và không hiệu quả.

Vì vậy hãy tìm những lối tắt thông minh. Thay vì phân loại thống kê qua các vùng lân cận của những người dùng tương tự, hãy tính toán tạo các vùng lân cận dựa trên vật phẩm. Tức là nhìn

132

ChapTeR 4

tìm kiếm các mặt hàng tương tự với các mặt hàng mà người dùng đã đánh giá cao và đề xuất các mặt hàng tương tự nhất. Đây là điều Amazon đã làm rất thành công trong thời gian dài. Điều này có lặp lại phương pháp đề xuất quy tắc kết hợp được mô tả trước đó không? Đúng. Công cụ đề xuất phát triển về mặt tính toán.

Lưu ý rằng tính năng lọc cộng tác dựa trên vật phẩm không dựa vào các tính năng của vật phẩm để tìm kiếm điểm tương đồng. Các mặt hàng tương tự được tìm thấy và phát hiện trong các vùng lân cận dựa trên hành vi của người dùng—ví dụ: xếp hạng, đánh giá và thời gian dừng.

Nhu cầu sử dụng nhiều dữ liệu của lọc cộng tác thường có nghĩa là các tính toán dựa trên mục thay vì dựa trên người dùng sẽ mở rộng quy mô tốt hơn và hiệu quả hơn. Nhưng mục đích tính toán thiết yếu vẫn là: dự đoán các tương tác trong tương lai dựa trên quá khứ. Làm thế nào tốt nhất để làm điều đó? Hai loại phương pháp thường được sử dụng: dựa trên bộ nhớ và dựa trên mô hình.

Các kỹ thuật dựa trên bộ nhớ chủ yếu dựa vào các biện pháp tương tự đơn giản. Hãy nhớ ma trận: nếu có một ma trận lớn với người dùng ở một bên và các mục ở bên kia với các ô chứa lượt thích hoặc xếp hạng, thì kỹ thuật dựa trên bộ nhớ sẽ sử dụng các thước đo độ tương tự trên hai vectơ (hàng hoặc cột) trong ma trận để xác định độ tương tự.

Các phương pháp bộ nhớ thường gặp các vấn đề liên quan đến ma trận “thưa thớt” lớn; số lượng—mật độ— của các tương tác giữa người dùng và mục thường quá thấp để tạo ra các cụm và vùng lân cận có chất lượng/số lượng cao.

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

133

Các phương pháp dựa trên mô hình có nhiều tham vọng về mặt tính toán hơn. Sử dụng kỹ thuật học máy và khai thác dữ liệu, họ “đoán” mức độ người dùng sẽ thích một mặt hàng mà họ chưa từng thấy trước đây. Mong muốn là đào tạo các mô hình dự đoán có khả năng học hỏi. Ví dụ: bằng cách đào tạo về vectơ mục cho người dùng cụ thể, các mô hình dự đoán xếp hạng người dùng được cá nhân hóa cho các mục mới được thêm vào sẽ trở nên khả thi. Chẳng hạn, các tương tác giữa người dùng và mục hiện tại có thể đào tạo một mô hình để dự đoán một cách đáng tin cậy, chẳng hạn như năm mục hàng đầu mà người dùng có thể thích nhất. Về mặt kỹ thuật, các phương pháp dựa trên mô hình có thể đề xuất số lượng mục lớn hơn cho số lượng người dùng lớn hơn về mặt tính toán so với các phương pháp dựa trên bộ nhớ. Điều này mang lại cho họ “phạm vi bao phủ” lớn hơn, đặc biệt là với các ma trận thưa thớt lớn.

Về cơ bản, các phương pháp dựa trên bộ nhớ luôn sử dụng tất cả dữ liệu đã biết để đưa ra dự đoán trong khi các thuật toán dựa trên mô hình sử dụng dữ liệu để học cách trở thành người dự đoán tốt hơn. Học máy mang lại sự năng động mà trí nhớ không thể làm được. Về lý thuyết và thực hành, sự khác biệt quan trọng này làm cho các phương pháp dựa trên mô hình trở thành lựa chọn tốt hơn cho tương lai của người giới thiệu.

Sự đa dạng của các phương pháp này làm nổi bật tầm quan trọng thực sự của những người giới thiệu kết hợp. Mỗi người đề xuất nội dung và lọc cộng tác đều có những thách thức và điểm mạnh riêng.

Như cuộc thi Giải thưởng Netflix đã tiết lộ, những người đề xuất kết hợp kết hợp—tập hợp—nội dung bổ sung và hệ thống lọc cộng tác đã tạo ra

134

ChapTeR 4

các công cụ đề xuất kết hợp kết hợp—tập hợp—nội dung bổ sung và hệ thống lọc cộng tác đã tạo ra các đề xuất vượt trội hơn so với chỉ một trong hai phương pháp tiếp cận. Việc trộn, kết hợp và kết hợp các thuật toán gợi ý khác nhau thường mang lại hiệu quả tốt hơn bất kỳ phương pháp đơn lẻ nào. Khám phá này đã buộc các nhà thiết kế, kiến ​​trúc sư và kỹ sư công cụ đề xuất trên toàn thế giới phải thực hiện các phương pháp tiếp cận toàn diện, tích hợp và có khả năng tương tác hơn để cá nhân hóa. Mặc dù tăng thêm độ phức tạp không thể phủ nhận, xe hybrid luôn mang lại kết quả hiệu suất cao. Các ví dụ lai bao gồm

Có trọng số Thực hiện các phương pháp khác nhau một cách riêng biệt và sau đó kết hợp các dự đoán của chúng

Kết hợp tính năng Các tính năng từ các nguồn dữ liệu của hệ thống đề xuất khác nhau được đưa vào một thuật toán đề xuất duy nhất

Tăng cường tính năng Đầu ra của một hệ thống được sử dụng làm tính năng đầu vào cho hệ thống khác; ví dụ: các tính năng được tạo bởi một phương pháp dựa trên mô hình được sử dụng làm đầu vào cho mô hình khác.

Cascading Một hệ thống gợi ý tinh chỉnh kết quả của một hệ thống khác

Cấp độ Meta Một mô hình mà một người giới thiệu đã học được sẽ được sử dụng làm đầu vào cho một người khác. Sự khác biệt so với việc tăng cường tính năng là toàn bộ mô hình trở thành đầu vào

NGƯỜI KHUYẾN NGHỊ LÀM VIỆC NHƯ THẾ NÀO

135

Hỗn hợp Kết hợp hai hoặc nhiều kỹ thuật tại Sự khác biệt so với tăng cường tính năng là toàn bộ mô hình trở thành đầu vào cùng một lúc, ví dụ: kết hợp lọc cộng tác và dựa trên nội dung

Tất nhiên, vẫn tồn tại những cách tổng hợp và kết nối các phương pháp đề xuất khác. Nhưng cái nhìn sâu sắc hơn

Dựa trên nội dung

Hệ thống gợi ý

Sự miêu tả

Dữ liệu

User

sở thích

và hương vị

trong hồ sơ cá nhân

Người dùng-

dựa trên

Mục-

dựa trên

Phân cụm

sự kết hợp

Bayesian

hồi quy

ma trận

phân tích thành thừa số

Dựa trên lai

Hỗn hợp

kết hợp

nội dung và

dựa trên CF

sự giới thiệu

Ký ức-

CF dựa trên

Người mẫu-

CF dựa trên

hợp tác

dựa trên lọc

Hình 2 Chuyển thể từ H. Mohana và M. Suriakala, “Nghiên cứu về các thuật toán khuyến nghị lọc cộng tác dựa trên bản thể học trong các ứng dụng thương mại điện tử,” Tạp chí kỹ thuật máy tính IOSR 19, không. 4 (2017): 14–19.

136

ChapTeR 4

là các công cụ đề xuất không nên được thiết kế hoặc phát triển dưới dạng nguyên khối. Ngược lại, việc tăng cường tính đa dạng của mô hình có thể quan trọng hơn việc cải thiện các mô hình riêng lẻ. (Thật vậy, nhóm đoạt giải Netflix bao gồm hơn một trăm mô hình.) Tất nhiên, Netflix cung cấp một hệ thống đề xuất kết hợp rất thành công, rất hiệu quả và luôn luôn học hỏi.

Lời nguyền của chiều không gian và cái nhìn sâu sắc về yếu tố tiềm ẩn

Một cái nhìn sâu sắc quan trọng khác từ Giải thưởng Netflix đến từ việc đối mặt với quy mô khổng lồ, sự thưa thớt và sự phức tạp đa chiều của chính các ma trận. Đơn giản là ma trận lọc cộng tác quá lớn, quá lộn xộn và quá phức tạp; cần phải suy nghĩ lại về cơ bản.

Sự thưa thớt và khả năng mở rộng đã chứng minh những thách thức lớn nhất. Hiệu suất của công cụ đề xuất cộng tác giảm đáng kể khi số lượng kích thước dữ liệu tăng lên. Cái gọi là “lời nguyền của chiều hướng”

làm suy yếu khả năng nhận được nhiều giá trị hơn từ nhiều dữ liệu hơn.

Sự đột phá về hiệu suất và khả năng dự đoán dường như phản trực giác đến từ việc giải cấu trúc ma trận mục người dùng. Ít dữ liệu hơn có thể mang lại nhiều thông tin hơn về mặt toán học. “Giảm kích thước” là chìa khóa: nhận thêm thông tin đề xuất và hiểu biết sâu sắc hơn bằng cách phân tách ma trận khổng lồ thành các ma trận nhỏ hơn về mặt tính toán. TRONG

Giới thiệu

1.

Michael Schrage, “Quốc gia khuyến nghị,” Tạp chí Công nghệ MIT, ngày 22 tháng 4 năm 2008. https://www.technologyreview.com/s/409956/recommendation -nation.

Chương 1

1. “Hệ thống đề xuất,” được sửa đổi lần cuối vào ngày 14 tháng 7 năm 2019. https://en.wikipedia .org/wiki/ recommender_system. 2. Francesco Ricci, Lior Rokach, Bracha Shapira, và Paul B. Kanto, biên tập, Sổ tay Hệ thống Người giới thiệu (Springer, 2011). 3. Anders Lindstrom “Thông minh và phù hợp,” luận văn thạc sĩ, Viện Công nghệ Hoàng gia KTH, Stockholm, 2008. 4. https://www.quora.com/What-are-some-of-the-interesting-innovative-use -các trường hợp-trong-khuyến nghị-hệ thống. 5. https://www.tubefilter.com/2019/05/07/number-hours-video-uploaded-to -youtube-per- Minute. 6. Yan Yan, Wentao Guo, Meng Zhao, Jinghe Hu và Weipeng P. Yan, “Tối ưu hóa tổng khối lượng hàng hóa thông qua Mô hình xếp hạng động DNN-MAB,” Đại học Cornell arXiv:1708.03993. 7. https://www.exastax.com/recommendation-systems/drive-revenue-with -personalized-product-recommendations.

8.

Alibaba.com.

9.

J. Ben Schafer, Joseph Konstan và John Riedl, “Hệ thống gợi ý trong

Thương mại điện tử,” EC ’99: Kỷ yếu của Hội nghị ACM lần thứ nhất về Thương mại điện tử, Denver, CO, ngày 3-5 tháng 11 năm 1999, 158–166 (New York: ACM).

10. J. Harmon, “Động lực của niềm tin của con người trong hệ thống người giới thiệu,” Kỷ yếu của Hội nghị ACM lần thứ 8 về Hệ thống người giới thiệu, 2014. https://www.researchgate.net/publication/274899847_Dynamics_of_human_trust_ in_recommender_systems. 11. Cuộc phỏng vấn cá nhân năm 2015 với người đồng sáng lập và Giám đốc điều hành Sales Predict Yaron Zakia- Or. 12. Kimiz Dalkir, “Đo lường tác động của truyền thông xã hội,” trong Kiến thức xã hội: Sử dụng truyền thông xã hội để biết những gì bạn biết, ed. John P. Girard và JoAnn L.

Girard (Hershey, PA: Tài liệu tham khảo khoa học thông tin, 2011), 35.

LƯU Ý

252

LƯU Ý

13. Jack Herlocker, Joseph A. Konstan, Loren G. Terveen và John T. Riedl, “Đánh giá các hệ thống đề xuất lọc cộng tác,” Giao dịch ACM trên Hệ thống thông tin 22, không. 1 (tháng 1 năm 2004). 14. https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data -do-we-create-every-day-the-mind-blowing-stats-everyone- Should- đọc/#61b 4820160ba. 15. https://www.forbes.com/sites/bernardmarr/2018/05/21/how-much-data -do-we-create-every-day-the-mind-blowing-stats-everyone- Should- đọc/#61b48 20160ba. 16. https://venturebeat.com/2017/09/12/kai-fu-lee-talks-ai-drive-unemploy ment-who-says-we-need-jobs. 17. http://radar.oreilly.com/2006/05/my-commencement-speech-at-sims .html. 18. http://glinden.blogspot.com/2006/05/tim-oreilly-and-defining-web-20 .html.

19.

Được trích dẫn trong https://fs.blog/2017/07/filter-bubbles.

20.

https://www.linkedin.com/pulse/taste-trust-daniel-tunkelang.

21.

https://hbr.org/2013/01/jeff-bezos-on-leading-for-the.

chương 2

1. Cicero, De Divinatione 1.2, Bói toán Hy Lạp cổ đại, xuyên. Sarah Iles Johnston (Chichester: Wiley-Blackwell, 2008), 3.

2.

Jamie Fisher, “Peter Struck’s Odyssey,” Công báo Pennsylvania, ngày 24 tháng 4,

2017.

http://thepenngazette.com/peter-strucks-odyssey.

3. Cicero, De Divinatione 5.11, được trích dẫn trong Clifford Pickover, Dreaming the Future: The Fantastic Story of Prediction (Amherst, NY: Prometheus Books, 2001), 24.

4.

Pickover, Mơ về tương lai.

5.

Cicero, bói toán 1.2

6.

Peter Struck, “Một thế giới đầy dấu hiệu: Tìm hiểu về bói toán trong chủ nghĩa khắc kỷ cổ đại,” trong Nhìn bằng đôi mắt khác: Các bài tiểu luận về Chiêm tinh và Bói toán, ed. Patrick Curry và Angela Voss (Newcastle: Cambridge Scholars Press, 2008), 3. 7. Peter Struck, Divination and Human Nature: A Cognitive History of Intuition in Classical Antiquity (Princeton: Princeton University Press, 2016), 11.

8.

Bị tấn công.

9.

Jim Test, A History of Western Chiêm tinh học (Suffolk: The Boydell Press, 1987), 11. 10. Ian Bacon, “The Other ‘A’ Word—Astrology in the Classical World.” https://astronomy.swin.edu.au/sao/guest/bacon.

LƯU Ý

253

11. Henry Morley, Jerome Cardan: Cuộc đời của Girolamo Cardano, ở Milan, Bác sĩ (London: Chapman và Hall, 1854), 119–120.

12. Walter William Rouse Ball, Một tài khoản ngắn về lịch sử toán học (London: Macmillan and Co., 1908), 222. 13. Philip J. Davis, Toán học & Ý thức chung: Một trường hợp căng thẳng sáng tạo (Natick, MA: A. K. Peters, 2006), 197. 14. Anthony Grafton, Cardano's Cosmos: The Worlds and Works of a Renaissance Astrologer (Cambridge, MA: Nhà xuất bản Đại học Harvard, 1999), 10. 15. Pierre-Simon Laplace, Tiểu luận Triết học về Xác suất, Dịch. Andrew Dale (New York: Springer Verlag, 1995), 107. 16. Richard Mussard, “Văn học Trí tuệ và Cuộc tìm kiếm Trí tuệ: Babylon và Xa hơn.” https://www.usi.edu/media/2431744/ram-mussard.pdf, 2005, 2. 17. Harold Bloom, Trí tuệ sẽ được tìm thấy ở đâu? (New York: Riverhead Books, 2004), 1, được trích dẫn trong Mussard, “Văn học khôn ngoan và cuộc tìm kiếm trí tuệ.”

18.

Aelius Theon, Prog. 1.

19.

Marshall McLuhan, Hiểu tôi: Bài giảng và phỏng vấn, ed. Stephanie McLuhan và David Staines (Cambridge, MA: MIT Press, 2003), 61. 20. Elizabeth Eisenstein, “Một số phỏng đoán về tác động của việc in ấn đối với xã hội và tư tưởng phương Tây: Báo cáo sơ bộ,” Tạp chí Lịch sử Hiện đại 40 (1968) : số 8.

21.

Eisenstein, 41.

22.

Eisenstein, 42.

23.

William Irvine, A Guide to the Good Life: The Ancient Art of Stoic Joy (New York: Oxford University Press, 2009), 226. 24. Michael Bhakskar, “In the Age of the Algorithm, Human Gatekeeper Is Back,” The Guardian, ngày 30 tháng 9 năm 2016. https://www.theguardian.com/ technology/2016/sep/30/age-of-algorithm-human-gatekeeper.

Chương 3

1. David Goldberg, David Nichols, Brian M. Oki và Douglas Terry, “Sử dụng tính năng lọc cộng tác để dệt nên tấm thảm thông tin,” Truyền thông của ACM. 35, không. 12 (1992): 61–70. 2. John Riedl và Joseph Konstan, Word of Mouse: Sức mạnh tiếp thị của việc lọc cộng tác (New York: Warner Books, 2002). 3. Paul Resnick và Hal R. Varian, “Hệ thống gợi ý,” Truyền thông của ACM 40, không. 3 (1997): 56–58.

254

LƯU Ý

4. Dietmaar Jannach và Gerhard Friedrich, “Hướng dẫn: Hệ thống gợi ý.” http://u.cs.biu.ac.il/~sarit/advai2015/recommendation-short -2017.pdf. 5. “Video phỏng vấn Brad Miller,” Coursera.org. https://www.coursera.org/giảng/collaborative-filtering/interview-with-brad-miller-AZKVP. 6. Greg Linden, “Amazon thời kỳ đầu: Những điểm tương đồng,” ngày 22 tháng 3 năm 2006. http://glinden .blogspot.com/2006/03/early-amazon-similarities.html. 7. Greg Linden, “Thời kỳ đầu của Amazon: Khuyến nghị về giỏ hàng,” ngày 25 tháng 4 năm 2006. http://glinden.blogspot.com/2006/04/early-amazon-shopping-cart .html. 8. https://www.inc.com/jessica-stillman/7-jeff-bezos-quotes-that-will-make -you-rethink-success.html.

9.

Linden “Amazon thời kỳ đầu: Khuyến nghị về giỏ hàng mua sắm 10. Olav Sorenson, “Netflix,” 2004. http://www.olavsorenson.net/wp-content/ uploads/2013/06/Netflix.pdf. 11. Jeffrey M. O'Brien, “Hiệu ứng Netflix,” Wired, ngày 1 tháng 12 năm 2012. https:// www.wired.com/2002/12/netflix-6. 12. Scott Page, “Giải thưởng Netflix.” https://mellon.org/initiatives/our-compelling -interests/excerpts/netflix-prize. 13. Eliot Van Buskirk, “Làm thế nào để giành được giải thưởng Netflix,” Wired, ngày 22 tháng 9 năm 2009. https://www.wired.com/2009/09/how-the-netflix-prize-was-won. 14. Joseph Konstan, “Giải thưởng Netflix quan trọng như thế nào đối với lĩnh vực hệ thống gợi ý?” https://www.quora.com/How-important-was-the-Netflix-Prize -for-the- recommender-Systems-area. 15. Tom Vanderbilt, “Khoa học đằng sau các thuật toán Netflix quyết định nội dung bạn sẽ xem tiếp theo,” Wired. Ngày 7 tháng 8 năm 2013. https://www.wired.com/ 2013/08/qq-netflix-algorithm.

16.

Vanderbilt.

17.

David Carr, “Mang đến cho người xem những gì họ muốn,” New York Times. Ngày 25 tháng 2 năm 2013. https://www.nytimes.com/2013/02/25/business/media/for-house -of-cards-using-big-data-to-guarantee-its-popularity.html. 18. John Ciancutti, “Netflix có thêm nội dung dựa trên tìm kiếm của bạn không?” https://www.quora.com/Netflix-product/Does-Netflix-add-content-based-on -your-searches/answer/John-Ciancutti. 19. James Davidson, Benjamin Liebald, Junning Liu, Palash Nandy và Taylor Van Nest, “Hệ thống đề xuất của YouTube,” RecSys 2010. https:// www.inf.unibz.it/~ricci/ISR/papers/p293- Davidson.pdf, 294.

20.

Davidson, Liebald, Liu, Nandy và Van Nest, 295.

LƯU Ý

255

21. Shubhi Tandon, “Cristos Goodrow của YouTube về lý do tại sao lượt xem là thước đo 'xấu',” Digital Markets Asia, ngày 23 tháng 9 năm 2015. http://www.digitalmarket.asia/ youtubes-cristos-goodrow-on-why-views -là một số liệu xấu. 22. David Gelles, “Inside Match.com,” Financial Times, ngày 29 tháng 7 năm 2011. https:// www.ft.com/content/f31cae04-b8ca-11e0-8206-00144feabdc0. 23. John Cacioppo, Stephanie Cacioppo, Gian C. Gonzaga, Elizabeth L. Ogburn và Tyler VanderWeele, “Sự hài lòng trong hôn nhân và sự chia tay khác nhau giữa các địa điểm gặp gỡ trực tuyến và ngoại tuyến,” PNAS 110, số 1. 25 (2013): 10135– 10140. 24. Steven Levy, “Google đang tự tái tạo mình như một công ty “Đầu tiên về máy học” như thế nào,” Wired, ngày 26 tháng 6 năm 2016. https://www.wired.com/2016/06 / cách-google-is-remaking-itself-as-a-machine-learning-company. 25. Casey Newton, “Cách YouTube hoàn thiện nguồn cấp dữ liệu,” The Verge, ngày 30 tháng 8 năm 2017. https://www.theverge.com/2017/8/30/16222850/youtube-google -brain-algorithm-video-recommendation -nguồn cấp dữ liệu được cá nhân hóa.

26.

Newton.

Chương 4

1. Christian Rudder, Dataclysm: Tình yêu, Giới tính, Chủng tộc và Bản sắc—Cuộc sống trực tuyến của chúng ta cho chúng ta biết điều gì về bản thân ngoại tuyến của chúng ta (New York: Random House, 2014), 19–20.

2. Amit Sharma, “Một số trường hợp sử dụng thú vị/sáng tạo trong hệ thống khuyến nghị là gì?” https://www.quora.com/What-are-some-of-the -interesting-innovative-use-cases-in-recommendation-systems. 3. Joseph Konstan và John Riedl, “Giải cấu trúc hệ thống đề xuất,” IEEE Spectrum, ngày 30 tháng 8 năm 2017. https://spectrum.ieee.org/computing/software/deconstructing-recommender-systems.

4.

Bánh lái, Dataclysm.

5.

Petros Domingos, “Một số điều hữu ích cần biết về học máy,” Truyền thông của ACM 65 (10), 2012, 79. 6. Joe Davidson, “Không, Học máy không chỉ là những thống kê được tôn vinh,” Hướng tới khoa học dữ liệu, tháng 6 Ngày 27 tháng 1 năm 2018. https://towardsdatascience.com/ no-machine-learning-is-not-just-glorified-statistics-26d3952234e3. 7. Stephen L. Scott, “Tổng quan về Thử nghiệm nội dung: Thử nghiệm tên cướp nhiều nhánh.” https://support.google.com/analytics/answer/2844870?hl=vi. 8. David Silverman, “Những cỗ máy mà chúng ta có thể tin cậy, học hỏi và cộng tác.” https://www.imperial.ac.uk/enterprise/issues/explainable-ai. 9. E. S. Vormand và A. D. Miller, “Đánh giá giá trị của tính minh bạch trong hệ thống gợi ý: Quan điểm của người dùng cuối,” Kỷ yếu của Liên minh lần thứ 5

256

LƯU Ý

Hội thảo về Giao diện và Ra quyết định của Con người đối với Hệ thống Tư vấn được đồng tổ chức với Hội nghị ACM về Hệ thống Tư vấn 2225, 61–68. http://ceur-ws.org/Vol-2225. 10. James McInerney, “Khám phá, Khai thác và Giải thích: Cá nhân hóa các Đề xuất có thể Giải thích với Kẻ cướp,” ngày 1 tháng 10 năm 2018. http://jamesmc.com/blog/2018/10/1/explore-exploit-explain. 11. Zachary Lipton, “Huyền thoại về khả năng diễn giải mô hình,” Hội thảo IMCL 2016 về khả năng diễn giải của con người trong học máy, 2016. Có sẵn tại https://arxiv.org/pdf/1606.03490.pdf.

Chương 5

1. Xavier Amatriain và Justin Basilico, “Khuyến nghị của Netflix: Ngoài 5 sao,” ngày 6 tháng 4 năm 2012. https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-1 -55838468f429. 2. Tom Vanderbilt, “Khoa học đằng sau các thuật toán Netflix quyết định nội dung bạn sẽ xem tiếp theo,” Wired. Ngày 7 tháng 8 năm 2013. https://www.wired.com/2013/08/ qq-netflix-algorithm.

3.

Amatriain và Basilico, “Khuyến nghị của Netflix”.

4.

Deborah D'Souza, “Netflix không muốn nói về việc xem say sưa,”

Ngày 18 tháng 5 năm 2019. https://www.investopedia.com/tech/netflix-obsessed-binge -watching-and-its-problem. 5. Cass Sunstein và Richard Thaler, Cú hích: Cải thiện các quyết định về sức khỏe, sự giàu có và hạnh phúc (New York: Penguin Books, 2009), 6. 6. Julian Baggini, “Lý thuyết cú hích đang lão hóa tốt như thế nào,” Financial Times, 19 tháng 4, 2019. https://www.ft.com/content/4271cfac-5a26-11e9-840c-530737425559. 7. Della Bradshaw, “Làm thế nào một cú hích nhỏ có thể dẫn đến những quyết định tốt hơn,” Financial Times, ngày 25 tháng 11 năm 2015. https://www.ft.com/content/e98e2018-70c a-11e5-ad6d-f4ed76f0900a. 8. Paolo Cremonesi, Antonio Donatacci, Franca Garzotto và Roberto Turrin, “Ra quyết định trong hệ thống gợi ý: Vai trò của mục tiêu của người dùng và nguồn lực bị giới hạn,” RecSys, 2012. https://pdfs.semanticscholar.org/33e1/ d81fd138a5d88d6522cc56a38df230b9b0bf.pdf, 6. 9. B. J. Fogg, “Mô hình hành vi cho thiết kế thuyết phục,” Kỷ yếu của Hội nghị quốc tế lần thứ tư về công nghệ thuyết phục, 2009. 10. Jordan Larson, “ Sức mạnh vô hình, có sức lôi cuốn của công nghệ thuyết phục,” Pacific Standard, ngày 14 tháng 5 năm 2014. https://psmag.com/environment/captology-fogg-invisible-manipulative-power-persuasive-technology-81301. 11. Nick Nelson, “Sức mạnh của hình ảnh,” ngày 3 tháng 5 năm 2016. https://media.netflix .com/en/company-blog/the-power-of-a-picture.

Tên tập tin:

-

Kích thước:

-

Tiêu đề:

-

Tác giả:

-

Chủ đề:

-

Từ khóa:

-

Ngày tạo:

-

Ngày sửa đổi:

-

Người tạo:

-

Phần mềm tạo PDF:

-

Phiên bản PDF:

-

Tổng số trang:

-

Kích thước trang:

-

Xem nhanh trên web:

-

Chuẩn bị trang để in…
0%