人工智能意味着我们所知的互联网搜索的终结
尽管点击次数减少、版权斗争,以及有时答案不太可靠,但人工智能可能解锁获取全世界知识的新方式
January 6, 2025

我们都知道用谷歌搜索东西是什么意思。你把几个相关的词输入搜索框,然后会得到一个蓝色的链接列表,显示最相关的搜索结果。也许顶部有一些简短的说明。也许有一些地图、体育比分或视频。但基本上,它只是以某种结构化的方式为你提供已经在互联网上存在的信息。
但这一切都有待商榷。我们正处于一个新的拐点。
自从20世纪90年代以来,搜索引擎向人们提供信息方式的最大变化正在发生。不再进行关键词搜索。不再需要浏览并点击链接。相反,我们正进入一个对话式搜索的时代。这意味着你将使用真实的问题,用自然语言表达,而不是关键词。而且,你将越来越多地遇到由生成式人工智能编写的答案,这些答案基于来自整个互联网的实时信息,并以相同的方式提供。
当然,谷歌——这家在过去 25 年里定义了搜索的公司——正试图在这件事上走在前列。2023 年 5 月,它开始测试对搜索查询的 AI 生成响应,使用其大型语言模型(LLM)来提供你可能会从专家来源或可信赖的朋友那里得到的答案。它将这些 AI 概述。谷歌 CEO Sundar Pichai 向 MIT Technology Review 描述这为“我们长期以来对搜索做的最积极的改变之一。”
AI 概述从根本上改变了谷歌可以处理的查询类型。你现在可以问它一些像“下个月我将去日本一周。我将在东京住,但想安排一些一日游。附近有什么节日活动?镰仓的冲浪情况如何?有什么好的乐队在演出?”而你将得到一个答案——不仅仅是一个指向 Reddit 的链接,而是一个带有当前结果的完整答案。
更具体地说,你可以尝试进行过去几乎不可能的搜索,并获得正确的答案。你不必能够明确地表达你在寻找什么。你可以描述你院子里鸟的样子,或者你的冰箱似乎存在的问题,或者你的汽车发出的奇怪噪音,并从以前分散在互联网上的各个来源中获得近乎人类的解释。这很神奇,一旦你开始用这种方式搜索,它就会让人上瘾。
而且不只是谷歌。OpenAI 的 ChatGPT 现在可以访问网络,因此在查找你查询的最新答案方面表现得更好。微软在 9 月份发布了为 Bing 提供的生成式搜索结果。Meta 也有自己的版本。创业公司 Perplexity 也在做同样的事情,但秉持着“快速行动,打破常规”的理念。在结果方面,有字面意义上的数万亿美元处于赌注之中,因为这些玩家正在争夺成为下一个信息检索的默认来源——下一个谷歌。
并非所有人都对这一变化感到兴奋。出版商们完全慌了神。这种转变加剧了人们对“零点击”未来的恐惧,在这种未来中,自谷歌出现之前就一直作为网络支柱的搜索推荐流量将从舞台上消失。
我去年六月看到了那个未来的景象,当时我的手机收到了来自 Perplexity 应用的推送通知。Perplexity 是一家试图重塑网络搜索的初创公司。但它除了为查询提供深度答案外,还将创建关于当天新闻的整篇文章,这些文章是由人工智能从不同来源拼凑而成的。
那一天,它向我推送了一篇关于新无人机公司的故事,来自埃里克·施密特。我认出了这个故事。 福布斯在一周前独家报道了它,但当时它被付费墙锁住了。Perplexity 的故事中的图片与 福布斯 的图片完全相同。语言和结构也非常相似。这基本上是同一个故事,但任何人都可以在互联网上免费获取。我给一位编辑过原始故事的朋友发短信,询问 福布斯 是否与这家初创公司有协议来转载其内容。但并没有这样的协议。他感到震惊和愤怒,嗯,也很困惑。他不是唯一一个。 福布斯 、 纽约时报 和康德纳斯特现在都已经向该公司发出了停止令。新闻集团正在起诉要求赔偿。
人们担心这些新的 LLM 驱动的搜索结果将对我们共享的基本现实意味着什么。这可能意味着权威答案的终结。
这正是出版商一直害怕的噩梦场景:AI 正在吞噬他们的优质内容,重新打包,并以一种几乎没有任何理由点击原始内容的方式向其受众进行推广。事实上,在 Perplexity 的“关于”页面上,它列出的选择搜索引擎的第一个理由是“跳过链接。”
但这不仅仅关乎出版商(或我自身的利益)。
人们也担心这些新的由 LLM 支持的结果将对我们共享的基本现实意味着什么。语言模型有编造东西的倾向——它们可以胡言乱语。此外,生成式 AI 可以每次对同一个问题提供全新的答案,或者根据它对人们的了解提供不同的答案。这可能意味着权威答案的终结。
但毫无疑问:这是搜索的未来。自己尝试一下,你就会看到。
当然,我们始终希望使用搜索引擎来浏览网页和发现新的有趣信息来源。但是,外链正在被边缘化。AI 能够综合各种问题的合理答案,并利用来自整个网络的真实实时数据,这提供了更好的体验。这一点尤其体现在与近年来网络搜索所变成的样子相比。如果它并没有完全崩溃(数据显示人们比以往任何时候都更频繁地使用 Google 进行搜索),那么它至少变得越来越杂乱,令人望而生畏。
谁愿意必须说搜索引擎的语言来找到你需要的东西?谁愿意在你可以直接得到答案时去浏览链接?也许:谁愿意必须学习,当你只需要知道?
最初有 Archie。它是第一个真正的互联网搜索引擎,它爬取了隐藏在远程服务器黑暗中的文件。它没有告诉你这些文件里有什么——只是文件名。它没有预览图片;它没有结果层次结构,甚至几乎没有界面。但它是一个开始。而且相当不错。
随后,蒂姆·伯纳斯-李创建了万维网,各式各样的网页便应运而生。有 Mosaic 主页、互联网电影数据库、Geocities、仓鼠舞、网页联盟,还有 Salon、eBay、CNN、联邦政府网站,以及土耳其某个人的主页。
最终,网络信息量变得太多,甚至不知道从何开始查找。我们确实需要一个更好的方法来导航,真正找到我们需要的东西。
于是,1994 年,Jerry Yang 创建了雅虎,一个网站分层目录。它很快成为数百万人的主页。嗯,它还可以。说实话,并且事后看来,我想我们都觉得它当时比实际要好得多。
但网络仍在持续增长、蔓延和扩展,每天都有更多信息上线。我们需要的不仅仅是一个按类别列出的网站列表,而是能真正查看所有内容并进行索引的东西。到 20 世纪 90 年代末,人们可以从各种搜索引擎中进行选择:AltaVista、AlltheWeb、WebCrawler 和 HotBot。它们很好——这是一个巨大的改进。至少一开始是这样。
但随着搜索引擎的兴起,人们开始尝试利用它们吸引流量的能力。宝贵、有价值的流量,这是网络发布者依靠它来销售广告,零售商用来吸引人们对他们商品的注意。有时这意味着用关键词或无意义的文本填充页面,纯粹是为了把页面推高到搜索结果中。情况变得相当糟糕。
然后出现了谷歌。很难夸大谷歌在 1998 年推出时的革命性。它不仅仅扫描内容,还查看链接到网站的来源,这有助于评估其相关性。简单来说:某事物被引用得越多,谷歌认为它越可靠,它就会出现在结果中越靠前。这一突破使谷歌在检索相关结果方面比以往任何技术都 radically 更好。它当时 太令人惊叹了 。

谷歌 CEO Sundar Pichai 将 AI 概述描述为“我们长期以来对搜索所做的最积极的改变之一。”
JENS GYARMATY/LAIF/REDUX
25年来,谷歌主导了搜索。对大多数人来说,谷歌就是搜索。(美国和欧盟目前正在就其统治程度展开多项法律调查。)
但谷歌长期以来一直在摆脱单纯提供一系列蓝色链接的做法,谷歌搜索的首席科学家 Pandu Nayak 指出。
“它不仅仅是所谓的网页结果,还有图片和视频,以及为新闻提供的特别内容。直接答案、词典答案、体育信息、带有知识图谱的答案,以及特色片段等等,”他说,列举了谷歌多年来为更直接地回答问题所采取的一系列措施。
的确:谷歌随着时间的推移不断发展,越来越成为一个答案门户。它添加了工具,让人们只需获取答案——比如比赛的实时比分、咖啡馆的营业时间,或食品药品监督管理局网站的片段——而不是被引导到一个可能包含答案的网站。
但一旦你使用过 AI 概览,你就会发现它们是 不同的 。
以特色片段为例,谷歌有时会选择某些段落并将其显示在搜索结果顶部。这些文字直接引用自原始来源。知识面板也是如此,它们是由存储在一系列公共数据库和谷歌知识图谱中的信息生成的,知识图谱是一个包含世界数十万亿事实的数据库。
虽然这些信息可能不准确,但信息来源是可以追溯的(并且可以修正)。它存在于数据库中。你可以查找它。现在不再是这样了:AI 概览每次都可以完全是新的,由语言模型的预测文本与网页索引相结合即时生成。
“我认为这是一个激动人心的时刻,我们已经显然索引了整个世界。我们基于知识图谱在上面建立了深刻的理解。我们一直在使用 LLMs 和生成式 AI 来改进我们对所有这些的理解,”皮查伊告诉 MIT Technology Review。“但现在我们能够生成并与它 组合 。”
结果感觉不像查询数据库,更像是在问一个非常聪明、知识渊博的朋友。(当然,如果朋友不知道答案,有时会编造一些东西。)
“公司的使命是组织世界的信息,”谷歌搜索负责人利兹·里德从加利福尼亚州山景城的总部告诉我。“但实际上,有一段时间我们做的是组织网页。这和真正组织世界信息或使其真正对您有用和可访问并不完全相同。”
第二个概念——可访问性——是谷歌正在利用人工智能概览真正关注的东西。在与谷歌高管交谈时,我反复听到这种观点:他们可以通过引入语言模型来更有效地处理更复杂的查询类型,并提供答案。而且他们可以用自然语言来做这件事。
在搜索超越文本查询的未来,这一点将变得更加重要。例如,谷歌镜头,它允许人们拍照或上传图片来了解更多信息,使用人工智能生成的答案来告诉您可能正在查看什么。谷歌甚至展示了查询实时视频的能力。
当它没有答案时,AI 模型仍然可以自信地抛出一个响应。对谷歌来说,这可能是一个真正的问题。对我们其他人来说,这实际上可能很危险。
“我们肯定处于一个旅程的开端,在这个旅程中,人们将能够提出并得到比过去十年更复杂的问题,”皮查伊说。
这里确实存在一些真正的风险。首先也是最重要的:大型语言模型会对你撒谎。它们会胡言乱语。它们会搞错事。当它没有答案时,AI 模型可以轻率而自信地抛出一个响应。对谷歌来说,它在过去 20 年里一直以其可靠性建立声誉,这可能是一个真正的问题。对我们其他人来说,这实际上可能很危险。
2024 年 5 月,AI 概述功能在美国全面推出。事情并不顺利。作为全球参考书桌的谷歌,告诉人们要吃石头,并在比萨上涂胶水。这些答案大多是公司所谓的对抗性查询的回应——那些设计来难倒它的查询。但即便如此。情况也不好看。公司迅速着手解决问题——例如,通过淘汰来自像 Reddit 这样的网站上的所谓用户生成内容,这些网站上的部分奇怪答案就来自那里。
然而,尽管谷歌告诉人们要吃石头的错误吸引了所有关注,但更危险的隐患可能出现在它对某些事情的认识不那么明显错误的时候。例如,在为这篇文章做研究时,我询问了谷歌《MIT Technology Review》何时在线。它友好地回答说“《MIT Technology Review》于 2022 年底推出了其在线平台。”这对我来说显然是错误的,但对于完全不了解该出版物的人来说,这个错误会立刻显现出来吗?
我遇到了几个类似的例子,无论是在谷歌还是在 OpenAI 的 ChatGPT 搜索中。那些离题不远,不至于立刻被看作是错误的东西。谷歌寄希望于通过依赖它所了解的高质量来源,随着时间的推移继续改进这些结果。
“当我们生成 AI 概览时,”奈克说,“我们会寻找来自搜索结果的佐证信息,并且搜索结果本身被设计为尽可能来自这些可靠的来源。这是我们建立的一些机制,以确保如果你只是消费 AI 概览,并且不想进一步查找……我们希望你会得到一个可靠、值得信赖的答案。”
在上述情况下,2022 年的答案似乎来自一个可靠来源——关于 MIT Technology Review 的电子邮件通讯,该通讯于 2022 年启动。但机器从根本上误解了。这就是谷歌使用人类——评审员——来评估其提供结果的准确性的原因之一。评审员不会纠正或控制单个 AI 概述;相反,它们帮助训练模型以构建更好的答案。但人类评审员也可能出错。谷歌也在努力解决这个问题。
“查看你实验的评审员可能不会注意到幻觉,因为它感觉有点自然,”奈克说。“所以你必须真正努力在评估设置上,以确保当出现幻觉时,有人能够指出并说, 那是个问题 。”
新搜索
谷歌已经向超过 10 亿人、100 多个国家推出了其 AI 概述,但它正面临具有关于搜索应该如何工作的全新想法的新兴竞争者。
搜索引擎
Google
搜索巨头已将 AI 概览添加到搜索结果中。这些概览从网络各处和 Google 的知识图谱中获取信息,并使用该公司的 Gemini 语言模型来回答搜索查询。
搜索巨头已将 AI 概览添加到搜索结果中。这些概览从网络各处和 Google 的知识图谱中获取信息,并使用该公司的 Gemini 语言模型来回答搜索查询。
它擅长什么
谷歌的 AI 概览在应对复杂查询时,能提供易于理解的摘要,并在答案旁边附上来源框。在主要选项中,其深度网页索引感觉最“互联网化”。但网页发布者担心其摘要会让人们很少点击进入原始材料。
Perplexity
Perplexity 是一个使用第三方大型
使用 OpenAI 和 Anthropic 的语言模型来回答查询。
Perplexity 是一个使用第三方大型
使用 OpenAI 和 Anthropic 的语言模型来回答查询。
Perplexity 在响应用户查询时非常擅长提供深入的探讨,其产生的答案就像关于复杂主题的小型白皮书一样。它也非常擅长总结时事。但它给出版商留下了不好的名声,出版商说它对他们的内容处理随意。
ChatGPT
虽然谷歌将 AI 带到了搜索领域,但 OpenAI 将搜索带到了 ChatGPT。模型认为可以从网络搜索中受益的查询会自动触发搜索,或者用户可以选择手动添加网络搜索选项。
虽然谷歌将 AI 带到了搜索领域,但 OpenAI 将搜索带到了 ChatGPT。模型认为可以从网络搜索中受益的查询会自动触发搜索,或者用户可以选择手动添加网络搜索选项。
由于其能够在对话中保持上下文的能力,ChatGPT 非常适合执行需要后续问题的搜索——比如通过多个搜索会话来计划假期。OpenAI 表示,用户有时会在查询研究中深入到“20 轮”。在这三者中,它向出版商链接得最不突出。
当我与皮查伊谈论这件事时,他表达了对公司即使由 LLM 生成回复也能保持准确性的乐观态度。这是因为 AI 概览基于谷歌旗舰大型语言模型 Gemini,但也借鉴了知识图谱以及它认为的网页上可信赖的来源。
“你总是处理百分比。我们所做的是以,比如,我会称之为几近九分的信任、事实性和质量来交付。我会说 99 点几近九分。我认为这就是我们运营的标准,AI 概览也是如此,”他说。“所以问题是,我们能否再次大规模做到这一点?我认为我们可以。”
另外还有一个风险,那就是人们会向谷歌问各种奇怪的事情 。如果你想了解某人的黑暗秘密,就看看他们的搜索历史。有时候人们向谷歌询问的事情极其黑暗。有时候它们是非法的。谷歌不仅要在答案可能有帮助时能够部署其 AI 概览;它还必须极其小心,不在答案可能有害时部署它们。
“如果你去问‘如何构建炸弹?’,有网络结果是可以的。这是开放的网络。你可以访问任何内容,”里德说。“但我们不需要有一个 AI 概览告诉你如何构建炸弹,对吧?我们只是认为那不值得。”
但最大的风险——或者说最大的未知数——是对于谷歌搜索下游的任何人。以出版商为例,他们几十年来一直依赖搜索查询将人们引向他们的网站。如果他们寻求的所有信息都在搜索结果中直接呈现,人们还有什么理由点击进入原始来源呢?
市场研究公司 SparkToro 的联合创始人兰德·菲什金发布了对所谓零点击搜索的研究。随着谷歌越来越多地进入答案业务, 没有点击结束的搜索比例越来越高 。他的感觉是,AI 概览将加剧这一趋势。
“如果你依赖谷歌来获取流量,而流量又推动了你的业务发展,那么你将面临长期和短期的麻烦,”他说。
别恐慌 ,这是皮查伊的信息。他认为即使在人工智能概览的时代,人们仍然会想要点击进入并深入搜索许多类型的搜索。“潜在的原则是人们来寻找信息。他们不是总想让谷歌来回答,”他说。“有时候是的,但绝大多数情况下,你把它看作是一个出发点。”
同时,里德认为,因为人工智能概览允许人们提出更复杂的问题并进一步深入他们想要的内容,它们甚至可能对某些类型的发布者和中小企业有所帮助,尤其是那些在细分市场运营的: “你实际上触达了新的受众,因为人们现在可以更具体地表达他们想要的内容,所以某个专业领域的人不必在通用查询中排名。”
“ 我要从一个有风险的事情开始,”尼克·特莱从 Zoom 窗口里告诉我。特莱是 ChatGPT 的产品负责人,他正在展示 OpenAI 即将推出的新网络搜索工具,时间还早几周。他说:“我通常应该先试试这个,但我只是要为你搜索。”他说,“做这个演示总是有风险的,因为人们往往很在意互联网上关于他们的说法。”
他把我的名字输入搜索框,原型搜索引擎返回了几句话,几乎像是一个演讲者的简介。它正确地识别了我以及我现在的职位。它甚至突出显示了我几年前写的一篇故事,那可能是我最出名的一篇。简而言之,这是正确的答案。呼?
在我们通话几周后,OpenAI 将搜索功能整合到了 ChatGPT 中,用来自网络的信息来补充其语言模型的答案。如果模型认为某个响应需要最新的信息,它将自动运行网络搜索(OpenAI 不会透露其搜索合作伙伴是谁),并将这些响应整合到答案中,如果你想要了解更多信息,还可以选择手动强制它进行网络搜索。OpenAI 不会透露有多少人在使用其网络搜索,但它表示每周有大约 2.5 亿人使用 ChatGPT,他们都有可能接触到这项功能。
OpenAI 的首席产品官 Kevin Weil
“网络上有大量的内容。实时发生了很多事情。你希望 ChatGPT 能够利用这些来改进它的答案,并成为你更好的超级助手。”
根据 Fishkin 的说法,这些新的 AI 辅助搜索形式目前还没有挑战谷歌的搜索主导地位。“它似乎并没有蚕食传统网络搜索的形式,”他说。
OpenAI 坚决表示它并不是真的在试图在搜索领域竞争——坦白说,这在我看来有点像是设定期望。相反,它表示,网络搜索主要是为了获取比其训练模型中的数据更当前的信息,而其训练模型往往有特定的截止日期,这些日期通常是几个月,甚至一年或更长时间。因此,虽然 ChatGPT 可能很擅长解释西海岸进攻的运作方式,但它长期以来一直无法告诉你最新的 49ers 比分。现在不一样了。
“我从‘如何让 ChatGPT 能够回答你所有的每一个问题?如何让它在日常使用中更有用?’的角度来考虑这个问题,”OpenAI 的首席产品官 Kevin Weil 告诉我。“网络上有大量的内容。实时发生了很多事情。你想让 ChatGPT 能够利用这些来改进它的答案,并能够成为你更好的超级助手。”
如今 ChatGPT 能够生成非常当前的新闻事件响应,以及像股票价格这样的近乎实时信息。而且虽然 ChatGPT 的界面长期以来一直,嗯,无聊,但搜索结果会带来各种各样的多媒体——图像、图表,甚至视频。这体验非常不同。
魏尔还认为,与谷歌等竞争对手相比,ChatGPT 有更多的自由去创新和走自己的路——甚至比其合作伙伴微软与必应做的还要多。这两家都是依赖广告的企业。OpenAI 不是。至少目前还不是。它从直接使用它的开发者、企业和个人那里获得收入。目前它主要是在烧大量的钱——据一些报道,预计到 2026 年将亏损 140 亿美元。但它不必担心像谷歌那样在其搜索结果中插入广告。

“一段时间里我们做的是组织网页。这并不是真正组织世界信息或使其真正对您有用和可访问,”谷歌搜索负责人利兹·里德说。
WINNI WINTERMEYER/REDUX
像谷歌一样,ChatGPT 正在从网络发布者那里获取信息,进行总结,并将其包含在答案中。但它也与发布者达成了财务协议,为提供信息支付了费用,这些费用被纳入其结果中。(《麻省理工学院技术评论》与 OpenAI、谷歌、Perplexity 等就发布者协议进行了讨论,但尚未达成任何协议。时尚大片既不是相关方,也未被告知讨论的内容。)
但问题是,为了让网络搜索实现 OpenAI 的目标——比语言模型更及时——它也必须从所有它没有达成协议的发布者和来源中获取信息。OpenAI 媒体合作伙伴负责人 Varun Shetty 告诉《麻省理工学院技术评论》,它不会给予其发布合作伙伴任何优待。
相反,OpenAI 告诉我,模型本身会为任何给定的问题找到最值得信赖和最有用的来源。而且这也可能很奇怪。在我看到的第一个例子中,当 Turley 运行那个名字搜索时,它描述了我几年前为 Wired 写的一篇关于被黑客攻击的故事。那篇文章仍然是我写过的最广泛阅读的文章之一。但 ChatGPT 没有链接到它。它链接到了来自 The Verge 的一个简短重写版本。诚然,这是在一个原型版本的搜索上进行的,正如 Turley 所说,这是“有风险的”。
当我问起这件事时,他无法真正解释 为什么 模型选择了那些来源,因为模型本身会做出这种评估。公司通过识别——有时在用户的帮助下——他们认为更好的答案来引导它,但实际选择这些答案的是模型。
“而且在很多情况下,它会出错,这就是我们需要努力改进的原因,” Turley 说。“让模型参与进来是一种非常、非常不同于过去搜索引擎工作方式的机制。”
的确!
该模型,无论是 OpenAI 的 GPT-4o、Google 的 Gemini 还是 Anthropic 的 Claude,在解释事物方面可以非常、非常好。但其解释背后的推理、选择特定来源的原因,甚至它在回答中可能使用的语言都相当神秘。当然,模型可以解释很多事情,但当涉及到它自己的回答时却不行。
这几乎是在十年前,2016 年,当时 Pichai 写下了谷歌从“移动优先”转向“AI 优先”: “但在未来十年,我们将转向一个 AI 优先的世界,一个计算无处不在的世界——无论是在家、在办公室、在车里还是在路上——与所有这些界面的交互将变得更加自然和直观,最重要的是,更加智能。”
我们现在就在这里——某种程度上。这是一个奇怪的地方。情况将变得更加奇怪。这尤其适用于我们现在认为的这些不同的事物——查询搜索引擎、提示模型、寻找我们拍摄的照片、决定我们想读或看或听什么、询问我们希望拍摄但未拍摄的照片,但仍然想看到——开始融合。
我们从生成式 AI 中看到的搜索结果最好被理解为是一个中转站,而不是一个目的地。最重要的可能不是搜索本身;而是搜索为 AI 模型开发者提供了一条将实时信息纳入其输入和输出的途径。而这打开了各种可能性。
“一个能够理解和访问网络的 ChatGPT 将不仅仅是总结结果。它可能会为你做事情。我认为那里有一个相当令人兴奋的未来,”OpenAI 的 Weil 说。“你可以想象让模型为你预订航班,或者订购 DoorDash,或者在未来为你完成一般任务。一旦模型懂得如何使用互联网,那么可能性是无限的。”
这就是我们一直听说的那种代理式未来,AI 模型越是利用来自互联网的实时数据,它就越接近这个未来。
假设你几周后要出差。一个能够实时从互联网获取数据的代理可以为你预订机票和酒店房间,预订晚餐,等等,它将根据它所了解的你和即将到来的旅行来执行这些操作——而无需你指导它。另一个代理可以,比如说,监测你家的污水输出以检测某些疾病,并作出相应的测试和治疗。你不必 搜索 你的车发出的奇怪噪音,因为你的车里的代理已经完成了这项工作并预约了修理问题。
“它不总是只是做搜索和给出答案,”皮查伊说。“有时它将是行动。有时你将在现实世界中互动。所以有一种通过所有事物的通用协助的概念。”
现在这些东西能够提供答案的方式也在迅速发展。例如,如今谷歌不仅能够搜索文本、图像,甚至视频;它还能创造它们。想象一下将这种能力与跨多种格式和设备的搜索相结合。 “向我展示我面前的树上的 Townsend’s warbler 是什么样子的。” 或者 “使用我现有的家庭照片和视频来创建我们明年去波多黎各度假的电影预告片,确保我们参观所有最好的餐厅和顶级地标。”
他说,我们主要是在输入端完成了这一点,指的是谷歌现在可以搜索图像或视频内部的方式。“但你也可以想象它在输出端也能实现。”
这就是皮查伊说他很兴奋能在线上实现的未来。谷歌已经通过 NotebookLM 展示了一些它可能的样子,这是一个工具,允许你上传大量文本并将其转换为聊天的播客。他想象这种功能——将一种类型的输入转换为各种输出——将改变我们与信息互动的方式。
在今年开发者大会上,谷歌通过名为“天琴计划”的工具展示了一个这样的成果版本,其中手机和智能眼镜中的摄像头和麦克风能够理解你周围的所有环境——线上线下、可听可视——并具有回忆和以多种方式响应的能力。例如,天琴计划可以看一张粗略的 F1 赛车手稿,不仅能识别它,还能解释其各个部分及其用途。
但你可以想象事情会进一步发展(而且会)。假设我想看一个关于如何修理我的自行车的视频。这个视频不存在,但信息是存在的。AI 辅助的生成式搜索理论上可以在网上找到这些信息——例如在一个公司网站上埋藏的用户手册中——并为我创建一个视频,精确地展示我想要做的操作,就像今天它可以向我解释一样。
当你把整个人类知识总集——那些先前被分割在语言和格式中的知识;地图、商业注册和产品 SKU;音频、视频和数字数据库、旧书和图像,以及任何曾经出版、曾经追踪、曾经记录过的事物;以及目前正在发生、无处不在的事情——引入一个模型,这个模型可能无法精确理解,但它有能力将这些信息整合起来,重新排列,并以各种不同的、希望是有用的方式呈现出来。这是普通索引无法做到的。
这就是我们正站在的边缘,并且开始看到。当谷歌向十亿人推出这项服务时,其中许多人将首次与对话式 AI 互动,这意味着什么?我们将如何不同?一切都变化得如此之快。等等,再等等。
保持连接

插图:Rose Wong
获取来自 MIT Technology Review 的最新更新
发现特别优惠、热门故事、即将举行的活动等。