【投票】选出你认为最好的AI搜索工具！（第一轮测评结果发布）

Terrasse · 2025-01-09T08:18:29.009Z

起因：
电脑上代理常开，而手机并不会常开代理，用Google之前总是需要开一下。我想着搭建一个Google镜像服务，方便手机上使用，就不用总是搜之前开梯子了。
但是我转念一想，为何不一步到位直接用AI搜索呢？AI搜索更适合移动端场景，减少人工筛选的过程。

于是简单调研一下佬友们觉得哪些AI搜索做得好，同时也算是安利给日后找到这篇帖子的人，一举两得。

Perplexity AI （不可直连）
ChatGPT Search （不可直连）
Andi Search
You.com （不可直连）
Felo
秘塔 AI 搜索
天工 AI 搜索
纳米 AI 搜索（原360AI搜索）
百小应
Gemini-Search （开源可部署）
SearXNG （开源可部署）
Farfalle （开源可部署）
Perplexica （开源可部署）
Whoogle （开源可部署）
Swirl （开源可部署）
其他（请评论区给出）

0 投票人

佬友补充的其他AI搜索：

Devv AI （不可直连）
Google Grounding （仅API）
Liner
Monica （不可直连）
morphic （开源可部署）
DeepSeek

后续我打算做一些测评，发在这个帖子里。佬友们如果想到一些有区分度的搜索问题，可以发帖我来测试。

第一批测评（2025-01-09）

详细记录见笔记

第一轮测评内容

Q1：唐朝有多少位皇帝寿命超过60岁？

本题考察数据源可靠性、考察检索大量信息并进行简单判断的能力。这道题只要检索到维基百科 - 中国皇帝寿命列表就成功了一大半。

模型	得分	评语
ChatGPT Search	10分	-
Perplexity AI	2分	问题理解错误、事实错误
秘塔AI	8分	细节错误，来源不可靠
Felo	9.5分	过于简略
Gemini-Search	1分	全是幻觉
DeepSeek	9分	疑似内部未做CoT导致第一句话有误，但最终答案正确

Q2：有界闭集是否等价于紧集？

本题考察模型对检索到的资料的数理理解和整合能力。

模型	得分	评语
ChatGPT Search	10分	-
Perplexity AI	3分	事实错误
秘塔AI	10分	-
Felo	9分	细节缺失
Gemini-Search	10分	-
DeepSeek	10分	-

Q3：收集并整理OpenAI的模型API的收费价格，包括全部的文本对话模型，汇总到一个表格里

本题考察检索整理大量信息的能力，惨不忍睹。

模型	得分	评语
ChatGPT Search	8分	6正确，8缺失，0错误
Perplexity AI	-3分	2正确，10缺失，2错误
秘塔AI	-9分	2正确，12缺失，7错误
Felo	-3.5分	2正确，9缺失，3错误
Gemini-Search	2.5分	7正确，9缺失，7错误
DeepSeek	7分	6正确，6缺失，2错误

注：Q3评分公式为分数 = 正确数*2 - 错误数 - 缺失数*0.5

第一轮测评结果

产品名称	Q1~Q3综合得分
ChatGPT Search	4.772169
DeepSeek	2.237883
Felo	1.238804
秘塔AI	0.976767
Gemini-Search	0.773112
Perplexity AI	0.001266

万万没想到最出名的Perplexity居然垫底了

综合总分计算公式

P_i = \frac{10}{m}\sum_{j=1}^{m}\frac{e^{s_{i,j}}}{\sum_{k=1}^{n}e^{s_{k,j}}}

其中：

P_i 是模型 i 的综合总分。
m 是问题的总数（此次 Q1, Q2, Q3 共3 个问题）。
n 是模型的总数（此次有 6 个模型）。
s_{i,j} 是模型 i 在第 j 个问题上的得分。
e^{s_{i,j}} / \sum_{k=1}^{n} e^{s_{k,j}} 是模型 i 在问题 j 上的 softmax 归一化分数。
将 softmax 归一化分数取平均后乘以10，使得最终分数更自然。

handsome · 2025-01-09T08:24:44.886Z

gemini search

Terrasse · 2025-01-09T08:25:19.553Z

投票里面有的，大帅哥

Theigrams · 2025-01-09T08:30:44.983Z

Devv AI

Devv - The next generation AI search engine for developers. Devv is built to solve questions that ChatGPT/Claude can't do.

Qiner · 2025-01-09T08:36:40.669Z

Google 接地 （不是列表那个项目，Gemini API 原生就支持）、Liner、Monica。

yangtb2024 · 2025-01-09T09:32:25.869Z

miurla/morphic: An AI-powered search engine with a generative UI

这个还行

linuxdo · 2025-01-09T09:40:39.034Z

360纳米搜索

inker · 2025-01-09T09:40:51.890Z

deepseek最近很喜欢用它代替搜索引擎

Twilight9 · 2025-01-09T09:51:12.827Z

DeepSeek能联网?

inker · 2025-01-09T09:51:56.435Z

可以呀，官网打开联网搜索不就可以么

Terrasse · 2025-01-09T14:37:12.216Z

Terrasse:

第一轮测评结果

产品名称 Q1~Q3综合得分 ChatGPT Search 4.772169 DeepSeek 2.237883 Felo 1.238804 秘塔AI 0.976767 Gemini-Search 0.773112 Perplexity AI 0.001266

第一轮测评已完成~~

ChatGPT稳居榜首，Perplexity爆冷垫底

话题	浏览量	活动
实时搜索哪家强？AI搜索产品大比拼！搞七捻三人工智能	1.3k	25 天
一个非常有意思的AI测试，大家可以测试一下，豆包满分。搞七捻三人工智能	1.6k	12 天
deepseek V3在lmarena的结果出来了，第7名前沿快讯人工智能	1.0k	10 天
DeepSeek在CopilotArena 最适合编程排行榜排名第一！aider排行榜第二！前沿快讯人工智能	1.3k	15 天
智谱 AI 获得 30 亿元融资，2024 年商业化收入翻倍前沿快讯	604	23 天

【投票】选出你认为最好的AI搜索工具！（第一轮测评结果发布）

【投票】选出你认为最好的AI搜索工具！（第一轮测评结果发布）

第一批测评（2025-01-09）

Q1：唐朝有多少位皇帝寿命超过60岁？

Q2：有界闭集是否等价于紧集？

Q3：收集并整理OpenAI的模型API的收费价格，包括全部的文本对话模型，汇总到一个表格里

第一轮测评结果

此话题将在最后一个回复的1 个月后关闭。

有 36 个未读话题和 194 个新话题，或浏览开发调优中的其他话题

【投票】选出你认为最好的AI搜索工具！（第一轮测评结果发布）

第一批测评（2025-01-09）

Q1：唐朝有多少位皇帝寿命超过60岁？

Q2：有界闭集是否等价于紧集？

Q3：收集并整理OpenAI的模型API的收费价格，包括全部的文本对话模型，汇总到一个表格里

第一轮测评结果

此话题将在最后一个回复的1 个月后关闭。

相关话题

有 36 个未读话题 和 194 个新话题， 或浏览开发调优中的其他话题

有 36 个未读话题和 194 个新话题，或浏览开发调优中的其他话题