起因:
电脑上代理常开,而手机并不会常开代理,用Google之前总是需要开一下。我想着搭建一个Google镜像服务,方便手机上使用,就不用总是搜之前开梯子了。
但是我转念一想,为何不一步到位直接用AI搜索呢?AI搜索更适合移动端场景,减少人工筛选的过程。
于是简单调研一下佬友们觉得哪些AI搜索做得好,同时也算是安利给日后找到这篇帖子的人,一举两得。
-
46% Perplexity AI (不可直连)
-
19% ChatGPT Search (不可直连)
-
15% Gemini-Search (开源可部署)
-
15% 秘塔 AI 搜索
-
7% Felo
-
4% You.com (不可直连)
-
3% Andi Search
-
3% SearXNG (开源可部署)
-
1% 天工 AI 搜索
-
0% Perplexica (开源可部署)
-
0% Whoogle (开源可部署)
-
0% Farfalle (开源可部署)
-
0% Swirl (开源可部署)
-
0% 纳米 AI 搜索 (原360AI搜索)
-
0% 百小应
佬友补充的其他AI搜索:
后续我打算做一些测评,发在这个帖子里。佬友们如果想到一些有区分度的搜索问题,可以发帖我来测试。
第一批测评(2025-01-09)
详细记录见笔记
第一轮测评内容
Q1:唐朝有多少位皇帝寿命超过60岁?
本题考察数据源可靠性、考察检索大量信息并进行简单判断的能力。这道题只要检索到维基百科 - 中国皇帝寿命列表就成功了一大半。
模型 | 得分 | 评语 |
---|---|---|
ChatGPT Search | 10分 | - |
Perplexity AI | 2分 | 问题理解错误、事实错误 |
秘塔AI | 8分 | 细节错误,来源不可靠 |
Felo | 9.5分 | 过于简略 |
Gemini-Search | 1分 | 全是幻觉 |
DeepSeek | 9分 | 疑似内部未做CoT导致第一句话有误,但最终答案正确 |
Q2:有界闭集是否等价于紧集?
本题考察模型对检索到的资料的数理理解和整合能力。
模型 | 得分 | 评语 |
---|---|---|
ChatGPT Search | 10分 | - |
Perplexity AI | 3分 | 事实错误 |
秘塔AI | 10分 | - |
Felo | 9分 | 细节缺失 |
Gemini-Search | 10分 | - |
DeepSeek | 10分 | - |
Q3:收集并整理OpenAI的模型API的收费价格,包括全部的文本对话模型,汇总到一个表格里
本题考察检索整理大量信息的能力,惨不忍睹。
模型 | 得分 | 评语 |
---|---|---|
ChatGPT Search | 8分 | 6正确,8缺失,0错误 |
Perplexity AI | -3分 | 2正确,10缺失,2错误 |
秘塔AI | -9分 | 2正确,12缺失,7错误 |
Felo | -3.5分 | 2正确,9缺失,3错误 |
Gemini-Search | 2.5分 | 7正确,9缺失,7错误 |
DeepSeek | 7分 | 6正确,6缺失,2错误 |
注:Q3评分公式为 分数 = 正确数*2 - 错误数 - 缺失数*0.5
第一轮测评结果
产品名称 | Q1~Q3综合得分 |
---|---|
ChatGPT Search | 4.772169 |
DeepSeek | 2.237883 |
Felo | 1.238804 |
秘塔AI | 0.976767 |
Gemini-Search | 0.773112 |
Perplexity AI | 0.001266 |
万万没想到最出名的Perplexity居然垫底了
综合总分计算公式
其中:
- P_i 是模型 i 的综合总分。
- m 是问题的总数(此次 Q1, Q2, Q3 共3 个问题)。
- n 是模型的总数(此次有 6 个模型)。
- s_{i,j} 是模型 i 在第 j 个问题上的得分。
- e^{s_{i,j}} / \sum_{k=1}^{n} e^{s_{k,j}} 是模型 i 在问题 j 上的 softmax 归一化分数。
- 将 softmax 归一化分数取平均后乘以10,使得最终分数更自然。