这是用户在 2024-9-30 13:46 为 https://zhuanlan.zhihu.com/p/764623877 保存的双语快照页面，由沉浸式翻译提供双语支持。了解如何保存？

首发于科研之路

统计7676篇机器之心文章标题，尝试寻找三大会的独特“味道”

统计7676篇机器之心文章标题，尝试寻找三大会的独特“味道”

USTC博士生|ChatPaper作者|和AI一起进化

59 人赞同了该文章

发布于 2024-09-30 00:46・IP 属地广东，编辑于 2024-09-30 11:59・IP 属地广东

这是一个非常有趣的探索，今天晚上在一个群聊里，聊到一篇很火的三大会文章，但标题起的比较夸张（不用举例子，三大会的标题都比较类似）。大家作为领域相关的一线同学，对这种过分夸张的标题，一般会比较排斥～

但很明显，三大会这么起标题，是一个非常复杂的现象。三大会的主要受众，一般是受过一定教育的、对AI感兴趣的大多数人，以及没有时间和精力亲自follow最新论文和技术的导师和企业管理层。对于大多数人来说，三大会还是有一定的信息筛选能力，能够让大家用比较少的时间和注意力，获取的一些比较主流的AI进展。但如果不起UC震惊体的标题，浏览量可能就会下降很厉害，这里具体的关系我也没有拿到详细的统计数据，如果三大会的小编看到了，欢迎交流。

其实，现在学术届和工业界确实会把在三大会的宣传和报道，当成了一个追求目标。当它们真的占据了同行门的注意力时，你的工作能够得到他们的报道，也是一种影响力的体现。

除非我们能有一个主流且权威的论文中文翻译-总结-评价-推荐的平台，否则这种信息筛选的生态位总归是存在的。

说回来，我们为什么会“讨厌”他们的标题呢？

大家都在说他们的文章标题“味道”很重，那么这个“味道”究竟是什么？

我想找一个量化的指标，来揭秘一下这个所谓的“味道”。

第一步，我先搜集了一下机器之心的标题，从2018年到2024年，搜集了7676个文章标题（可能不全，但应该是符合整体分布）

第二步，尝试绘制词云。使用常见的wordcloud库，拿到的结果很差。

第三步，这里词云的分词规则，我并不清楚，设置的热词也不生效，所以就放弃了这个方案。进而采用jieba分词，查看词频。

这里我们发现了一个诡异的问题，我找不到GPT-4V和4o的词频，我明明在文档中搜到了九十多个4V。原来jieba分词，哪怕设定了热词，它也会将-这样的特殊符号当成切分词，所以一直会被拆散。这个方案也不够好使。

第四步，尝试使用LLM做分词。这里我们试了好几个模型，换了好几套提示词，都没有拿到特别好的结果，大模型很难把词分的特别细。

第五步，去群里，将标题文档传到群里，咨询群友。在一堆乐子人群友的帮助下，我们展开了多智能体的多样化探索。

多群友探索：

shom群友首先尝试many shot的标题生成：

2. shom继续利用128K模型做信息直接抽取：

3. 受到群友启发，我准备尝试一下 “人工”智能，我要肉眼统计一下这7676个标题，毕竟我还是有点先验的。

在我刷了一半左右的时候，我贴出了下面的答卷：

我肉眼shot的结果，大概是一些特殊词汇，刚刚！突发！颠覆！惊人！揭秘！第一！爆火！超！打脸！冷水！官宣！福利，率先，大厂、名校和名人的title

4. 几乎同时，shom跟4T-128k交互，得到了新的结果：

shom：进行 Chain of Hype 可以有效提升 Hyperative Writing 的能力

5. 这时候人工队还要辛苦八分钟，才交上了最终的答卷：

刚刚！突发！颠覆！惊人！揭秘！第一！爆火！超X！打脸！冷水！官宣！首发！福利！率先！最X！独家！仅需！媲美！加速！提升！SOTA！斩获！手把手！打破！抢先！原理！震撼！点赞！宣告！抛弃！重磅！反转！硬核！一键！远超！知名！高达！首款！优雅！狂欢！带火！发布！曝光！新型！开源！
大厂、名校和名人的title

6. 最后，小舟哥提供了一个“三大会”标题生成提示词模板：

7. 本乐子人，最终还是熬夜将这个帖子攒出来了，供大家图一乐。

总结

三大会“味道”的量化评估和精细化分析，还没有做完，等我国庆有空，细细填坑~

在朋友的提醒下，接下来要探索的方向，是将这些评论做分类统计，应该可以获得一个量化指标，如果大家有其他的想法，欢迎评论区讨论交流～

发布于 2024-09-30 00:46・IP 属地广东，编辑于 2024-09-30 11:59・IP 属地广东

理性发言，友善互动

13 条评论

默认

最新

虽然但是，还是很荣幸ProX在这里成为了test case，这里有个简单的中文介绍：SinclairWang：语言模型预训练数据工程：节省20倍计算量，实现显著性能提升！
欢迎讨论，求轻喷：）

12 小时前 · 阿联酋

好活儿，最sota的一集 [大笑]

[大笑]

11 小时前 · 北京

曝光! 掌握这些标题命名原理, 你也能登上三大会巅峰!

1 小时前 · 河北

薛定谔的数字锚

词云图怎么做的

[蹲]

2 小时前 · 北京

作者

调的一个现成的库，文中有写 [doge]

[doge]

1 小时前 · 广东

破晓的大发

捉个虫，文中用到的模型应该是gpt-4t，不是4o

2 小时前 · 山东

作者

改了改了

[机智]

1 小时前 · 广东

破晓的大发

感觉给三大会小编省事了，最后的效果都能直接拿来用了

2 小时前 · 山东

你们太有耐心了哈哈哈

12 小时前 · 北京

作者

但确实好玩，我全程都在乐 [飙泪笑]

[飙泪笑]

12 小时前 · 广东

看看三大顶号的评论区就知道，有什么样的读者，就有什么样的reward hacking结果 [飙泪笑] 衍生乐子：建议给这群顶号忠实粉丝建个画像

12 小时前 · 北京

笑死，好活

2 小时前 · 江苏

付费才能负担得起FT，甚至是Vanity fair这种一眼装腔作势的格调来卖。没钱就一肚子墨水也只能写下流文章。从来如此。

8 小时前 · 广东

文章被以下专栏收录

科研之路

RL，LLM，aigc相关的干货文章合集