这是用户在 2024-9-30 13:46 为 https://zhuanlan.zhihu.com/p/764623877 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?
首发于科研之路
统计7676篇机器之心文章标题,尝试寻找三大会的独特“味道”

统计7676篇机器之心文章标题,尝试寻找三大会的独特“味道”

59 人赞同了该文章
发布于 2024-09-30 00:46・IP 属地广东 ,编辑于 2024-09-30 11:59・IP 属地广东

这是一个非常有趣的探索,今天晚上在一个群聊里,聊到一篇很火的三大会文章,但标题起的比较夸张(不用举例子,三大会的标题都比较类似)。大家作为领域相关的一线同学,对这种过分夸张的标题,一般会比较排斥~

但很明显,三大会这么起标题,是一个非常复杂的现象。三大会的主要受众,一般是受过一定教育的、对AI感兴趣的大多数人,以及没有时间和精力亲自follow最新论文和技术的导师和企业管理层。对于大多数人来说,三大会还是有一定的信息筛选能力,能够让大家用比较少的时间和注意力,获取的一些比较主流的AI进展。但如果不起UC震惊体的标题,浏览量可能就会下降很厉害,这里具体的关系我也没有拿到详细的统计数据,如果三大会的小编看到了,欢迎交流。

其实,现在学术届和工业界确实会把在三大会的宣传和报道,当成了一个追求目标。当它们真的占据了同行门的注意力时,你的工作能够得到他们的报道,也是一种影响力的体现。

除非我们能有一个主流且权威的 论文 中文翻译-总结-评价-推荐的平台,否则这种信息筛选的生态位总归是存在的。


说回来,我们为什么会“讨厌”他们的标题呢?

大家都在说他们的文章标题“味道”很重,那么这个“味道”究竟是什么?

我想找一个量化的指标,来揭秘一下这个所谓的“味道”。

第一步,我先搜集了一下机器之心的标题,从2018年到2024年,搜集了7676个文章标题(可能不全,但应该是符合整体分布)

第二步,尝试绘制词云。使用常见的wordcloud库,拿到的结果很差。

第三步,这里词云的分词规则,我并不清楚,设置的热词也不生效,所以就放弃了这个方案。进而采用jieba分词,查看词频。

这里我们发现了一个诡异的问题,我找不到GPT-4V和4o的词频,我明明在文档中搜到了九十多个4V。原来jieba分词,哪怕设定了热词,它也会将-这样的特殊符号当成切分词,所以一直会被拆散。这个方案也不够好使。

第四步,尝试使用LLM做分词。这里我们试了好几个模型,换了好几套提示词,都没有拿到特别好的结果,大模型很难把词分的特别细。

第五步,去群里,将标题文档传到群里,咨询群友。在一堆乐子人群友的帮助下,我们展开了多智能体的多样化探索。

多群友探索:

  1. shom群友首先尝试many shot的标题生成:

2. shom继续利用128K模型做信息直接抽取:

3. 受到群友启发,我准备尝试一下 “人工”智能,我要肉眼统计一下这7676个标题,毕竟我还是有点先验的。

在我刷了一半左右的时候,我贴出了下面的答卷:

我肉眼shot的结果,大概是一些特殊词汇,刚刚!突发!颠覆!惊人!揭秘!第一!爆火!超!打脸!冷水!官宣!福利,率先,大厂、名校和名人的title

4. 几乎同时,shom跟4T-128k交互,得到了新的结果:

shom:进行 Chain of Hype 可以有效提升 Hyperative Writing 的能力

5. 这时候人工队还要辛苦八分钟,才交上了最终的答卷:

刚刚!突发!颠覆!惊人!揭秘!第一!爆火!超X!打脸!冷水!官宣!首发!福利!率先!最X!独家!仅需!媲美!加速!提升!SOTA!斩获!手把手!打破!抢先!原理!震撼!点赞!宣告!抛弃!重磅!反转!硬核!一键!远超!知名!高达!首款!优雅!狂欢!带火!发布!曝光!新型!开源!
大厂、名校和名人的title

6. 最后,小舟哥提供了一个“三大会”标题生成提示词模板: