新闻动态

你的位置:世博体育app下载-V59.1版下载 > 新闻动态 > 欧洲杯体育OpenAI将成为Reddit的告白相助伙伴-世博体育app下载-V59.1版下载


欧洲杯体育OpenAI将成为Reddit的告白相助伙伴-世博体育app下载-V59.1版下载

发布日期:2024-06-25 07:10    点击次数:160

文|陈斯达

剪辑|李然

“好意思国贴吧”要把自宗派据喂给ChatGPT了。

5月17日,据官方音讯,Reddit 已与 OpenAI 完毕契约,允许其使用自家本色历练聊天机器东谈主偏激他居品。相助晓示后,Reddit股价在盘后交往中高涨11%。

图源:X

相助的互利共赢,OpenAI在官网中有所先容:

OpenAI能用上Reddit的及时本色:自家AI 器具由此大致更好地矫健和展示 Reddit 上最新话题的本色,因为OpenAI可走访得Reddit数据 API,将提供及时的、结构化的、独到的本色。Reddit能用上OpenAI的AI手艺:Reddit 将成立在 OpenAI 的 AI模子平台上,将使Reddit为redditor和 mod带AI驱动的全新功能。临了,OpenAI将成为Reddit的告白相助伙伴。

OpenAI的首席本质官Sam Altman持有Reddit 8.7%的股份,此前照旧Reddit的董事会成员。是以OpenAI为了避嫌,强调这次相助是“由OpenAI的首席运营官(Brad Lightcap)指点”,并“由(OpenAI)独处董事会批准”。Altman算作OpenAI董事会成员,据TechCrunch,本东谈主在这次决定上遴荐遮盖姿态。

这次相助的梗图降生:Altman这一出,属于是左手倒右手,一看都是自家东谈主。

图源:Reddit

我念念知谈这次相助具体何如谈成的。

好多网友似乎不太矫健Reddit本色关于大模子的价值,纷纷暗意Reddit会让ChatGPT变得“不干净”。

练习“贴吧”本色调性的网友们有时炸开了锅,有东谈主有时弃坑:Claude不比你GPT香?

图源:X

大本营Reddit平台上的悲不雅发言:把诸位贴吧老哥的发言喂给大模子,AGI的证据立马倒退四年:

图源:Reddit

OpenAI的模子要用贴吧上科技板块的数据历练,看来对AGI的展望要推后四年。

有东谈主也不解白了:Reddit至于那么差吗?

图源:Reddit

唯有我比较兴盛?Reddit上有效的本色也不少,要是能用AI查询,岂不好意思哉?

殊不知,前有论文讲明注解“弱智吧”本色才是AI中语语料质料的高地,这波属于是网友信不外OpenAI手艺大拿们的眼神了。

图源:论文

用平台数据拓宽收入渠谈,曾遭大领域按捺

成立于2005年的Reddit,于2024年3月上市,现时并不盈利。据其最新先容,Reddit日活跃用户为8270万。据Techcrunch,Reddit的平台帖子超10亿个,驳斥数超160亿条,用户生成的本色每天还在增长。平台也不错被看作念AI公司历练模子的“金矿”。

这次相助也讲明,Reddit依然在尝试不同行务,不但愿过于依赖于告白收入。

OpenAI、谷歌等公司将Reddit的数据用于自家模子历练后,Reddit不甘“白嫖”,2023年6月,Reddit晓示将对开荒东谈主员走访其API收取高额用度。其对每5000万个API肯求收取12000 好意思元的用度,在业内订价仍是很高。

大树下面不可纳凉了。靠着Reddit发财的各式第三方欺诈及个东谈主开荒者没法挣钱,Reddit社区自此开启一场阵容高大的抗议。在海量用户的自愿组织下,在6月12日运转瘫痪。稀疏8000个版本(通常于微博、贴吧的不同话题)都被版主设立成了“私东谈主版本”,其他用户无法走访。

开首:The Verge

这场利益莫得对都的抗议很快又被自愿驱逐。只是过了两天,大部分版本复原运营。用户找不到平替之前,还得接着用Reddit。

Reddit官方下场“反白嫖”的最终指标很快落地——用平台本色向大模子公司收费。

2024年3月上市前,Reddit与谷歌母公司Alphabet还完毕每年价值约6000万好意思元的交往,允许自家本色用于谷歌模子的历练。5月早些时刻,Reddit公布的首份季报中,收入稀疏分析师预期。这标明,Reddit与谷歌的交往偏激推进告白业务增长的起劲,正在获取答复。

开首:路透社

为什么各家大模子公司都在抢着给Reddit送钱,确实找不到更好的语料吗?

数据“掘金”的特殊,难谈是贴吧?

OpenAI掌门东谈主Altman最近在播客中提到,模子过去的跳跃,不应该依赖数据。但就现时阶段来说,数据仍然是当下各大玩家的必争资源。

凭据大模子的范例纪律,即便模子参数和算力都不休擢升,然则数据量和质料要是停滞不前,模子的性能也很难络续跳跃(见智能泄漏著作,大模子闹“数据饥馑”,科技巨头插足灰色地带)。

3月在英伟达GTC大会上,黄仁勋对话Transformer七子时也有不雅点合计:高质料的模子需要的其实是高质料的数据,一味堆量是不够的。

番邦网友还在转头,把过于负面的Reddit“贴吧语料”喂给AI会不会掩人耳目;中语互联网上,最佳的大模子语料库确实即是贴吧——弱智吧。

这个论断来自三月底发布的一篇论文。扣问团队发现,大谈话模子现时能矫健、本质复杂指示,答复也能作念到准确流利。联系词这些跳跃基本都发生在英语世界,中语大模子的若要跳跃,就需要基于独到的谈话特征和文化深度,找到符合的数据集。

图源:论文

扣问看中了各样中语外交媒体、论坛的语料质料。论文不仅打造了中语指示微调数据集COIG-CQIA,还为后续从中语互联网取舍历练数据提供了参考。

论文作家从微博,知乎,豆瓣,小红书等主流的社区论坛中抽取了大宗的语料进行概述,提议了COIG-CQIA数据集。而在这个经由当中,扣问东谈主员对这些外交平台上的语料进行了一个排行。

经过比较,弱智吧数据集在多个子集上的平均排行中最终位居第二。

图源:论文

弱智吧的本色有那么神?有网友整理过弱智吧的经典发言:

每个东谈主使命都念念收货,那么是谁在亏钱?我闭上眼睛触碰星空,阅读世界留给我的盲文。世界是个大象,咱们都在盲东谈主摸象,抽象是对这个世界的鞭挞。雨天,我走进水坑里,不着重踩碎了天外。生鱼片是死鱼片。有的东谈主看不到过去,其实是看到了过去。夜里很清静,我绽放了收音机录下来,等白昼吵闹的时刻播放。

论文先容,弱智吧的帖子充满双关语、多义词、因果颠倒、同音异义词。有些逻辑陷坑东谈主类看了都汗流夹背,对AI来说,那必须是增强模子逻辑推明智商的绝佳养料。

天然互联网社区的语料关于AI来说营养可能如实鼓胀,然则网友们关于社区凯旋将我方孝敬的本色拿去卖钱,却不一定那么乐意。

Stack Overflow是面向时势员及开荒东谈主员的论坛。2024年5月初也与OpenAI相助为模子历练提供数据。一些用户为了暗意不悦,删除或者剪辑自己问题和谜底,幸免被用于历练AI,但Stack Overflow复原了被删的帖子,封禁了对应的账号。

图源:相聚

有网友共享怎么把我方的高赞教育帖剪辑为抗议帖的规律,并暗意,“(版主的弹压)亦然在指示大众,在平台上发布的任何本色都能用于盈利指标。在 Discord、Twitter 等平台上的通盘音讯,夙夜也要被合手取投喂给模子,临了再把相应AI职业售卖给你。”

但与Stack Overflow比较,Reddit的各路网友暂时莫得效删帖暗意不屈,转而喜爱起AI:孩子,吃点好的吧。

图源:Reddit

A:之前有东谈主转头:把通盘这个词互联网喂给AI,AI会让东谈主类消一火 B:我不合计当今这是打趣了。 C:这即是为什么我的相聚发言如斯愚蠢。我其实很耀眼(耀眼一词拼写稿假)! D:你缓助了东谈主类!



上一篇:世博体育该策略决策了日本下一代汽车的发展道路-世博体育app下载-V59.1版下载
下一篇:世博体育app下载通过了欧洲排放规矩的认证-世博体育app下载-V59.1版下载