网上销售怎样做网站,深圳网站建公司,织梦免费源码,wordpress数据库api每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗#xff1f;订阅我们的简报#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会#xff0c;成为AI领…  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗订阅我们的简报深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同从行业内部的深度分析和实用指南中受益。不要错过这个机会成为AI领域的领跑者。点击订阅与未来同行 订阅https://rengongzhineng.io/ 在今年二月谷歌宣布与Reddit达成每年6000万美元的协议允许谷歌使用Reddit的数据来训练其AI系统。上周OpenAI也宣布了类似的合作协议无疑也具有相当的商业价值。 为何全球最强大的AI公司会如此热衷于一个传统用户眼中充满偏见和嘲讽的老旧论坛这背后的原因与当今大型语言模型LLM的训练方式息息相关。因其独特的设置Reddit恰好为LLM生成了完美的训练数据。 这家成立已有29年的公司正在借助这一波兴趣进入了巨大的盈利浪潮——尽管这对用户而言代价不小。 LLM训练数据的需求 为了继续进步像OpenAI的ChatGPT和谷歌的Gemini这样的LLM需要持续摄入大量的书面语言数据。尽管这些模型已经从维基百科、几乎所有已出版的书籍、公开网站以及任何可公开获得的语言数据中获得了惊人的能力但这些数据并未完全捕捉到人类日常使用的口语化语言。 这也是为什么像ChatGPT和Gemini这样的系统的输出往往显得僵硬和过于正式。为了让AI更像人类LLM迫切需要更多真实的人类写作。然而很多这样的写作都被锁在私人空间中比如WhatsApp对话、短信、个人邮件等。即使AI公司能够获得这些数据它们也会面临另一个问题大多数口语化写作未经过滤和注释。 相比之下出版的书籍等至少经过了一定的筛选和编辑质量有保证。而口语化写作则没有这样的过程很难评估其质量和连贯性。 Reddit的独特价值 Reddit的设置巧妙地解决了这些问题。作为一个匿名平台用户可以快速创建账户用化名发布信息。这种匿名性鼓励了随意、往往充满嘲讽和未经过滤的写作。更重要的是Reddit还有一个独特的投票系统用户可以对每个帖子进行评价优秀的帖子会被顶上去而无用的垃圾信息、营销内容和极端观点会被埋没或删除。 这种投票系统使得Reddit的数据在AI训练中具有无与伦比的价值。Reddit不仅提供了丰富的口语化写作还内置了一个评价这些写作质量的系统。 Reddit的盈利风潮 由于其数据的完美性Reddit正从大公司的AI投资中获得巨大收益。社交网络通过内容许可交易积累了数亿美元的收入这帮助它在今年早些时候成功上市并可能吸引更多投资者。随着LLM的商品化Reddit也有可能创建自己的LLM凭借其丰富的训练数据比大公司竞争对手以更低的成本构建模型。 潜在风险 尽管有巨大的机会AI公司对Reddit的痴迷也带来了严重的风险。Reddit之所以成功是因为用户认为它是一个分享真实、不加修饰意见的地方。但这种匿名性也意味着数据不具有代表性充满偏见和不准确的信息。AI公司可能会利用Reddit的投票数据来展示什么是受欢迎的而不是事实。 LLM擅长检测模式这些系统可能会从Reddit学习到偏见、分裂言论和网络喷子的模式并在其他上下文中重复这些模式。这些偏见难以被检测到甚至连系统的创建者也难以发现。 未来的解决方案 解决这些偏见需要更多的数据而不是更少的数据也需要更好地注释现有的、更少极端的口语化对话数据。更多来自不同背景和观点的数据将有助于改进LLM的训练。然而企业如谷歌和OpenAI从哪里获得这种数据仍不明确。Slack等公司的开放数据训练引发了用户的愤怒使得AI公司面临两难境地。 尽管如此AI公司仍愿意为Reddit的数据支付数亿美元因为这是他们目前能找到的最佳选择。