清华、蚂蚁和新加坡南洋理工的研究人员在预印本平台 arxiv 上发表了一篇论文《Speculating LLMs’ Chinese Training Data Pollution from Their Tokens》,指出 OpenAI 的 GPT 系列模型使用的中文语料被成人和网络赌博内容污染。大模型使用从互联网上爬取的内容进行预训练,而爬取的内容不可避免会混入成人色情或网络赌博等污染内容。如果不仔细清理数据,那么在构建词汇表和执行分词(Performing tokenization)时可能会生成污染词元(polluted tokens),GPT 系列模型使用的中文词汇表就存在大量污染的中文词元。GPT-o1/o3/4.5/4.1/o4-mini 等模型都使用污染的中文语料库进行了训练。研究人员发现,在 GPT 模型语料库中,超过 23% 的长中文词元或者是成人内容或者是网络赌博,以 GPT-4o 为例,与日本 AV 女星波多野结衣相关的网页比例占到了训练语料库的 0.5%。
Windows 11 第三方工具 Flyoobe 11 允许用户移除微软在操作系统中捆绑的臃肿软件。它最近释出了更新 v1.7,允许用户在安装操作系统后发现并禁用所有 AI 和 Copilot 功能。开发者称,最新版本能更深入挖掘 AI 在 Windows 11 中的嵌入方式。Flyoobe 托管在微软旗下的 GitHub 上,采用 MIT 许可证。
Google 因广告技术业务的反垄断行为被欧盟罚款 34.5 亿美元。这是欧盟过去十年对 Google 开出的第四张罚单。美国总统威胁要进行报复。欧盟的最新行动是欧洲出版商理事会的投诉引起的,欧盟委员会认为 Google 偏袒自家在线广告显示技术服务损害了竞争对手和在线出版商的利益,它自 2014 年以来一直滥用其市场支配力量。
美国印第安纳州一位专门处理破产案件的律师 Mark Zuckerberg 正在起诉社交巨头 Meta,原因是尽管 Mark Zuckerberg 是他的真实姓名,但其 Facebook 网页多次被以冒充 Meta CEO 的理由关闭。律师 Mark Zuckerberg 使用一个商业性 Facebook 网页宣传其法律业务,与潜在客户进行沟通,但过去八年他的网页五次被关闭,原因都是 Meta 的审核系统将其账户标记为冒充公司创始人 Mark Zuckerberg。Mark Zuckerberg 没有冒充 Mark Zuckerberg,他就是 Mark Zuckerberg。在起诉书中,Mark Zuckerberg 称他在 Meta 的 Mark Zuckerberg 三岁时就开始从事法律事务。他称自己花了逾 1.1 万美元宣传其网页,即使账号被禁时他仍然需要支付广告费用。他创建了一个网站 iammarkzuckerberg.com,记录了 Mark Zuckerberg 这个名字如何影响其人生。