MDARK
第 201 期 ~ 第 300 期

【参考信息第266期】在线内容“短命”;国产AI困境

继续分享马督工睡前消息团队关注的新闻

大家好,我是小戴,欢迎来到第266期参考信息。

互联网是我们现代生活的基础设施,但就像现实中的基础设施会衰败,网络资源和内容也在衰减。5月17日,皮尤研究中心报告显示,当前的在线内容仍然是短命的。研究人员从定期收集网站快照的Common Crawl档案中,随机抽样大约100万个网页,时间从2013到2023年,检查样本是否仍然存在。

25%的网页到2023年10月已无法访问,其中16%是网页不在,域名还在,9%则连域名都不在了。2013年存在的网页中,约38%已不可用,2023年存在的网页中,这一比例仅为8%。具体来看,抽样的新闻网页有23%至少包含一个失效链接,百科类研究人员选择了维基百科的参考链接,11%已无法访问。54%的维基百科网页参考链接,至少包含一个失效链接。

社交网站方面,研究人员跟踪了今年3月8日到4月27日,在X上发布的近500万条推文样本,发现近18%三个月内就已不可见。其中六成是因为账号被设为私密、被冻结或注销,四成是因为发布者自己删除,但账号本身还活跃。

切换到国内,似乎更好理解。比如百度贴吧在2019年屏蔽了2017年之前的所有内容,百度网页快照功能2022年下线。今年3月1日,天涯社区官宣要重启,结果最终仅筹款15万,未能在5月1日重新开放。之前的公告也被质疑是割韭菜。


AI大模型需要数据

而训练AI大模型需要数据。4月26日中关村论坛上,AI企业和研究者分享了AI数据流通共享的困难。剑桥大学生存风险研究中心创始执行主任说,我们都认为在不断训练大模型的时候不会缺数据,但是实际上很多数据都没用上。分享数据的困难则在于各国及各行业的数据法律法规。

奇安信数据安全首席科学家刘谦伟指出,站在全球数据治理的角度来看,数据跨境流动更容易将数据汇聚在一起。如此一来,不管是行业还是通用的AI模型,训练效果一定会有很大改善。但问题是,我们的数据怎么走出去,别人的数据怎么进来?


特斯拉在华建数据中心

另据路透社报道,马斯克正在推动特斯拉在中国建立一个数据中心,利用来自中国的数据推动其自动驾驶系统的全球开发。这些数据可以在中国境内处理。当然,特斯拉还致力于获得中国监管机构的批准,将其在中国的电动汽车生产的数据转移到国外。


东南亚的数据中心热潮

5月17日,上海自贸区临港新片区管委会发布全国首批数据跨境场景化一般数据清单及清单配套操作指南,包括智能网联汽车、公募基金、生物医药三个领域。涉及智能网联汽车的数据包括采购和库存等制造信息,汽车设计和测试等研发信息,售后服务信息以及二手车销售信息。试点为期一年,在临港片区注册的企业可将列入清单的数据转移到国外,无需进一步安全评估。这是中国进一步吸引外资的最新举措,而特斯拉的上海工厂就在临港片区。


巨头投资东南亚

AI是中美科技竞争的焦点。2022年10月,美国提出对华半导体出口管制新规后,不少美系科技巨头出现供应链转移的趋势。去年以来,德州仪器、Marvel、美光、AMD等裁撤或缩减了中国研发团队。

最近微软传出中国AI团队被打包出国的消息,部分员工集体收到公司邮件,询问是否愿意搬迁至其他地区工作,包括美国、澳大利亚、爱尔兰等国,涉及员工主要从事AI研究。微软回应称,有一小部分员工得到可以选择国际轮岗的机会,员工可以选择轮岗或者继续在现有的岗位。

微软最近大动作不断。5月8日和拜登联合宣布在威斯康星州投资33亿美元,建设云计算和AI基础设施,创立美国首个以制造业为重点的AI联合创新实验室。微软CEO纳德拉日前到访马来西亚、印尼和泰国,宣布向马来西亚投资22亿美元发展云计算和AI基础设施。这是微软在马32年来最大单笔投资。另向印尼投17亿美元,为84万人提供AI相关培训和就业机会。还计划在泰国开设首个区域数据中心。不久后,亚马逊5月7日宣布未来四年向新加坡追加90亿美元投资。


AI对东南亚GDP的贡献

中美技术竞争加剧,东南亚掀起数据中心建设热潮,成为全球AI及数据中心产业链的重要环节。管理咨询公司科尔尼预测,到2030年,AI可能为东南亚贡献近1万亿美元的GDP。


AI技术进展

5月8日,时隔四年,谷歌DeepMind团队发布AlphaFold 3,能准确预测蛋白质、DNA、RNA及小分子的配位基等结构,以及它们如何相互作用,应用在生物研究和药物发现领域。与现有的预测方法相比,至少有50%的改进。15日,谷歌还推出文生视频模型Veo和文生图模型Imagen 3。Veo可以生成电影及各种视觉风格的1080P高清视频,时长可达一分钟。

ChatGPT的拟人化交互体验也更进一步。14日,OpenAI发布桌面版ChatGPT,并现场在iPhone手机上演示了由新推出的GPT-4o模型支持的ChatGPT实时语音、文本、图像交互能力。


美国参议院的AI路线图

15日,美国参议院多数党领袖舒默等四位两党参议员发布AI路线图,建议增加美国AI研发投入,鼓励现有AI相关法律的执行,考虑AI对劳动力的影响,处理AI带来的威胁和危险,应对深度伪造对大选的影响等等。舒默建议增加320亿美元紧急资金投入,确保美国在AI领域的主导地位。


IDC的AI支出预测

5月15日,市场调研机构IDC公布今年全球生成式AI支出为403亿美元,到2027年将达到1410亿,占AI支出的29%。IDC认为,2025年前,生成式AI的机会还停留在基础设施,2025到2026年向生成式AI平台和方案过渡,2026年之后,生成式AI服务的机会将全面爆发。


中国市场和AI应用场景

对于中国市场,IDC指出,中国客户正在意识到大模型的价值。28%的受访企业认为,投资生成式AI后可以在一年以内看到回报。回报率最高的应用场景依次为自动化IT任务、自动化业务流程和工作流、产品与服务创新、高级分析与预测、欺诈检测和安全。


中美AI政府间对话

有竞争当然也有合作。上月底美国国务卿布林肯第二次访华时,中美达成共识,将举行中美人工智能政府间对话首次会议。5月14日,会议在瑞士日内瓦举行。中方表示,支持加强人工智能全球治理,主张发挥联合国主渠道作用,愿同包括美方在内的国际社会加强沟通协调,形成具有广泛共识的全球人工智能治理框架和标准规范。


中国对美方限制的立场

中方就美方在人工智能领域对华限制打压表明严正立场。


纽约时报的形容

纽约时报将此次会议形容为相当于试探性的首次军备控制谈判。


此前AI相关的沟通

谈判已筹备一年,美中将试图在一些问题上找到共同点,包括如何使用人工智能、可能在哪些情况下禁止使用等。去年11月,中美会晤就人工智能与军事达成相关共识,中美将建立人工智能风险和安全问题的专家磋商机制。


中法联合声明

5月6日,中国领导人访问法国期间,发表中法关于人工智能和全球治理的联合声明,一共10条共识,包括:中法充分认识到人工智能技术快速发展的深刻影响,以及与该技术相关的潜在和实存风险,致力于采取有效措施应对这些风险并加强人工智能的全球治理。


全球AI发展差距

当今,美欧以月为单位迭代人工智能基础模型能力,产业应用也处于领先身位,但全球南方国家尚处于数字化阶段,距离智能化尚远。而一些产业先行国、算力掌控者、前沿模型在手方,反而担忧安全赤字。


国际合作与排他性

英国布莱切利安全峰会叠加大美国关于安全可靠和可信的开发和使用的人工智能的行政命令,产业先发国家相约开启全球人工智能安全治理模式。类似多边峰会往往与一些双边兼排他性、针对性极强的关键件和新兴技术对话机制同台,受安全事实和竞争事实的影响,破坏治理的合作氛围。


中法声明的立场

而中法联合声明第六、第七条坚持在联合国主导作用的基础上,负责任的贡献多边积极力量。法国将于2025年举办人工智能峰会,中国也将举办2024年世界人工智能大会及人工智能全球治理高级别会议。声明第八和第九条聚焦潜在的发展赤字,希望依托联合国框架弥合数字鸿沟,提高发展中国家并提升所有人的,人工智能能力,实现人类可持续发展目标。


中国AI发展的困境

一些企业和自媒体宣传喜欢说遥遥领先,究竟怎么样?4月26日,全国人大常委会闭幕会举行第十讲专题讲座。工程院院士、中科院计算技术研究所学术委员会主任、国科大计算机科学与技术学院院长孙凝晖,做了题为《人工智能与智能计算的发展》的讲座。他指出,我国人工智能技术与智能计算产业过去几年虽然取得很大成绩,但依然面临诸多发展困境,特别是由美国技术打压政策带来的困难。


困境一:核心能力差距

困境一是美国在AI核心能力上长期领先,中国处于跟踪模式。我国在AI高端人才数量、AI基础算法创新、AI底座大模型能力、底座大模型训练数据、底座大模型训练算力等,都与美国存在一定的差距,并且还将持续很长一段时间。


困境二:高端产品受限

困境二是高端算力产品禁售,高端芯片供应长期被卡。一些企业都进入美国实体清单,芯片制造的先进工艺受限,国内可满足规模量产的工艺节点落后国际先进水平二到三代。核心算力芯片的性能也落后国际先进水平二到三代。


困境三:生态系统薄弱

困境三是国内智能计算生态孱弱,AI开发框架渗透率不足。英伟达CUDA通用计算设备架构生态完备,形成事实上的垄断。


困境四:应用成本高、体系不健全

困境一是研发人员不足,英伟达CUDA生态有近两万人开发,是国内所有智能芯片公司人员总和的20倍。二是开发工具不足,CUDA有550个软件开发工具包,是国内相关企业的上百倍。三是资金投入不足,英伟达每年投入50亿美元,是国内相关公司的几十倍。四是AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国内AI开发框架的开发人员只有国外的十分之一。更为严重的是国内企业之间山头林立,从智能应用、开发框架、系统软件、智能芯片,虽然每层都有相关产品,但各层之间没有深度适配,无法形成有竞争力的技术体系。


困境五:人才不足

困境四是AI应用于行业时成本门槛居高不下。我国AI应用主要集中在互联网行业和一些国防领域,推广应用于各行各业时,特别是从互联网行业迁移到非互联网行业,需要大量的定制化工作,迁移难度大,单次使用成本高。


人才数量与需求差距

最后,我国在AI领域的人才数量与实际需求相比也明显不足。


AI成功的关键

孙院士也提了一些建议。他指出,AI成功的关键是能否让一个行业或一个产品的成本大幅下降,从而将用户数与产业规模扩大10倍,产生类似于蒸汽机对于纺织业、智能手机对于互联网的变革效果。大家可以去看看全文,人大常委会的专题讲座质量都比较高。


AI对劳动力市场的影响

去年3月17日,OpenAI发布GPT-4两天之后,就发了篇论文,认为80%的美国劳动力至少有10%的工作任务会受到影响。数据类自媒体城市数据团去年也发了一篇《中国1639种职业的GPT替代风险分析》,参照OpenAI的论文方法研究中国劳动力市场,结论相似。

越需要高教育、丰富经验才能从事好的职业,工资越高的职业,在大模型时代受到的影响会越大。越是诸如不需要人类经验积累、不需要后天学习、不需要动脑进行慢思考的职业,受到的影响反而越少。


实际影响与预测差异

一年过去了,城市数据团根据去年1月到今年4月底中国所有招聘平台的数据,发现大模型确实有不少的影响,但方向似乎是意料之外。按此前的分析,随着大模型越来越多的进入实际工作的需求中,存在暴露在大模型替代风险中的任务,暴露率越高,在总任务量中的占比应该会下降。

但实际情况是,大模型暴露率最低的那些任务,占比下降反而较快,比如操作焊接设备、打磨金属表面等。而认为最容易被替代的,编写操作流程文档、撰写运营报告、撰写广告文案或宣传推广材料等,却出现不同程度的上升。这可能是因为产业结构改变,比如制造业的占比下降,服务业占比提升。但在运营经理、数据分析师等职业内部,撰写运营报告比例也在提高。


需求提升的岗位

能够被大模型加速的程序员、内容作者、Web开发人员、数据库架构师等需求仍旧上升。


新需求与工资变化

也就是说,大模型暴露率越高的任务和职业,不仅没有被替代,反而需求提升了。新需求的出现有三个事实:一是中等规模企业,暴露率高的职业需求提升更快。二是暴露率越高的职业工资下降越快,在中等规模的企业中下降更快。三是职业和任务的集中程度,在高暴露率的职业和中等规模的企业中下降最快。


岗位职责变化

原本就不会受大模型影响的岗位,其工作职责变得更加专业,而会受大模型影响的岗位,其工作职责变得更加复杂。比如原本招程序员只需要写代码,但新招的程序员还需要和销售人员交流需求,还需要面对客户。而且新招的程序员和内容作者,工资要低于同等规模企业类似职业的平均工资。


中等企业变化更多原因

为什么这些变化更多出现在中等企业?简单来说,大模型降低了探寻和试错的成本,将实现想法的路程已经大幅缩短,鼓励了中小企业创新和尝试。但因为这个需求原本并不存在,大模型降低了成本项目才能诞生。再加上大模型对各类技术的掌握熟练度提高,使得这类岗位的工资降低了。


对生产关系的影响

从工业革命开始,每次技术进步都是大规模生产和分工更加有利可图,也就是社会化大生产。但在这个过程中,个人也越来越局限于自己的职责,成了流水线上的螺丝钉。而大模型似乎挑战了这个逻辑,人们可以脱离巨型企业组织,重新将目标放在整体目标和架构上,而非迷失在各种技术细节中。也就是说人的自主性更重要了,这或许会是大模型对于劳动力市场甚至对生产关系最为深刻的改变。


好的,本期参考信息就是这些,别忘了去拼多多搜索87717或者点击评论区的链接,拼多多百亿补贴618大促绝对不要错过,我们周二再见。

Leave comment