人工智能大模型,如ChatGPT,正以惊人的速度发展,如同早期的搜索引擎和社交媒体平台一样,它们最初被视为有趣的工具,但如今已逐渐演变为影响世界格局、塑造权力关系的关键力量。那么,ChatGPT等大模型是否会在未来扮演类似的角色,甚至成为一种新型的殖民工具?这需要我们深入分析构建大模型所需的三大要素:人才算力数据,以及由此带来的潜在风险与挑战。

人才:大模型竞争的核心

构建大模型在技术上具有高度挑战性,掌握相关知识和技能的人才十分稀缺。更重要的是,这些人才不仅需要高薪待遇,还需要对工作、公司和老板抱有认同感。这一点在OpenAI的CEO更迭事件中得到了充分体现,员工的集体行动直接影响了公司的决策。

从全球范围来看,大模型人才的分布极不均衡。2022年,美国占据了该领域学术出版物的70%以上,中国和英国分别占比20%和10%左右。更令人担忧的是,这些研究成果主要集中在少数私营企业手中,而非学术机构。例如,谷歌一家公司就贡献了近30%的出版物。这意味着,大模型人才和知识正日益集中在发达国家的私营企业手中,这无疑加剧了技术垄断的风险。

这种人才垄断的后果是多方面的。一方面,它限制了其他国家和地区在大模型领域的发展潜力。另一方面,它可能导致技术偏见和价值观倾斜。如果大模型的开发和训练完全由少数西方公司主导,那么它们所反映的价值观和文化可能无法代表全球多样性,从而在应用中产生不公平或歧视性的结果。

算力:巨头角逐的战场

训练和运行大模型需要大量的算力投入。而这种算力的背后,是芯片和云计算基础设施的支撑。目前,全球几乎所有大模型训练所需的芯片都由美国公司英伟达(Nvidia)设计。由于产能有限,采购英伟达的芯片需要排队等待。

更重要的是,搭建云计算数据中心的巨头也主要集中在美国。亚马逊、微软和谷歌控制着全球6000亿美元的云计算市场。这些公司不仅掌握着算力资源,还通过投资新兴的大模型公司,进一步巩固其在人工智能领域的统治地位。例如,微软是OpenAI的最大投资者,同时也在投资其他人工智能技术公司。而谷歌、亚马逊等也纷纷投资大模型初创企业。

这种算力垄断的影响是深远的。一方面,它提高了大模型开发的门槛,使得只有少数巨头公司能够负担得起高昂的算力成本。另一方面,它可能导致技术创新受到限制。如果大模型领域的创新完全依赖于少数几家公司,那么创新方向和速度可能会受到影响。此外,算力的集中也带来了潜在的安全风险。如果少数数据中心发生故障或遭受攻击,可能会对全球的大模型应用产生重大影响。

数据:语言霸权的隐忧

训练大模型需要海量数据。而全球范围内,数字化文本中英语占主导地位。根据OECD的数据,大模型训练中使用的文本约40%是英语,而德语、法语和土耳其语的比例分别为5%、4%和2%。这导致了大模型在不同语言环境下的表现差异。

例如,ChatGPT在英语环境下的表现明显优于土耳其语。事实上,许多大模型在土耳其语环境下的表现甚至无法达到可用水平。这不仅仅是语言翻译的问题,更涉及到文化背景和语义理解的差异。如果大模型仅仅基于英语数据进行训练,那么它们可能无法准确理解和处理其他语言和文化中的复杂信息。

巴塞罗那大学的研究人员使用英语、德语、法语、西班牙语、加泰罗尼亚语和土耳其语对各种大模型进行了测试,结果显示,土耳其语的测试结果最差。这表明,大模型的性能受到训练数据的语言分布的影响。

这种数据偏见的影响是多方面的。一方面,它可能导致大模型在非英语环境下的应用受到限制。另一方面,它可能加剧文化霸权。如果大模型主要反映英语文化和价值观,那么它们可能会对其他文化产生负面影响,甚至导致文化同化。

大模型:文化价值观的放大器

大模型的输出反映了训练数据所代表的文化和价值观。在可预见的未来,大模型可能会进一步强化加州白人男性主导的思想体系。尽管一些公司的CEO可能具有不同的种族背景,但他们大多接受了相同的价值观体系。

这种价值观倾斜的影响是深刻的。一方面,它可能导致大模型在应用中产生偏见和歧视。例如,如果大模型主要基于西方文化价值观进行训练,那么它们可能会在处理其他文化相关的问题时产生误判或偏见。另一方面,它可能强化现有的权力结构。如果大模型的开发和应用主要由西方公司主导,那么它们可能会进一步巩固西方在全球的影响力。

如何应对大模型时代的挑战?

对于像土耳其这样的,以及其他在全球体系中处于边缘地位的国家来说,如果未能采取必要的措施,并明确合作对象,可能会在大模型经济中进一步边缘化。这将导致我们继续生活在一个规则在其他地方制定,且常常是不民主的方式制定的世界里。

要应对大模型时代的挑战,发展中国家和地区需要采取以下措施:

  • 加大对人才培养的投入: 鼓励高校和研究机构加强人工智能相关专业的建设,培养本土大模型人才。同时,积极吸引海外人才回国发展。
  • 推动算力基础设施建设: 加大对云计算和数据中心建设的投入,构建自主可控的算力基础设施。鼓励企业自主研发芯片,降低对国外技术的依赖。
  • 构建多元化数据资源: 鼓励企业和机构收集和整理本土语言和文化数据,构建多元化的训练数据集。加强与其他国家和地区的数据合作,共享数据资源。
  • 加强伦理和社会规范研究: 开展大模型伦理和社会规范研究,制定相关政策和法规,确保大模型的应用符合伦理道德和社会价值观。
  • 促进国际合作: 加强与其他发展中国家的合作,共同应对大模型带来的挑战。参与国际规则制定,维护自身权益。

例如,中国在人工智能领域的发展已经取得显著成就。中国政府高度重视人工智能技术的发展,并出台了一系列政策支持。中国企业也在大模型领域取得了重要进展,例如,百度、阿里巴巴等公司都推出了自己的大模型产品。同时,中国也积极参与国际合作,与世界各国分享人工智能技术和经验。

结论:把握机遇,迎接挑战

大模型时代既带来了机遇,也带来了挑战。我们既要充分利用大模型技术带来的便利和发展机遇,也要警惕潜在的风险和挑战。只有通过加强人才培养、推动算力基础设施建设、构建多元化数据资源、加强伦理和社会规范研究以及促进国际合作,才能确保大模型技术能够真正服务于人类,而不是成为一种新型的殖民工具。

我们必须清醒地认识到,大模型不仅仅是一种技术,更是一种权力。掌握了大模型技术,就掌握了塑造未来的能力。因此,我们必须积极参与大模型的开发和应用,争取在全球人工智能治理中发挥更大的作用,确保大模型技术能够造福全人类。只有这样,我们才能真正把握大模型时代的机遇,迎接挑战,实现共同发展。