好品质、更有性价比
全国咨询热线:0314-4219912

bob电竞入口:美国高性能计算计划的演进逻辑、管理机制与实施特点 科技导报

发布时间:2024-03-10 11:18:16 来源:bob电竞体育 作者:bob电竞体育官网

  美国高性能计算计划在30余年时间中,先后经历了高性能计算与通信计划、网络和信息研发技术计划、战略计算计划的演进历程。分析了其演进逻辑、相互关系及管理机制,总结了计划实施的特点,即政府跨部门协同的“全政府”特点和政产学研广泛合作的“举国”特点。针对中国算力建设中存在的问题,美国经验可提供可借鉴的诸多启示,包括制定算力研发战略规划,全面加强算力技术研发;

  数字经济时代,算力成为新的生产力,对推动技术进步、经济社会高水平质量的发展发挥着及其重要的作用。近几年,中国各级政府将算力作为新的数字基础设施,加快算力建设部署。2021年,《“十四五”规划和2035年远大目标纲要》要求“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设E级和 10E级超级计算中心”。国务院发布的《“十四五”数字化的经济发展规划》要求推进云网协同和算网融合发展,“布局全国一体化算力网络国家枢纽节点”“打造智能算力、通用算法和开发平台一体化的新型智能基础设施”。2022年,“东数西算”工程全面启动,在全国规划了8个国家算力枢纽节点、10个国家数据中心集群。2023年1月,成都市发布了全国首个算力专项政策——《成都市围绕超算智算加快算力产业高质量发展的政策措施》,全面落实国家“东数西算”战略。可以说,从中央到地方各级政府均在快速推进算力建设。

  从算力产业高质量发展看,中国还存在明显不足。技术上,软硬融合底层研发工具欠缺,基础软件、工具软件等难点仍未打通;标准上,存在缺失,不同芯片、操作系统、固件、整机系统兼容性问题突出;资源上,数据共享不够、接口不统一、投入不均衡,软件投入明显不足;应用上,很多行业缺少对计算技术的理解,企业应用规模不到美国的1/10,场景落地有待拓展;人才上,专业性、复合型人才短缺,支撑产业发展乏力;生态上,芯片架构多元化,开发工具匮乏,系统软件、应用开发平台配套少,生态整体薄弱离散。

  从国外看,美国很早就重视算力发展,制定了大量有关政策,一直在改进、优化算力建设。本文以高性能计算计划为例,分析其政策演进情况,以期为中国提供经验借鉴。从美国的政策文件看,“超级计算”“高性能计算”“高端计算”3个概念经常混用。

  高性能计算代表了一种战略性的、改变游戏规则的技术,与理论和实验一起构成了科学研究的“第三支柱”和科学发现的新途径,成为应对数据迅速增加和摩尔定律接近极限的重要方法,对提高经济竞争力、科学领导地位和国家安全至关重要。

  作为美国政府对计算和通信技术前沿的一项战略投资,高性能计算计划在30余年的时间里,随着应用的增加、技术的发展以及国外的竞争而不断演进。

  1)高性能计算和通信计划。1991年,科技政策办公室在1992财年预算补充报告《大挑战:高性能计算和通信》中提出了研发计划——高性能计算和通信计划(High Performance Computing and Communications program,HPCC),指出HPCC能够解决科学和工程面临的重大挑战,应扩大美国HPCC技术的领头羊。该计划的战略优先事项强调要支持研发,加强政府、产业和大学间合作,支持相关基础研究、网络和计算基础设施发展,促进人力资源发展。计划共包括4个组成部分:开发高性能计算系统、高级软件技术和算法、国家研究与教育网络、基础研究与人力资源。1991年12月,美国国会通过了高性能计算法案,授权实施该计划。法案认为,在计算科学领域的领头羊对国家繁荣昌盛、经济稳定和科学进步至关重要。

  2)网络和信息研发技术计划。随着网络和信息技术的发展,以及1998年《下一代互联网研究法案》和2007年《竞争法案》的修订,高性能计算计划的内容逐步扩大。2009年的《网络与信息研发技术法案》中将该计划更名为网络和信息研发技术计划(Networking and Information Technology Research and Development,NITRD)。根据2012年发布的NITRD五年期战略计划,该计划的目标是利用先进的信息技术解决国家的优先事项,包括国家安全、国防、经济发展、科学发现、能源和环境、健康、个人隐私和生活品质。实现这一目标需要3个方面的研发技术基础:扩展人机合作伙伴关系,设计和构建安全、可靠、可预测系统的能力,加强教育培训。显然,NITRD计划目标更广泛,涉及的技术领域更多,高性能计算虽然仍是其中一个重要领域,但很难说是计划关注的核心技术。

  3)战略计算计划。由于NITRD计划的调整,在启动战略计算计划之前,基本上没有协调的联邦活动统筹国家安全和产业、科学发展所需的高性能计算问题。但各界对高性能计算的需求有增无减。同时,在2010年之后很多国家都加大了高性能计算研发投入。中国“天河二号”一度变成全球最快的超级计算机;欧盟委员会发布报告《高性能计算:欧洲在全球竞争中的地位》(High Performance Computing:Europes Place in the Global Race),提出“实现高性能计算领导地位”的目标;韩国通过了《国家超级计算法》(National Supercomputing Act),旨在“到2017年进入世界超级计算前七强之列”;此外,日本、俄罗斯、印度等国也做出了相关部署。对此,2015年奥巴马总统签署13702号总统令,要求启动国家战略计算计划(National Strategic Computing Initiative:Strategic Plan),2016年,该计划正式对外发布,旨在维护美国在高性能计算领域的领导地位。2019年的《战略计算计划更新:引领未来的计算》进一步聚焦于未来的先进计算生态系统,2020年的《引领未来的先进计算生态系统:战略计划》强调了未来先进计算生态系统的建设要求。

  4)NITRD计划与战略计算计划的关系。根据13702号总统令,战略计算计划执行委员会需要与国家科技委及其下属机构合作,以确保整个联邦政府的高性能计算工作与该计划保持一致。从NITRD计划开展的高性能计算研究情况看,同样侧重应对算力进步所面临的紧迫挑战,例如研究跨越整个硬件/软件堆栈的可扩展系统、极端异质性软件堆栈、AI和神经形态计算工具或算法、集成传统架构和非冯·诺依曼架构等,显然这些工作与战略计算计划高度一致。不同的是NITRD计划偏重软件、网络和设备,直到2023财年才将微电子学纳入协调内容。然而,战略计算计划自设立之初就强调运用全面的技术和方法,推动芯片等硬件、系统软件、开发工具、网络、数据、人才等构成的ECO整体发展,将研究优势高效地转化为应用技术和运营优势。可以说,战略计算计划对高性能计算发展作出了系统部署,NITRD则利用自身优势从事其中部分研究,二者协同促进有关技术发展。

  30余年时间里,高性能计算计划的内容不断演进。除了国外竞争带来的压力外,更多源于纠正自身发展失衡及外在需求、技术的推动。

  1)自身不足:计划早期偏重于硬件。虽然美国软件实力丰沛雄厚,但长期以来高性能软件发展仍落后于硬件。为此,咨询机构不断提出发展高性能计算软件性能的建议,而HPCC相关计划也一直在改进优化。1999年,总统创新和技术咨询委员会(Presidents Innovation and Technology Advisory Committee,PITAC)强调,过去40年里,计算硬件的性能至少提高了8个数量级,而软件开发没有跟上硬件发展速度,成为影响计算性能的关键。2005年,PITAC再次强调软件不足以跟上持续不断的发展的硬件和应用需求,建议政府建立国家软件可持续发展中心,负责强化、记录、支持和维护重要的计算软件。2007年,总统科技顾问委员会(Presidents Council of Advisors on Science and Technology,PCAST)建议制定战略计划,实现对高端计算架构、硬件、软件、数据、应用程序等的平衡投资。相关建议被战略计算计划采纳,强调建设软件生态,开发和采用新架构。2022年NITRD计划的高端计算工作组与软件生产力、可持续性和质量协调小组联合召开了“极端异构时代的软件”研讨会,一同探讨未来5~10年高性能计算极端异构软件的开发问题。

  2)客观需求:客户的真实需求持续不断的增加。高性能计算支持建模和仿真算法,通过缩短设计周期,降低开发成本,可提升效率,减少浪费,在科学和国防、核能等国家安全以及制造业等民用领域都有广泛的应用。2005年,美国国会众议院成立了国会建模与仿线号决议,明确建模和仿线年“再工业化”兴起后,建模、仿真成为维系美国制造业竞争优势的关键。对于美国领先的制造商来说,超越竞争(out-compete)就是超越计算(out-compute)。有关技术及数字制造、人机一体化智能系统也成为先进制造业战略的重要内容,其中人机一体化智能系统的实现取决于数字孪生技术,该技术贯穿于产品设计、制造、运营、维护的整一个流程和全生命周期,是对孪生对象动态的模拟仿真,需要实时交换大量的异质数据。因此,战略计算计划始终强调要建立建模、仿真和数据分析的统一平台,强调超大规模建模仿真、数据密集型计算和实时决策等因素对计算技术和相关计划的驱动作用。

  3)技术推动:前沿技术持续不断的发展。美国联邦政府对前沿技术的研发支持确保了美国信息通信业的领头羊。美国国家研究委员会指出,至少有8个IT部门源于联邦政府的科学资助,其中有7个已成为价值超过100亿美元的全球产业。在计算领域同样如此,桑迪亚国家实验室的专家觉得,在每个主要的新计算领域产生前,政府均已经支持了5~7年的前瞻性研发,且至少可以往回追溯5个周期。1999年,PITAC就建议政府针对摩尔定律的终结,资助光学、量子、生物和神经形态计算研究。此后,云计算、大数据、人工智能/机器学习、边缘计算等新技术的持续不断的发展,及摩尔定律放缓等对芯片技术提出的挑战均推动着计算政策不断调整。适应这一变化,战略计算计划提出发展后摩尔时代的未来计算生态,开拓数字和非数字计算的新领域等要求。

  高性能计算计划是一个跨部门计划,为确保计划实施效果,美国政府设立了一系列制度,形成了较为完善的管理机制,并被后续计划延续。

  HPCC计划包括由科技办公室设立的管理机构、协调办公室和咨询机构等管理部门。

  1)管理机构和职责。1991年3月,白宫科技政策办公室通过下设的联邦科学、工程和技术协调委员会物理、数学和工程分委员会设立了高性能计算、通信和信息技术小组委员会(High Performance Computing,Communications and Information Technology subcommittee,HPCCIT)对HPCC计划来管理。1993年11月,总统行政令要求科技政策办公室成立国家科技委员会,充当协调联邦机构科研项目的“虚拟机构”,由总统担任主席,成员包括副总统和白宫各部官员。此后,HPCCIT就置于科技委员会的统一管理之下。HPCCIT小组委员会由最初的8个联邦成员各派1名代表组成,每月举行1次会议,交流信息、确立机构间项目及审查各机构计划和预算。能源部代表担任HPCCIT主席,国防高级研究计划局(DARPA)、国家科学基金会、国家航空航天局的代表担任联合主席。1992年,HPCCIT设立了网络、研究、教育和应用4个机构间工作组 (表1),分别组织相关领域研究规划。随着计划内容的变化,工作组也会相应调整。例如1993年2月,国家信息基础设施计划提出后,HPCC计划新增了一个任务领域:信息基础设施技术和应用。之后,HPCCIT小组也相应进行调整。

  2)协调办公室和咨询委员会。1992年9月,科技政策办公室设立高性能计算和通信国家协调办公室,负责协调HPCC计划相关机构和活动,并担任与国会、产业界、学术界和公众的联络人。协调办公室主任向总统科技助理兼科技政策办公室主任汇报工作,同时担任HPCCIT小组委员会主席。另外,《高性能计算法案》要求设立高性能计算咨询委员会,直到1997年2月,总统成立了由教育科研界、产业界和网络供应商等代表组成的高性能计算、通信、信息技术和下一代互联网咨询委员会 (Advisory Committee on High Performance Computing,and Communications,Information Technology,and Next Generation Internet),负责对HPCC进行独立评估,并给出建议。之后,1998年《下一代互联网研究法》将对高性能计算计划实施情况做评价的权力授权给PITAC,2005年13385号总统令又将PITAC的所有职能授权于PCAST。

  3)成员机构的调整和内部组织设置。除了初始成员外,国家协调办公室积极鼓励其他联邦机构以正式成员或观察员身份加入HPCCIT。成员将身份申请提交至国家协调办公室,由HPCCIT小组委员会确定其是不是满足评估标准。在这一机制下,参与HPCC的联邦机构数量持续不断的增加。参与HPCC计划的每个机构都会设立一个HPCC计划联络机构或联络人。例如国防高级研究计划局设立了计算系统技术办公室作为HPCC计划的联络机构,还创建了协调国防部内部技术开发及对外合作的高性能计算联合项目办公室;国家科学基金会建立了HPCC协调委员会,负责预算、规划和监督HPCC相关工作;能源部增加了负责HPCC计划的管理人员;航空航天局在技术办公室内设立了HPCC项目办公室。

  高性能计算计划被更名为网络与信息研发技术计划(NITRD)后,管理机构和制度仍沿用HPCC计划,并相应更名为NITRD国家协调办公室和NI⁃TRD小组委员会,其中高端计算跨部门工作组负责协调高性能计算工作。PCAST至少每3年独立审查一次NITRD计划。截至2022年,NITRD计划已经从最初8个成员发展到26个,参与机构超过80个,连同科技政策办公室、国家科技委员会和管理与预算办公室,共同组成了NITRD小组委员会,在协调办公室的协助下监督NITRD计划。

  2015年,13702号总统令在要求制定战略计算计划的同时,就要求在科技政策办公室成立一个执行委员会,其组织情况如表2所示。该委员会经过最初的筹备和2019年战略计算快速通道行动委员会(Fast Track Action Committee,FTAC)的过渡,最终在国家科技委员会技术分委员会下设立了未来先进计算生态系统小组委员会(Subcommitte on Future Advanced Computing Ecosystem,FACE),全面统筹计算生态系统建设。该小组委员会的成员机构同样会根据自身的需求调整,例如2020年《引领未来的先进计算生态系统:战略计划》在基础研发机构中增加了国防高级研究计划局。虽然NITRD计划和战略计算计划分属2个不同的分委员会和小组委员会管理,但他们有一位共同的委员会主席(各有2位),且2个委员会定期举行会议,并联合开展工作,如共同制定2022财年战略计算计划实施路线号总统令和战略计算计划均未要求设立相应的协调办公室和咨询办公室,也未要求PCAST对其评估考核,但由于其他计划必须与该计划保持一致,所以该计划的实施同样有保障。

  高性能计算相关计划均是多部门参与,要求加强跨部门协同,且均强调政府与产学研各方的广泛协同,从而使得相关计划呈现出全政府(whole-of-government)和举国(whole-of-Nation)特点。

  实践证明,联邦信息研发技术计划的多机构协调框架很有效。1991年《高性能计算法案》要求HPCC计划必须加强联邦不同政府部门之间的协作,提高项目实施的有效性。NITRD计划认为,NI⁃TRD计划具有多样性、复杂性、相互依赖性且技术发展快速,没有一个机构能够掌握全部知识,各机构间的协调合作能够产生单个机构没办法实现的效果。战略计算计划也强调美国一定要采用全政府的方法,加强各部门合作。

  美国政府机构之间通过两种方式实现对高性能计算的协同。一种方式是通过机构组织和人事交叉等方式实现的。各联邦机构同时派人参加国家科技委员会不同的协调分委会,有助于实现不相同的领域之间业务协同。同时,各相关小组委员会之间有大量人员交叉现象。例如FACE的一位主席同时担任NITRD、AI研究资源工作组、气象服务委员会、网络设施和基础设施委员会、量子信息科学小组委员会的联合主席,可确保相关领域与高性能计算计划协同。

  另一种方式是不同计划之间的协同。这又包括2种类型,一种是跨部门计划与具体部门计划之间的协同。例如1996年能源部的“加速战略计算计划”(Accelerated Strategic Computing Initiative)被纳入HPCC计划,目前能源部正在实施的先进模拟和计算(Advanced Simulation and Computing,ASC)计划同样被纳入战略计算计划中。另一种是不同计划之间的协同。2022年《芯片和科学法案》要求为科学基金会的先进科学计算研究计划(Advanced Scientific Computing Research,ASCR)增加40%的研发资金,从2021财年的10.3亿美元增加到2027财年的14.2亿美元;该法案还要求对能源部ASC计划增加同样比例的经费,因为二者共同运营E级计算计划(Exascale Computing Initiative)。但由于该计划是通过国防授权法案授权,因此《芯片和科学法案》建议国会在下次审议国防授权法案时增加这一条款。显然,不同计划、不同法案甚至国会和政府间都需要加强协同。

  自数字时代以来,美国的技术和经济创新就一直以创新生态的形式发展,涉及联邦研究机构、教育和学术机构主体、企业、用户等不同主体。高性能计算计划从设立伊始就将加强政府、产业和大学间的合作作为优先事项之一,且该计划接纳新成员的标准就是申请机构制定的政策、计划和活动是否促进了政府、产业和学术部门之间的联系。而战略计算计划致力于建设整个高性能计算的生态系统,更是强调要使之成为一项全民努力,通过举国方法在联邦机构、产业界、非营利组织和学术界之间建立和扩大伙伴关系。

  美国97%的企业是500人以下的中小企业,这一些企业在使用高性能计算存在很明显障碍,如缺乏有效使用有关技术的人员;认为高性能计算硬件、软件和模型过于复杂或设计过度,难以使用。针对这一问题,2011年3月,白宫宣布建立公私超级计算伙伴关系,通过教育、培训和提供模拟仿真技术来提高中小企业对高性能计算的应用。竞争力委员会联合由原始设备制造商组成的国家数字工程和制造联盟(National Digital Engineering Manufacturing Consortium,NDEMC),基于商务部经济发展局提供的资金,启动了“NDEMC-中西部(Mid⁃west)”项目,重点帮助中西部中小企业运用高性能计算模拟仿真技术。最终,探索出适合中小企业的“软件即服务”或“按使用付费”模式。此外,NDEMC的合作伙伴还探索出其他成功模式,例如通过制造业推广中心联系中小企业、将中小企业与大学相关科研人员匹配、向中小企业介绍仿真软件领域专家、为中小企业制作网络教育材料等。

  从美国高性能计算发展历史中不难发现,所遇到的问题与中国相似。30余年来,美国采取的有关政策及其管理机制对促进中国算力建设可提供多方面的启示。

  1)制定算力研发战略规划,全面加强算力研发技术。目前,《全国一体化大数据中心协同创新体系算力枢纽实施方案》及地方层面出台的算力政策,大多集中于实施“东数西算”工程,构建国家算力网络体系,这固然很有价值。但同时也应加强算力研发技术及有关标准、资源建设。建议制定算力研发战略,全面部署算力软件、硬件、系统(包括架构和编程模型)、数据、网络等研发技术,支持发展不同架构、不同资源类型、不同使用方式的资源和服务,重视颠覆性器件和变革性系统研究,兼顾数字计算 (基于冯·诺依曼)和非数字计算(量子计算、神经计算及其他),实现各种资源、产品等的无缝对接。

  2)加强中央统一领导和组织管理,实现跨部门、跨地区协同。建立中央层面跨部门协调机制,设立秘书处,明确参与部门的联络人、联系方式,定期召开协调会议,加强各部门计划、业务之间的沟通协调,共同促进算力技术提升,实现研发技术与产业高质量发展之间的协同。加强数据标准建设,整合边缘计算、云计算、高性能计算等计算资源,推动算网一体、算网协同,建立集建模、仿真和数据分析于一体的多层次异构计算平台。围绕实际应用需求,合理部署算力网络建设、人才教育培训和研发投入,形成各方面合理配置、有序发展的良好局面。以“东数西算”工程打造的新型算力网络为基础,做好全国算力资源统筹规划,形成按需调度使用的格局。

  3)确保计算软硬件不同部分均衡发展,对滞后者采取长期系统的强化措施。针对长期存在的软件滞后问题,美国除了在政策上予以重视外,从2001财年开始,还在HPCCIT增设了软件设计和生产力(Software Design and Production)小组,专注于优化软件设计和开发的方法和流程,以促进不同软件无缝集成。此前设立的高可信软件和系统协调组(High Confidence Software and Systems)则侧重保障软件安全、无故障运行。近几年二者合并为软件生产力、可持续性和质量小组(Software Productivity,Sustainability,and Quality)。经过20余年的努力,软件开发、维护的时间和成本大幅度的降低。针对中国计算软件投入和发展不足,大量依靠进口的问题,中国同样应作出体系化安排并长期予以支持。

  4)建立广泛的合作伙伴关系,促进计算生态体系逐渐完备。广泛建立各种各样的形式的合作伙伴关系,团结各方参与算力研发、部署、人才教育培训等工作。逐步制定覆盖中小学、大学的计算科学教育体系,面向在职人员设立形式多样的培训方式,培养多元化、高素质的人才队伍。在政府部门指导下,由行业组织、研究机构牵头,联合教育、科研机构等力量,根据不相同的领域、不一样的行业甚至不同企业的特点和需要,探索相应的技术服务方案和算力资源使用模式,推动算力应用在更多场景落地并在更大范围推广。联合算力硬件、软件、数据、网络供应商与算力存储、交易、服务运维、使用等不同环节,一同探讨覆盖算力产业全链条的安全防护、绿色低碳规范、标准。

  作者简介:王花蕾,国家工业信息安全发展研究中心信息政策所,高级工程师,研究方向为数字化的经济与数字治理。

  《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会持续健康发展、完善科学技术管理、优化科研环境、培育科学文化、促进科学技术创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。

  《科技导报》微信公众平台创建于2014年,主要刊登《科技导报》期刊内容要点,报道热点科技问题、科技事件、科学人物,打造与纸刊紧密联系又特色鲜明的新媒体平台。

  科技导报公众号聚集了数万名专心学术的未来之星和学术大咖,添加编辑微信,让优秀的你有机会与志趣相同的人相遇。返回搜狐,查看更加多