联想定制化服务器产品质量管理浅谈

作者:李为民 发布时间:2023-09-19 浏览:1276

服务器是信息社会中最重要的IT产品之一,是网络的核心。无论人们用手机或电脑进行购物、网络社交、发红包、搜索信息、以及目前热门的AI(人工智能)等,每个操作都要通过后台的服务器来实现,大家日常生活中很少会感知到,但是我们的生活却和服务器息息相关。与普通计算机相比,服务器具有高速的CPU运算能力、长时间的可靠运行、强大的I/O外部数据吞吐能力以及更好的扩展性,当然价格也更贵。我们通常所说的通用服务器,是指没有为某种特殊服务专门设计的,在设计时兼顾多方面的应用,可提供各种服务功能以满足大多数客户需求的服务器,当前大多数服务器是通用服务器。通用服务器产品大家都比较熟悉,各公司依照主要CPU厂商AMD和Intel 芯片的产品路线图, 按部就班制定自己的产品路线,经过立项、开发和测试验证等诸多环节后,最终与芯片厂商同步上市各自的产品,基本保持一个固定两年的频率实现迭代发展,即产品更新换代。

众所周知,客户的需求是多样化的,不同业务也对服务器产生了不同的需求。通用服务器产品已不能满足一些特定客户的需求,比如,以B*、A*、T* 为代表的互联网巨头服务器采购量逐年递增,也就要求服务器厂商能够提供适应不同用户使用的、差异化的解决方案。这类客户群有自己的产品特性要求和定位,需求也不同于通用服务器产品,在产品开发和质量管理方面与通用产品都有差异化。因此,需要为这类客户群,量身定制产品来满足他们的需求,我们称为定制化服务器产品。 其实在我们的日常生活中,这类定制化产品也随处可见,比如定制服装、定制鞋、定制家具等等,即非常规批量供货的产品。 这里就以定制鞋为例简单阐述下,便于更好的理解下面的主题内容。普通人群根据已有的品牌和鞋码大小选择购买适合自己的鞋,这类产品的鞋码有行业内标准的尺寸,即买即用,基本能满足大众化人群的需求。但对于某些特殊人群或专业的运动员,比如短跑竞技项目,现有的标准产品可能就不能满足他们的需求,因为每个人脚的尺寸大小、脚背厚度和形状是因人而异。针对这类人群,他们可能需要一个更贴合的鞋子,来支撑运动的稳定性和极限突破,通常他们会通过厂家来定制产品,完全依据个体运动员脚的尺寸和形状进行单独设计、测试和生产,模具唯一性实现量身定制。需要注意的是,通用产品和定制化产品不止在前端需求和开发设计环节上存在差异,包括后期的运作方方面面都存在差异和挑战,比如交付的周期、服务和备件支持等。 就拿刚才的定制鞋举例,由于竞争等因素,交付周期是首要保证的,厂家会在最优的时间内完成交付,以促进后续的市场推广等需求。服务和备件支持方面,对于通用的产品,在正常保修范围内发生了质量问题,售后服务只需要使用现有的同规格产品进行退换或维修处理,在时间周期和处理方案上很容易实现。相比,对于定制化的产品,处理周期和解决方案都存在很大的挑战,比如,备件支持和服务支持能力等,必须在不影响客户正常使用的情况下,为客户提供特殊支持服务来弥补不足。 同理,下面谈到的定制化服务器产品,如果从运作模式与上面提到的定制化鞋相比,简单来说是大同小异,在行业和产品特性上有所不同。说到定制化服务器产品,当然就离不开质量管理方面的内容,下面跟大家分享一个特殊的质量管理模式,“定制化服务器产品质量管理”。

简单来说,定制化服务器是在通用服务器的核心基础之上, 根据不同业务的实际需要而研发、设计、生产的新型服务器。和通用服务器相比, 定制化服务器在CPU、内存、芯片组、电源、I/O设备、FPGA等方面做了专门的研发改变, 在产品交付和服务方面也有更高的要求,比如交付时需要厂商现场支持验收、包括运输方式和开箱良率等、服务方面7*24 响应、以及问题限时解决等。因此,来自客户定制化服务器产品的需求非常明确,包括服务器技术规格标准、配置和应用支持等,属于一对一合作模式。可以说完全是以客户定制化为导向的合作模式(图-1),多部门围绕这个核心定向开发和交付,而不是客户需求的简单执行和交付。 另外,定制化服务器产品的客户也有一套验收标准,通过其验收标准才算开发阶段完成。下面着重围绕这个定制化模式介绍各阶段的服务器产品质量是如何管理的(图-2,参考模型)。

图片1.png 

图-1

图片2.png

图-2

一、 产品立项质量管理

产品立项是产品开发的第一步,是确定产品的可行性、目标用户、商业模式和竞争优势等方面的分析和评估。因此,产品立项非常重要,对产品的顺利开发和上市有至关重要的影响。我们总结出定制化服务器产品在立项阶段有以下三大特点,如何利用好这些资源和优势是定制化服务器产品立项成功的关键。

第一,直接对接客户,在收到客户的产品需求时,所有相关部门,包括研发、生产、供应和服务部门等都需要直接面对客户,从产品质量设计保证能力,生产制造质量标准,以及售后产品质量保证和支持方面,全方位的解读客户需求,理解和输出。而通用服务器产品无法做到这点,通用服务器产品是市场总体调研大众化的结果输出,目的在于满足大多数客户需求的产品。

第二,双向互动输出,从通用产品模式的单向输出到定制化产品的双向互动,体现在工作模式上的转变,这点不同于通用服务器产品开发模式。我们需要对客户的需求进行分解和反馈,哪些需求是可以满足的,哪些新特性需求是存在差异的或理解偏差,需要经过多轮反复的沟通才能逐渐完善,可以说是两者之间共同探讨、交流和互相促进的过程。

第三、深度参与,定制化服务器产品在立项阶段就要深度参与,与其特性是分不开的,前面也提到,通常定制化服务器产品在技术规格的深度和细节上不同于通用服务器产品,比如BIOS设定、生产测试的标准、严重问题的定义和售后故障率的算法等等,尤其一些新技术规格参数,都需要深入参与和讨论,最终双方达成一致可行性方案。 

二、 工程开发验证测试质量管理

服务器工程开发验证阶段,主要是部件级和工程样机初期的设计验证。此阶段的样机问题还很多,需要把可能出现的设计问题一一修正,重点在于考虑设计完整度,是否有遗漏任何客户定制的规格。定制化服务器产品配置更聚焦和专一,通常支持的OS和应用也比较单一,因此,需要有针对性的进行开发和验证可以达到事半功倍的效果。例如,性能调优参数,涉及磁盘阵列\磁盘\内存\网卡读写参数、缓存大小和中断等参数。通过以上举措,不仅提升了产品设计保证能力,而且还提升项目运作效率。上面的介绍也提到了,定制化服务器产品有些技术规格的深度开发会消耗一些时间,但总体开发周期相对通用服务器产品会短一些。在这个阶段,我们也会用到一些主要工具和审查项目来保证开发环节的完整性和有效性,例如NUDD 质量风险评估和计划 (New/Unique/Difficult/Different) 和一些关键考核指标,进行达成效果监督。

三、 产品系统验证测试质量管理

此阶段属于开发的第二阶段,重点检验产品是否存在设计问题,包括功能、性能、可靠性等,确保所有设计都符合规格。简单来说,此阶段主要核心就是验证,验证产品是否达标,以及批量生产时产品是否同样能达到设计标准。在此阶段,我们会用到一些测试工具和软硬件设备进行验证测试,包括客户提供的测试工具(通用服务器产品无此项目)。同时,我们有一套审查和监督机制来保证达成的效果,例如,产品质量问题审查评估报告,设计验证产品质量准入、准出评审等。

四、 生产验证测试质量管理

此阶段为生产验证阶段,也称为试投产验证,主要验证产品的可制造性和生产流程,也是大规模量产阶段的最后一关。生产测试程序都是基于定制化服务器产品的参数开发的,包括读写参数、数据块大小,性能等都是基于客户应用进行调优的,这些不同于通用服务器产品的大众化测试程序。 另外,还有客户自己的验证测试,我们称为“定制化灰度测试”,在试投产验证通过后,客户会订购一批机器做灰度测试,相当于客户的最后验收测试。只有验收通过后,才准许此款定制化服务器产品进入量产期,标志着所有开发和测试任务完成。这个环节的验收也是非常严格的,只有前期做好各阶段的定制化质量管理工作,后期交付验证才能圆满通过。

五、 批量交付和售后服务

定制化服务器产品在交付质量、服务和支持等方面都有明确的要求,这些不同于通用服务器产品的日常管理,比如客户需求现场交付支持,包括开箱验收、上架部署测试、问题收集和解决,总结和改善等。 这类客户通常订单交付会比较集中,从数千台至数万台的大规模一次性交付,这就需要有一个专业的服务团队才能完成实施,通过日报追踪进展,确保交付质量。定制化服务器的客户通常采购量大、产品部署在多地区和业务应用高度集中等特点,因此在问题解决时效性上有特殊要求,我们为此建立了售后问题快速升级机制(绿色通道)图-3,解决问题的速度更快,更高效,这点不同于通用服务器逐级升级模式。特别遇到重大商业活动时,例如双十一、618和春节等重大活动,为了应对活动期间的任何突发事件,需要有厂商技术人员和备件现场支持,这类预防性工作是需要提前协调和做好准备。另外,我们与这类客户有定期周、月和季例会,定期和客户沟通产品质量状态,包括生产和售后数据、产品质量趋势和主要集中性问题并主动追踪和分析,及时做出改进和预防措施。做到主动发现、主动预防。

图片3.png

图-3

总结,中国服务器市场经过20多年的发展,如今正在进入精细定制阶段。从用户的角度来看,服务器定制化能更好地满足某些客户对服务器产品的个性化需求。定制化服务器已经成为了当下市场不可或缺的行业模式,服务器的定制化将更为彻底,因为它不仅实现了硬件层面的定制,更需要上层软件和应用的协同配合,才能够将定制化的作用发挥到最大,实现精细定制,相应的产品质量管理也需要不断优化和完善,各部门共同参与和达成客户期望。

(作者为联想集团基础设施业务群 质量总监)