致敬雅典娜矿池的“守夜人”
前言:10月1号,大家还在为国庆节和中秋节的到来兴奋不已。与外界的喧闹隔绝开来的是,雅典娜矿池(RRmine.com)的驻场工程师、运维工程师、后台开发工程师等运维人员正在通宵值班,守护着矿池。为雅典娜矿池(RRmine.com)的运维工程师们取名“ 守夜人 ”是对他们通宵达旦工作的真实写照。本文是小编采访守夜人的对话实录。
问答收录
1. 平时的上下班时间是?加班的情况多吗?
答:我们是轮班制,白班是早9点到晚6点,夜班晚上6点到第二天早9点。在机房内配有一线的驻场工程师,业务运维工程师,他们和二线的运维开发工程师、运维平台开发工程师、数据库工程师等配合。 轮班制,是为保证矿池7*24小时都有人在 。
加班是家常便饭,我们国庆节都没回家的,上次回家都是在9月底了(注:采访进行于10月11号)。Filecoin网络升级比较多,这需要矿池的软件代码优化更新、硬件的监测、设备构架的重新布局,这些都是很花时间的。如果加班实在太累,我们会轮流在泡沫床上休息一下。
雅典娜矿池(RRmine.com)数据中心加班人员小憩的泡沫床
2. “守夜人”们的日常工作内容?
答:一线的兄弟们(驻场工程师/运维工程师)是巡检机房,排查解决问题,布置服务器等等工作。一线兄弟们,很辛苦。这个和Filecoin挖矿的特殊性有关。 Filecoin挖矿对硬件性能要求非常之高,需要“榨干”硬件性能,非常耗内存资源、CPU和磁盘 。一线的驻场工程师常常要解决算力对于磁盘的消耗,以及因发热量过大导致的风扇报警等等问题。看着简单, 但是一线的工作情况和存储稳定性是直接相关的,存储稳定性高,挖矿效率就高,每TB算力的Fil得币率就高 。
二线研发工程师们负责搭建监控环境,7*24小时监控硬件设备、机器内存、网络缓存情况。还要开发脚本,在代码层面优化软件算法,提高矿池的资源利用效率和整体的投入产出比。尤其Filecoin的订单可能来自全球,二线研发工程师还要紧盯跨洋传输链路。如果某个步骤出现问题,要通知一线的工程师并及时解决,否则要影响矿池挖矿效率。
因数据中心规范性要求,工程师们只能在数据中心外的马路边尽快用餐,回归工作岗位
3. Filecoin 挖矿不同于其他的数字货币挖矿,需要很强的运维能力,作为守夜人,你觉得影响Filecoin挖矿产出的因素是什么?
答:Filecoin挖矿产出是和存储稳定性直接相关的,封装速度再快,但存储稳定性不够的话,会掉算力,产出不够稳定。和比特币的挖矿模式有点不同,我们都是 集群化的挖矿 ,保证集群存储稳定性,处理不同机器之间的请求调度和需求部署是很大的挑战。
Filecoin 挖矿网络稳定性也很重要 ,任何网络的抖动,都会导致算力的丢失,一旦算力丢失都是真金白银的代价。所以我们的机房才会选择在 标准运营商的数据中心 ,保证不会因为网络等原因掉算力。我们的配置在行业内都是相当豪华的,顶级品牌服务器,万兆网络,双线20G存储,并配有大量Woker,不会导致网络堵塞,保证windowpost和winninpost的按时提交,算力是很稳定的。
每次Filecoin网络代码时升级和压力测试时,我们的兄弟们就会处于“007”模式,熬夜加班敲代码,优化算法。 正是有了这些“007”,我们矿池的每TB算力的Filecoin得币率都非常的高,在一线矿池中,我们都是名列前茅 。
雅典娜矿池(RRmine.com)的数据中心内部
4. 加班最晚的那一天是什么时候,是发生了什么情况?
答:本身Filecoin网络不是很稳定,我们加班晚的很多。我记得最晚的一次是从早上9点,加到第二天下午, 具体时间记不清了,好像是9月初,当时是激励网压力测试。(注:北京时间9月8号周二凌晨三点Filecoin激励测试网迎来压力测试)
5. 运维中哪些问题比较难解决?
答:业务问题是最难解决的,Filecoin在SpaceRace期间压力测试和升级都比较多,这个是官方的代码原因和bug问题,官方的原因导致的业务问题,比较容易引起共识证明无法提交等问题。网络压力测试,这意味着软件代码需要及时地优化更新、硬件的重新监测、设备构架的重新布局。重新把整个机房和设备“焕然一新”后,我们还需要进行内部的网络压力测试,测试网络能够承受的阈值。在一切准备妥当后,才能迎来Filecoin网络的升级重置。
雅典娜矿池(RRmine.com)的数据中心外围
6. 在工作中,有没有自动化运维科技的辅助?
答:当然是需要的,一线的运维和二线的开发要紧密的结合是离不开自动化运维工具的帮助。 矿池很早就运用了DevOps (注:软件工程,促进开发、技术运营以及质量保证),当开发进行软件算法更新后,自动化后台程序一键式管理全部服务器,自动化部署。自动化技术也可以实现常见故障的自愈功能(如:硬盘超过阈值的情况)。这些简化软件开发和基础管理流程,让我们矿池的效率得到了很大的提高。
7. 你认为一个好的运维需要什么品质?
答:细致小心是运维人的基础,如果在运维中出现了小细节的错误,比如少打一个代码符号,都可能会引起矿池掉算力,被惩罚。
总结反思也很重要,我们部门早上有早会,下班前有例会,每周固定还要开总结会。
最终核心还是责任感,我们雅典娜矿池(RRmine.com)管理着海量的客户设备资产,每一台都是客户的真金白银,我们有责任为客户的投入负责,为我们矿池负责。
岁月静好,只是有人在黑暗中负重前行。 雅典娜矿池(RRmine.com)傲人的全球排名背后离不开“守夜人”们的默默付出 。发文时,距离Filecoin主网上线还有2天,“守夜人”们正在马不停蹄地为这一盛典的到来做最后的准备。
冰河分布式存储实验室 致力于向行业输出IPFS分布式存储 专业知识科普、最新技术公开测评、最优算法开源、最佳矿机矿池配置方案、生态应用实测 等成果,正本清源地向行业传递开源、务实、透明的信息,探寻更佳的解决方案。实验室成员包括著名学术机构:中科院计算机所上海分所、电子科技大学、清华五道口区块链俱乐部,硬件厂商:戴尔中国、新华三,分布式存储服务商:上海储迅、风行极客、新钛云服、领存技术,IDC服务商:网域网、商众联,生态应用企业:人人矿场、Jack&Me、爱奇艺游戏、迅游、蔚领科技,行业投资基金:启赋资本、丰厚资本、盈创资本等。
凭借在 软件算法/集群运维/硬件配置 等方面优势,冰河实验室旗下雅典娜矿池(RRmine.com)在Filecoin测试网与Space Race中表现优异。雅典娜矿池(RRmine.com)以矿工ID:T0118768接入第二阶段测试网,不到2周时间,雅典娜矿池(RRmine.com)有效算力稳居前三。雅典娜矿池(RRmine.com)先后以矿工ID:t01111、t01119与t01087接入Calibration网络,有效算力、出块数、算力增量均暂列Calibration网络首位。雅典娜矿池(RRmine.com)以矿工ID:t02614接入Filecoin激励网SpaceRace, 亚洲单节点算力位居全球第五,在SpaceRace1中单T产币14.93Fil,排名全球第一 。