专栏:运维日常
运维日常更新也有好几篇了,也收录在这个专栏里面,质量良莠不齐,期待时长更新和修改。btw.运维也不是我的主业...
集群节点用户系统同步-NIS
资源目前课题组的服务器一共分两组:
node00-node05组成的Node算力序列,简称Node组; node组的算力为 12cpu*6 node=72CPU, 满负荷进程数144个(单节点提交<=24进程), 内存:128 GB/node * 6 node
Core01,Core01组成的Intel Core算力序列, 简称Core组。core组的算力为 24cpu*2core=48CPU, 满负荷96进程(单节点提交<=48进程), 内存:512 GB/Core *2 core两个组的算力差异不大,但是后者更适用于高并行的模拟任务,开销的内存较小;node更适合大批量的数据处理,如反演等数据产品的制备,需要大的内存开销。所以在使用上,我们决定按照任务类型将及其分配给不同的用户组。也就是两个不同的集群,共享一套磁盘存储。
目前,8台机器的操作系统已经全部更新,如下:
Hosts
系统
内存
子网ip
node00
Ubuntu 22.04.3 LTS
256 GB
192.168.1.100* ...
集群节点文件共享-Node02更新系统
node2 的系统崩溃了,需要安装新系统,决定更换成ubuntu,但是替换后的兼容稳定性,运算效率等都是未知数,并且我没有配置集群的经验。这次使用node02实践一下,争取可以形成生产力