5. 故障排除:30%¶
1. 评估集群和节点日志¶
Evaluate cluster and node logging
2. 了解如何监视应用程序¶
Understand how to monitor applications
3. 管理容器标准输出和标准错误日志¶
Manage container stdout & stderr logs
4. 解决应用程序故障¶
Troubleshoot application failure
5. 对群集组件故障进行故障排除¶
Troubleshoot cluster component failure
- etcd
- api-server
- controller-manager
- scheduler
- kubelet
6. 排除网络故障¶
Troubleshoot networking
题目¶
- 列出指定pod的日志中状态为Error的行,并记录在指定的文件上
- 列出k8s可用的节点,不包含不可调度的 和 NoReachable的节点,并把数字写入到文件里
- 列出Service名为test下的pod 并找出使用CPU使用率最高的一个,将pod名称写入文件中
- 使node1节点不可调度,并重新分配该节点上的pod
- 给出一个失联节点的集群,排查节点故障,要保证改动是永久的。
- Monitor the logs of Pod foobar and Extract log lines corresponding to error unable-to-access-website Write them to /opt/KULM00201/foobar
- 找出pod中的错误日志
- 列出正常节点的个数
- 找到指定service下的pod中,cpu利用率按高到底排序,按selector查找
- 排查apiserver连接不上问题: