正规的运维工作是什么的?( 二 )


8.基础服务建设业务对 DNS、NTP、SYSLOG 等基础服务的依赖非常高,需要设计高可用架构避免单点,提供稳定的基础服务 。
 
应用运维应用运维负责线上服务的变更、服务状态监控、服务容灾和数据备份等工作,对服务进行例行排查、故障应急处理等工作 。详细的工作职责如下所述 。
1.设计评审在产品研发阶段,参与产品设计评审,从运维的角度提出评审意见,使服务满足运维准入的高可用要求 。
2.服务管理负责制定线上业务升级变更及回滚方案,并进行变更实施 。掌握所负责的服务及服务间关联关系、服务依赖的各种资源 。能够发现服务上的缺陷,及时通报并推进解决 。
制定服务稳定性指标及准入标准,同时不断完善和优化程序和系统的功能、效率,提高运行质量 。完善监控内容,提高报警准确度 。
在线上服务出现故障时,第一时间响应,对已知线上故障能按流程进行通报并按预案执行,未知故障组织相关人员联合排障 。
3.资源管理对各服务的服务器资产进行管理,梳理服务器资源状况、数据中心分布情况、网络专线及带宽情况,能够合理使用服务器资源,根据不同服务的需求,分配不同配置的服务器,确保服务器资源的充分利用 。
4.例行检查制定服务例行排查点,并不断完善 。根据制定的服务排查点,对服务进行定期检查 。对排查过程中发现的问题,及时进行追查,排除可能存在的隐患 。
5.预案管理确定服务所需的各项监控、系统指标的阈值或临界点,以及出现该情况后的处理预案 。
建立和更新服务预案文档,并根据日常故障情况不断补充完善,提高预案完备性 。能够制定和评审各类预案,周期性进行预案演练,确保预案的可执行性 。
6.数据备份制定数据备份策略,按规范进行数据备份工作 。保证数据备份的可用性和完整性,定期开展数据恢复性测试 。
数据库运维数据库运维负责数据存储方案设计、数据库表设计、索引设计和SQL优化,对数据库进行变更、监控、备份、高可用设计等工作 。详细的工作职责如下所述 。
1.设计评审在产品研发初始阶段,参与设计方案评审,从DBA的角度提出数据存储方案、库表设计方案、SQL开发标准、索引设计方案等,使服务满足数据库使用的高可用、高性能要求 。
2.容量规划掌握所负责服务的数据库的容量上限,清楚地了解当前瓶颈点,当服务还未到达容量上限时,及时进行优化、分拆或者扩容 。
3.数据备份与灾备制定数据备份与灾备策略,定期完成数据恢复性测试,保证数据备份的可用性和完整性 。
4.数据库监控完善数据库存活和性能监控,及时了解数据库运行状态及故障 。
数据库安全
建设数据库账号体系,严格控制账号权限与开放范围,降低误操作和数据泄露的风险;加强离线备份数据的管理,降低数据泄露的风险 。
5.数据库高可用和性能优化对数据库单点风险和故障设计相应的切换方案,降低故障对数据库服务的影响;不断对数据库整体性能进行优化,包括新存储方案引进、硬件优化、文件系统优化、数据库优化、SQL优化等,在保障成本不增加或者少量增加的情况下,数据库可以支撑更多的业务请求 。
6.自动化系统建设设计开发数据库自动化运维系统,包括数据库部署、自动扩容、分库分表、权限管理、备份恢复、SQL审核和上线、故障切换等功能 。
7.运维研发运维研发负责通用的运维平台设计和研发工作,如:资产管理、监控系统、运维平台、数据权限管理系统等 。提供各种API供运维或研发人员使用,封装更高层的自动化运维系统 。详细的工作职责如下所述 。
8.运维平台记录和管理服务及其关联关系,协助运维人员自动化、流程化地完成日常运维操作,包括机器管理、重启、改名、初始化、域名管理、流量切换和故障预案实施等 。
9.监控系统负责监控系统的设计、开发工作,完成公司服务器和各种网络设备的资源指标、线上业务运行指标的收集、告警、存储、分析、展示和数据挖掘等工作,持续提高告警的及时性、准确性和智能性,促进公司服务器资源的合理化调配 。
10.自动化部署系统参与部署自动化系统的开发,负责自动化部署系统所需要的基础数据和信息,负责权限管理、API开发、Web端开发 。结合云计算,研发和提供PaaS相关高可用平台,进一步提高服务的部署速度和用户体验,提升资源利用率 。


推荐阅读