www.tengbo9887.com,腾博游戏|官网
互联网
您所在的位置是:www.tengbo9887.com > 互联网 >
互联网
您所在的位置是:www.tengbo9887.com > 互联网 >

互联网

下一代的DevOps服务:AIOps

发布时间:2019-12-25 00:19    浏览次数 :

  9月15日技术沙龙

二是具有关键组件但数据源往往受限的供应商,他们通常专注于一个域。这些工具往往只有一组有限的用例,针对于某些IT运营部门。

陌陌在k8s容器方面的实践

首位演讲的是王景学老师,主要分享陌陌在k8s容器方面的实践和应用迁移方面的一些经验。当时陌陌选用k8s进行实践的主要原因是,应用发布时间过长、紧急扩容吃力,效率低且应用运行环境软件版本不一致,配置复杂,维护成本比较高,硬件资源利用率不高,总体成本比较高。

图片 1

k8s方面的设计目标有五点,分别是:提高服务的可用性,可管理性、使用k8s来管理docker集群、开发不需要关心服务器、提高资源隔离性,实现服务混合部署,应用级别基础资源监控,服务平滑迁移等。针对这些问题和目标,通过自研发布系统,基于docker和k8s的容器管理平台,便于开发者便捷地部署自己的应用程序。

如下图,是K8s架构

图片 2

针对K8s架构,王景学老师还分享了基于location和group标签的集群调度、基于ovs的网络节点架构和实现、集群在阿里云扩展和支持,测试环境中有状态应用的尝试、容器基础资源监控方面的指标等,还有在应用迁移过程中,遇到了Swap、cpu软中断及资源利用率,应用白名单等问题。

于未来,希望可以实现对应用请求量,线程数,流量等指标的监控。基准值部分,达到单实例可承载请求量,线程数,流量。伸缩方面,做到最小保留实例数,最大扩容实例数,根据监控反馈和基准值计算需要扩容和缩容的实例数, 按照各个集群资源余量按比例伸缩。

3.6非零基构建:AIOps是在现有基础架构之上构建的智慧大脑,依赖于现有的眼(应用访问关系、监控告警、日志)和手。眼数据主要有:应用访问关系,基础架构成熟的企业,积累了应用访问关系,不成熟的企业,需要借助AIOps进行梳理;监控数据,包括设备监控数据、网络监控数据、系统监控数据、平台监控数据、应用监控数据、业务指标监控数据,这些都是结构化的时序数据;日志数据,非结构化的数据,每个系统都有自己的日志数据,不便于统一分析。手主要分为外手和内手,外手主要是在系统在外侧操作,可以通过云平台(IAAS和PAAS)实现,内手主要通过自动化工具实现,例如无代理的Ansible和有代理的Puppet。AIOps就是基于现有的眼数据,进行分析、推理、决策,然后使用现有的手进行运维。

引用宜信技术研发中心在业内技术大会上宣布正式开源支撑AIOps 的三大利器:UAVStack、Wormhole、DBus。不断开放开源技术,推动技术共同成长是宜信技术生态的目标之一。包括在今天正式开源的UAVStack,Wormhole,DBus等在内,已经开放七个系列的软件技术。更多开源参见技术学院官网。宜信开源软件系列UAVStack是智能化服务技术栈,是研发运维一体化的解决方案,开源系列包括全维监控,应用性能管理,服务治理,微服务计算。其中,UAV.Monitor+APM为智能运维采集全维监控数据,是一站式的全维监控+应用运维解决方案。官方网站:开源地址:专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,经过转换处理后成为统一JSON的数据格式,提供给不同数据使用方订阅和消费。开源网址:此外,DBus还提供以下特性:多种数据源支持,海量数据实时传输感知源端schema变更,数据实时脱敏初始加载和独立加载统一标准化消息传输协议,可靠多路消息订阅分发支持分表数据汇集DBus技术架构Wormhole是一个SPAAS平台解决方案,面向大数据项目的开发,运维以及管理人员,致力于简化和统一开发管理流程。运维是典型的大数据应用领域,是机器学习的有力支撑,尤其是针对流式实时和流式准实时数据处理场景。开源网址:。Wormhole技术架构智能运维的自研之路Gartner定义了基于算法的运维,算法即运维,将算法运用运维领域。实际上我们在自动化运维体系中已经将算法落地到DevOps工具链中,日益兴盛的人工智能技术,让我们意识到赋予系统“智能化”是大趋势。我们对AIOps的解读是:AIOps正是将人工智能技术应用到IT运维领域,帮助变革运维模式,提升效率和创造现实价值的“工程化”过程,也是DevOps的进化方向。它会成为:运维管理的成员:协调人与系统,不是被动的工具,而是直接参与运维的“助手”业务运营支持的成员:协调人与业务,参与运营的“助手”业务与系统的“全知”者:协调业务与系统,管理系统,支撑业务落地方案宜信AIOps平台架构宜信的AIOps平台是以任务机器人为中心,利用大数据平台实现机器学习和统计模型的处理,与DevOps工具链深度集成。可从几个层面来解读这个架构:DevOps工具链为任务机器人HIT的知识图谱构建提供了高质量的原始数据任务机器人HIT的核心能力来源于特定领域的知识图谱和计算模型。目前我们的训练领域包括系统API模型,个性化交流上下文,服务拓扑,执行计划,问题诊断等。知识图谱是实现认知关联的核心技术,而如何自动化构建知识图谱是关键的关键,成熟的DevOps工具链可以为自动化构建知识图谱提供高质量的原始数据。全维监控UAV为任务机器人HIT的模型训练提供了全面维度的原始数据在智能运维体系中,UAV采集的全维度监控数据是机器学习的原始数据来源。全维度监控数据覆盖基础设施性能,应用/服务性能,日志,调用链,线程栈,客户端体验,业务指标,应用画像,服务图谱。数据总线DBus持续的,自适应的将全维监控数据导入大数据存储全维度的监控数据还不能直接使用这些数据来做机器学习。其原因是由于它们的存储和查询需求是根据实时监控领域的需要来定义的,因此它们有以下特点:存储在不同的存储源。例如服务画像数据存储在MongoDB,应用日志和调用链存储在Elastic Search中,应用性能指标和基础性能指标数据存在RocketMQ中等;有不同的schema定义。例如BIN日志格式,JSON格式,Plain日志格式,性能指标的schema与调用链的schema是不同的。不同的变更策略。例如服务画像数据是根据应用升级不定期变化的,日志数据也可能是这样。DBus正是解决这三个问题的良方。能够支持多种数据源,只需通过配置就可实现无侵入对接。能够将不同的格式转换成标准格式。有自动适应的能力,匹配这些类型和格式的变化。大数据处理Wormhole针对目标场景,基于全维监控数据进行机器学习和统计模型处理Wormhole是任务机器人的计算模型生产者。Wormhole基于Spark,既可接入Kafka在线实效数据进行流式处理,也可接入HDFS离线历史数据进行批量处理。Wormhole不光支持落地多Sink,还支持流上处理,还可以在落HBase之前流上做一些数据清洗扩展等操作。目前我们的任务机器人HIT的训练主题“问题诊断”的计算模型都是由Wormhole来实施训练,实际生产过程中会使用机器学习和某些经典统计模型,主要的有:时序数据的趋势预测模型:可以根据过去若干天来预测未来一段时间某重要指标的趋势走向。指标的关联组合模型:识别出哪些指标组合是判断异常的充分条件。组合指标的异常点识别模型:组合指标在时序上异常点的自动判别。问题节点的根源分析模型:跨多节点的异常行为关联性识别模型。任务机器人HIT通过API模型实施执行计划任务机器人与普通系统的另一个重要区别是:普通系统可以看成是通过编码来“机械”的完成某种事,就系统本身而言,它并不理解“我在做什么”。而任务机器人是以目标驱动的,它根据API模型以及其他认知模型来生成执行计划,并使用API模型来实施执行计划,执行计划的本质是对DevOps系统API的调用。这样的应用场景是很多的,例如让任务机器人去做系统上线,线上巡检,协助问题处理,甚至支持运营协作等。

原标题:下一代的DevOps服务:AIOps

定义

用基础设施即代码自动化架构迁移

最后一位演讲人是专注于 DevOps、持续交付,微服务以及全功能产品团队的设计、实践、落地以及经验推广的顾宇老师。他的演讲主题是用基础设施即代码自动化架构迁移。

图片 3

演讲由一个真实的架构迁移案例展开,分享了在一个东南亚互联网企业并购案例中的 DevOps 的实施案例。通过在 AWS上使用 Ansible 和 CloudFormation作为基础设施即代码的工具实现产品架构的迁移。

在互联网企业的并购过程中,不光是组织结构的融合,更是产品架构和产品团队的融合。然而在不同的企业文化、技术能力甚至是不同的国家法律法规上的融合更多的是看不到的隐形成本。

通过 DevOps 的基础设施即代码实践,把架构以及开发/运维实践固化为配置和代码。让所有的团队和成员能够依照同样的规则进行开发和运维。通过自动化的手段加速团队和产品和架构的融合过程,提升整个组织的技术水平。

首先,根据康威定理,组织和架构和基础设施架构要保持一致,就可以根据未来的组织结构设计系统架构,可以减少系统架构演进中的适应性浪费。

其次,把整个架构分层次封装:基础设施、应用和数据 三种类型分别进行封装:

  1. 基础设施通过配置管理技术封装在 Ansible 的 Playbook里,把 Ansible 作为 Cloudformation的引擎。
  2. 应用通过 Docker 镜像进行封装,根据不同的地区在构建过程中进行合并。
  3. 数据通过自动化的备份脚本和自动化的迁移脚本(Migration Scripts)实时保证可用性。

然后,根据使用场景,设计基础设施即代码的架构。能够自动的把整个架构自动的搭建和还原。根据使用场景设计安全策略,避免人为操作,减少人为故障。

顾宇老师表示,基础设计即代码和基础设施是类和对象的关系。根据不同的场景,可以采用面向对象原则进行逻辑分层。隔离不同场景的关注点。例如:持续交付关注Docker 镜像的部署和变更,应用维护关注日志的查询和操作。

最后在该案例中,顾宇老师总结了利用基础设施即代码技术的几个关键要点:

  • 架构迁移要为组织结构迁移服务
  • 把自动化和基础设施即代码当做制度使用(康威定理和逆定理)
  • 把基础设施即代码当做一个产品开发
  • 安全的架构和架构的安全
  • 基础设施逻辑分层基础设施即代码本质上是一套类库,从面向对象的原则考虑基础设施的设计。
  • 构建每日可用架构

图片 4

活动结束时,现场很多开发者还意犹未尽,围着诸位老师就自动化运维的部署、迁移等方面问题,进行探讨交流。

随智能化在各个应用领域的落地及实践,IT运维也将迎来一个智能化运维的新时代。让我们共同见微知著、未雨绸缪,当机器能越来越智能地工作,我们也要变得越来越聪明。

51CTO Tech Neo技术沙龙是51CTO在2016年开始定期组织的IT技术人员线下交流活动,目前仅限北京地区,周期为每月1次,每期关注一个话题,范围涉及大数据、云计算、机器学习、物联网等多个技术领域。

数据中心的主要职责是安全生产,围绕着安全生产有三个目标:

图片 5

因此,如果监控解决方案报告了由于连接数量增加而导致了CPU使用率的增加,诸如此类。Kubernetes就可以启动额外的应用程序实例,并使用负载平衡来分配访问流和减少负载。这是最简单的场景,而现实世界的用例则要复杂得多,需要允许自动执行任何的日常DevOps任务,使ML模型能够在特定条件下启动它,并预先处理问题,而不是在停机后。

一是通过增量方法确保成功部署AIOps的各项功能。

运维发展历程与工业革命异曲同工,工业的三次革命分别是机械化、电气化与信息化,运维则是原始手工、脚本与自动化工具。那么工业4.0悄然来临的今天,智能化又将会给运维带来哪些影响?坦白讲,AIOps是新概念,目前并没有准确且广泛使用的定义,对AIOps的认知也会随实践、反思和讨论的不断积累发生演变。但AIOps所指代的整体趋势是毋庸置疑的,智能化将逐步走进IT行业乃至社会生活的各个方面。

AI算法:机器学习算法,按标注可以分为监督、非监督、半监督、强化;按用途可分为分类、聚类、回归、降维;按照方法可分为统计学、传统机器学习、深度学习等。其中,统计学(例如:正太分布、均衡分布)要求数据必须满足某种分布,在异常检测领域用的多,包括运维领域的故障处理、金融领域的反欺诈、工业领域的残次品检测。传统机器学习(例如:kmeans、随机森林、支持向向量机、贝叶斯、决策树、马尔可夫等),虽然对数据要求弱一些,但对场景依赖强,即使是同一个场景的不同环境,也需要不同模型,在数据分析领域用的比较多。深度学习(深层神经网络,例如:CNN、RNN)对数据要求高,因为更多的数据才能训练出更深的神经网络,更深的神经网络抽象表达能力更好,也就决定了场景适应能力越强,主要是用在图像技术、语音技术、自然语言处理三个通用技术领域。

责任编辑:

为此,雷锋网整理了Gartner最新公布的《AIOps平台市场指南》,以帮助用户快速了解当前新兴AIOps市场情况。

去哪儿网基于Kubernetes/Ceph的机器学习云实践

第二位演讲者是有丰富云平台建设、运维、容器云落地等经验的叶璐老师,演讲的主题是去哪儿网基于Kubernetes/Ceph的机器学习云实践。

图片 6

叶璐老师以深度学习的兴起为演讲开端,这要涉及深度学习的概念、兴起的原因、深度学习加速器-GPU等方面的内容。紧接着分享了深度学习在Qunar的应用,像智能客服,拿去花用户信用评级,酒店推荐等都是经典实践。

演讲最核心的部分是如何应对GPU使用资源的一系列问题,如环境无隔离、采购周期长、 资源利用率低、各种工具的环境部署成本高等。

图片 7

针对这些问题,去哪网采用的方式是构建GPU云,第一期的目标是GPU资源云化, 持业务线同学快捷定制机器学习应用,秒建秒删,一键释放GPU资源,建立统GPU 资源申请和管理等入口到Portal,降低业务线同学的接入和学习成本。做到环境隔离同时保证训练数据在分布式环境下的持久化和可靠性,以及支持Tensorflow全工具链。

如下图,是机器学习应用的一种部署情况

图片 8

叶璐表示,目前一期已经完成正在公测中,使用前后对比,在环境秒起秒删、环境隔离给开发同学提供极大的便利。在对接Ceph后,数据的可用性和可靠性大大提升,不用担心因为更换机器带来的训练数据迁移,丢失。

图片 9

GPU云基础环境固化,让开发同学免受环境安装之苦是第一步。现在Spectrum第二期也在开发中,开发工程师随时固化到Kubernetes Post-Install,提供了更高的环境定制自由度;同时Tensorflow serving的上线,为机器学习应用真正落地提供了更完整的pipeline,同时还有其他的优化,上下游的数据获取管道,预处理流程优化,Jupyter插件系统集成。

五、结束语

原文标题:What Is AIOps: The Next Level of DevOps Services,作者:Vladimir Fedak

那么,智能化运维如何在真实业务场景中落地?Gartner为用户指出了三点建议:

二、高效运维

这样做的结果是,在数据分析阶段,一些重要的模式可能会被忽略,数据可视化的视图被完全排除。这可能使得整个过程毫无用处,就好像大数据分析不能产生可操作的业务洞察一样,它将无法提供大数据分析中最重要的价值。

三是选择能够在IT运营导向的分析和机器学习的四个阶段系统进步的工具。

图片 10

2.1资源供给:之前是针对每次资源申请,运维人员都得把机器上架、系统安装、存储配置、网络配置等一系列流程跑一遍,涉及各个专业的人工协同,小企业人少,一个两个人搞定一切,大企业专业分工明确,这些工作需要多人协同,效率无法保证。现在是通过云计算来提升效率,主要是池化和自动化,池化是指提前准备一批资源,避免每申请一次就得准备一次,自动化是指通过自动化的流程去串接各个专业条线,避免沟通成本和低效的手工操作,提高了效率和人员安全。

AIOps在企业IT运营中的应用正逐渐升温,其中,一些更为成熟的组织则正利用该技术为企业领导者提供洞察力。 AIOps技能和IT运营成熟度是确保其快速实现价值的常见因素,此外,数据质量成为更为发稿平台成熟部署架构时的新挑战。 企业采用AIOps平台以增强应用性能监测工具和网络性能检测与诊断工具。 供应商正制定使用机器学习的战略,以分析IT运营在数量、种类及速度等方面遇到的数据挑战。与此同时,他们也在构建数据存储和人工智能实践定制化的能力。

今天, 由51CTO 主办的第十六期以“Tech Neo”为主题的技术沙龙活动如期举行,此次沙龙邀请了来自陌陌科技SRE团队负责人王景学、去哪儿网DevOps工程师叶璐和ThoughtWorks高级咨询师顾宇。希望讲师们这些基于平台、建站、深度学习等不同方式的自动化运维实践经验,多少可以为运维/开发人员带来一些的新思路。

2.2高效运维:围绕着高可用架构,进行一些列高效运维工作,包括:资源供给、应用部署、日常变更、故障处理、数据治理等。

  • Grafana、Kubernetes和terra form等流行的DevOps工具来构建这样的系统。更重要的是,尽管这个想法本身非常重要,但实施它所需的基础设施管理水平远远超过了普通公司的能力。

Gartner认为,AIOps将会演变成双向解决方案,不仅可以获取数据进行分析,还可以根据分析启动操作。这些操作最有可能通过软文推广与其他ITOM/ITSM工具集成,将采取多种形式,包括:

自动化运维与 DevOps”沙龙现场

3.2 数字化运维:信息化是把手工流程变成线上流程,数字化是把物理对象抽象为数字对象,通过大数据分析和机器学习算法挖掘数据的价值。大数据主要通过大量多样数据的分析,挖掘数据的价值,会使用到一些机器学习算法,机器学习主要强调决策的自动化,依赖的基础也是数据,可以说,大数据分析基础,AI是目标态。AIOps是运维数字化的直接体现。

AIOps是一个总称,用于指代使用复杂的基础设施管理软件和云解决方案监控工具来实现自动化数据分析和日常的DevOps操作。

为此,非IT团队如业务leader和IT运营团队,对AIOps技术产生了越来越浓厚的兴趣。正如他们探索正探索的通用平台,其部署时最大的问题在于IT运营实现不同用例时的AIOps平台的性能和成熟度。

一、安全生产

上一篇:谈谈产品调性 下一篇:没有了