AIOps和你——更快的部署,更安全的管道,更快乐的人

学院刑事专家希斯纽伯恩
AIOps解决方案专家

在本课程中,您将学习AIOps如何创建可操作情报以及如何在可操作情报中驱动行动。

您将看到如何提高管道的速度和安全性,自动化如何帮助您专注于核心业务,而不是琐事业务,以及我们如何为员工和客户创造更好的数字体验。

视频记录

你好。我的名字是Keith Newburn,我将是你们的夏尔巴人、向导、导师、茶水工或水童,无论你们今天需要什么,当我们谈论人工智能行动时,以及它能为你们做些什么。这次演讲是预先录制的,但我可以在聊天中找到我,你们也可以在Twitter和LinkedIn上找到我。所以,拿上你最喜欢的饮料,吃点零食,放松一下,让我们谈谈人工智能和自动化如何帮助你和你的管道。所以我们今天会讲一些东西,为什么人工智能运营很重要,它是什么,它能为你做什么。

履行可操作情报的承诺以及下一步。所以,希望你能带着一些想法离开,为你的团队创造价值,并为你的一周节省一些时间。

在过去的10到15年里,技术领域发生了巨大的变化。即使回想一下20年前的互联网热潮,以及亚马逊、eBay、贝宝和其他公司的崛起,这些公司都是建立在运行在非常昂贵的硬件和私有数据中心的专有数据库上的单一应用程序上的。

在过去的几十年里,云计算将基础设施作为一种服务带给了我们,它用几乎无限的虚拟服务器取代了裸机服务器,但随着其他云计算的兴起,我们也将单片应用程序分解为分布式微服务和组件。

想想20世纪90年代末的亚马逊,它只运行一个名为Obidos的应用程序,而今天,它的主页就包含了数千个不同的部分。在此过程中,敏捷、精益和DevOps方法的兴起意味着每个组件的交付速度更快,有时一天要交付很多次。在您的应用程序中,复杂的情况出现在两个维度上:单个组件之间具有复杂的依赖关系的绝对数量,以及变化的绝对速度,不仅有新的修订,还有短暂的组件和不断变化的依赖树。毫无疑问,那些流程依赖于传统数据中心中相对静态的世界观的IT组织承受着难以置信的压力。

为了跟上变化所需的工具以及监控、APM、日志和其他可观察工具的兴起,这种压力进一步加剧。70%的IT组织依靠多达9种不同的监控工具来支持现代应用程序。较大的组织可能有30多个工具。请记住,这是在他们开始数字化转型之前的情况。根据同一项调查,平均47%的人每月收到超过5万个警报,而我们最大的客户每天要处理数百万个警报。要处理的事情太多了。

你还好吗?我们这些在地面上的人是如何处理这一切的?好吧,有些比其他的好。但我想我们都同意过去的一年是漫长的。当我和很多IT同行交谈时,我觉得我们都需要一个集体拥抱。

科技、Twitter和波旁威士忌已经形成了一些不推荐但可行的应对机制。

我见过很多球队都经历过巨大的失误。那些希望获得市场份额的公司试图快速增长,并比以往任何时候都更加努力地推动他们的IT团队。那些裁员的公司为了降低成本,彻底削减了团队,给现有员工带来了更大的压力,也给正在找工作的人带来了很多焦虑和担忧。那些在两者之间苦苦挣扎的公司在很多情况下都失败了,关闭了商店,或者只剩下骨干员工,他们用捆线和希望团结在一起。

我仍然不确定对我们的任何一支球队来说什么是正确的,但我知道对我交谈过的人的影响很严重。我想的不仅仅是你的故事。

最近的一篇期刊文章显示,73%的科技行业同行感到精疲力竭。自大流行开始以来,80%的人的工作量大幅增加,近三分之二的人每周多工作10个小时来解决事件。地平线上也没有任何线索。79%的人认为数字化加速是其组织2021年的首要任务。

《哈佛商业评论》做了一项类似的研究,表明职业倦怠不仅会影响士气,还会损害组织的底线。聘请一名优秀的工程师需要花费3万美元或更多,而这些影响会累积起来。

更低的敬业度会导致更低的生产力,以及更高的人员流动率和医疗成本。综合影响是巨大的,估计高达1900亿美元。在大流行之前,情况很糟糕,但今年的情况告诉我们,我们必须找到改变的方法,我们不能一直靠我们聪明的人来做所有繁重的工作。

我们不能一直做超级英雄。我对此充满热情,我对帮助it团队取得成功充满热情,我认为我对这个特定领域充满热情的原因之一是AI和自动化或AI Ops可以提供帮助。

AI运维这个术语的问题在于,它可能只是一个营销术语,所以它是开放的解释,就像DevOps一样,尽管许多人说没有一个AI运维工具。它是创造价值的能力的集合体。

所以你可以去看看Gartner、福布斯或福布斯51的各种定义,他们都说同样的事情,但不同。哦,有趣的事实,也是在科技城赢得酒吧赌注的好方法。

人工智能运营最初被定义为算法IT运营,而不是人工智能。祝你们玩得开心。但即便如此,人工智能到底有什么意义呢?这是关于构建大量结构化非结构化数据湖进行分析吗?是HELL 9000吗?如果我把流媒体日志文件搞砸了舱门会不会打不开?我的混合操作是Alexa还是Siri ?

人们很容易被炒作冲垮,认为人工智能是某种神奇的子弹,可以解决这个极其复杂的世界中的所有It运营问题。显然,它不会,那么它今天能做什么呢?

AI运营正在为客户解决四个现实世界的问题,通过减少平均解决时间或mttr,减少要处理的事件数量,或者完全消除所需的工时和事件解决时间,从而节省数百万美元。因此,帮助每位CIO实现实现业务增长和稳定的梦想。这些要做的工作正在爬这座山。

今天,这包括从噪声和遥测中分离信号,根据过去的行为确定解决问题的最佳人选或团队,并将其与正确的服务相关联,使用自助服务进行引导自动化或仅执行自动化以提高mttr,提高团队效率并消除辛劳。最后,总体上将IT运营组织从手动反应流程转移到预测性的主动流程。

这些任务以这个特定的顺序出现,因为它是一个旅程,我们最成功的客户大致以这个顺序处理它们。

例如,如果你被噪音淹没,就很难投资自动化。因此,这就是寻呼机任务AI操作解决方案可以提供帮助的地方。

我们从过滤噪声、删除重复警报和常见问题(如端口扑动)的最佳实践开始。我们还包括暂停运输警报的功能,知道某些警报将自行解决,并防止这些问题的通知,这些问题将自行解决并减少警报疲劳。在使用事件数据的初始重复数据删除机器学习来识别事件之间的相似性之后,根据以下数据自动将多个警报实时分组在一起事件内容,以及时间框。

当我们识别并解决并发事件时,这可以帮助消除团队之间的重复工作。

我们还使用这些数据与历史记录进行比较,以建议以前的团队为解决类似类型的事件所采取的行动和自动化。换句话说,我们不仅在系统生成的数据上使用机器学习,还在对问题做出反应的人类上使用机器学习。

我们可以订阅变化事件。我知道,对于任何在运营中待过30多秒的人来说,很难相信这一点,问题几乎总是来自变革。这有助于我们更快地找到根本原因。通过将其与管道数据结合起来,我们创建了您在交付过程中所处位置的上下文,并且能够执行诸如不向非生产性部署发送关键警报之类的操作。我在开头提到,在快速发展的复杂微服务类型环境中跟踪依赖关系和关系是非常具有挑战性的。对于快速移动的工程团队来说,在其他服务所有者甚至不知道的情况下创建对其服务的依赖并不罕见。我们明白了。这就是CI\CD工作的原因。同样,我们正在使用机器学习来显示服务之间可能隐藏的依赖关系。例如,如果中断和服务B倾向于紧随中断和服务A之后,那么随着时间的推移,我们将了解到这一点,并向服务B的所有者建议他们的中断可能会发生实际上是由于服务A,即使没有声明显式依赖关系。

如果用户之前关联过这些东西,我们的算法会考虑到这一点,并根据时间、标签等进行关联。

帮助我们找到合适的服务。这个服务上下文非常关键。我们不希望对产生收入的服务做出与后台服务相同的反应,这可能不是关键任务。这是减少警觉性疲劳最简单的方法之一,并帮助团队专注于真正重要的事情。如果是周六凌晨3点,要通知人力资源部门每个人都已经发了工资。我们知道周一之前情况不会很危急。那我们为什么要叫醒别人呢?借助我们的平台分析功能,您可以利用机器学习来帮助您实现下一个目标。因此,我们的分析实验室将从寻呼机职责深度数据集中提取见解,以个性化地回答两个关键问题。

其中一些可能是少事故的代价是什么?哪些事件受解决时间的影响?哪些应答者受到的影响最大?我可以通过一个按钮调用行动,并为机器学习提供智能建议,建议我如何减少噪音?如何提高团队效率?我该如何改进我的日程安排?

有了这些容易生成的数据,我可以把它拖到其他团队,向他们展示我得出这些结论的原因。

我们已经在高级分析中编写了一个成熟度模型。

它对企业在数字化之旅中的位置进行了基准测试,并展示了基于我们12年服务超过13,000名客户和近600,000名用户的经验,如何通过具体建议来提高成熟度。Analytics API支持无处不在的详细事件数据访问,因此您可以利用自己的bi工具和数据专家提取新的见解。事件智能分析的这些功能为实际智能创建了新的视图,从而导致更好的管道管理。

有很多工具和平台都在谈论过滤噪音或寻找根本原因。事实证明根本原因分析真的很难,而且这个行业30年来一直在努力解决这个问题。

像IBM, CA, HP BMC,甚至微软这样的公司在离开之前都尝试了一段时间。现在像大熊猫这样的公司。Moogsoft和其他许多公司几乎所有的可观察性APM供应商都在尝试解决事件管理和根本原因分析问题。

将这些集中式事件管理与传呼机职责相结合,实现分散可能会产生很大的效果。有很多方法可以做到这一点,正如我们所展示的,聪明人和分析的结合可以帮助我们获得可操作的情报,但它回避了一个问题,行动在哪里?谁做的?为什么他们一次又一次地这么做?为什么总感觉是我要离开去处理这些事?

自助服务自动化允许主题专家专注于他们的工作为组织提供价值并授权L1和L2团队保持业务运行,同时尽可能减少辛劳。

这就是为什么集成自动化是成功的人工智能运营的关键。

降噪效果很好,但在某种程度上,仍有事故需要处理,如果你能在报警之前自动做出反应,那就更好了。

它是关于将自动化编织到这三个领域。首先,在人类警觉之前。为了自动修复已知的问题,避免不必要地叫醒任何人,这是一个很好的开始。第二,如果我们确实需要提醒某人,让第一线反应者能够运行自动诊断或收集信息,即使他们不是主题专家,这样反应者可以更有效。第三,为任何响应者提供预定义的行动,一个自动化工具箱,如果你愿意,可以解决最常见的问题,收集更多信息,消除辛劳。

有了手机服务,这使得急救人员在工作中真正起到了减震器的作用。

他们可能不了解他们正在监督的系统的复杂细节,因为专家已经给了他们标准的操作程序,这些L1和L2团队在升级之前有一些尝试,或者至少他们可以获取诊断信息和一种格式的情况,即使他们真的被唤醒了,也会对工程师有用。我们这样做不仅仅是为了母亲和苹果派,或者女王和国家,这有真正的商业利益。

Capgemini的一份报告显示,对自动化的投资增加了75%的公司的收入,提高了76%的公司的整体盈利能力,86%的公司报告说,自动化帮助改善了客户体验,让客户更快乐。预防、诊断和解决。这是自动化帮助最大的三个地方。将应用功能与自动化相结合的整体目标是从根本上减少事件响应生命周期的不同阶段所需的时间,并减少事件的数量。

在寻呼机工作中,除了基本的降噪和其他事件响应特性外,主要是减少探测调动阶段。有了自动化,更多的阶段,包括实际错误的诊断和修复都可以得到改进。从这些自动化响应中吸取的经验教训和获得的知识使改进流程变得更加简单,并确保对未来做出更快速的响应。

我们有几个客户现在使用这种自动化将常见事件的时间缩短到几秒。那么,这对我们的管道意味着什么呢?通过将所有这些功能与JFrog相结合,您可以监控sdlc,并在管道的每个阶段进行过渡时获得对软件进度的新见解。

集成每个阶段的主要元数据,并将事件合并到寻呼机任务中,使您能够了解状态和细节,从而了解团队需要参与哪些工作以保持工作顺利运行。

这些团队可以一目了然地了解所涉及的特性包、版本、提交、依赖项、问题和环境,从而使他们能够更快地解决问题。通过寻呼机任务自动化和F5 Engine X的添加,您现在可以监视和控制到您的软件的金丝雀部署,直到您的软件进入生产的部署的最后阶段。

您可以为自动回滚、配置更改或切换到蓝色、绿色或完整的生产部署创建上下文,从而创建具有更大弹性的更快的管道。那么我们的方向是什么呢?我们离终点还很远,但这可能是人工智能行动旅程开始的终点。从许多客户对话中可以清楚地看出,在这个复杂的时代,他们在AI运营中寻找的是易于使用、简化、易于入门、自动依赖映射、自动根本原因分析、更多开箱即用的用例等等。

AI Ops将使我们能够确定如何更好地调整进入环境的信号,如何提供自动化以避免事故或至少加快分类。我们正在构建更好的功能,以根据服务洞察力组织正确的团队,避免重复工作,并通过引导自助服务自动化更快地解决问题,所有这些都可以创建更好的事件后分析。

因为寻呼机职责是所有这些信号的连接点,这些信号来自各种各样的领域,有超过500个预定义的集成,我们有能力帮助您完成这些任务,同样,在一个易于使用的,易于入门的方式,不需要数据科学家或复杂的模型训练。

我们有独特的技术方法来解决您面临的最大挑战。以下是我们认为让我们与众不同的四个方面。

我们的全面服务驱动模式与团队为基础的模式确保了一种对服务的各个方面完全拥有所有权和问责制的文化。它转化为一个自动化的实时响应,让团队确切地知道该做什么,以及应该让谁参与来加速事件分类。

我们的服务目录是服务所有权的核心,我们帮助您通过机器学习使其保持最新,服务的构建是持久的,而不是组织或团队的变化,并有助于保持完全的问责制。

我们的平台是开放和灵活的。它可以集成到您现有的环境中,并在您的业务运行的任何地方工作。我们的数据结构增强了降噪能力,使一流的机器学习算法能够有效地工作,为我们所有的人工智能运营能力奠定了基础。这是按比例制作的。我们是这个领域的市场领导者、市场发起者和市场创始人,这是可靠和安全的。我们受到全球13,000多家客户的信赖,并且还在不断增加。

我们有超过500个开箱即用的集成,可以最大限度地发挥您现有的功能,并且很容易开始使用寻呼机。我们的一些客户在短短三个月内就看到了投资回报。我们涵盖了从检测、分辨率到持续学习和改进的全范围实时工作。所以实时操作可以发生在你所在的地方。

我给你们最后一个想法。我们将根据过去12年和近14,000名客户的事故数据收集的经验教训,指导您如何优化人工智能和自动化。

我们为您的成功而投资,我们将通过我们的运行甲板和寻呼机值班社区,我们的客户成功和专业服务组织,以及我们广泛的最佳实践和学习资源,为您的每一步提供指导。2022世界杯阿根廷预选赛赛程这种合作关系将为您提供我们如何在我们自己的公司内部利用我们在云中构建并针对云进行优化的人工智能运营的见解和行动。我们已经准备好帮你了。

谢谢你一直支持我。

我很感激你,你太棒了。

我希望这篇文章能激励你找到一些方法来帮助你自己的团队,也许这周能给自己争取一两个小时的时间。

下次见到你。

酒我请。

再见。再见。

要么释放,要么死亡