AIOps和你——更快的部署,更安全的管道,更快乐的员工

学院刑事专家希斯纽伯恩
AIOps解决方案专家

在本节课中,您将学习AIOps如何创建可操作的情报以及如何在可操作的情报中驱动行动。

您将了解如何提高管道的速度和安全性,自动化将如何帮助您专注于核心业务而不是杂务业务,以及我们如何为员工和客户创造更好的数字体验。

视频记录

你好。我的名字是Keith Newburn,我将是你的夏尔巴人、向导、导师、chaiwala或水童,无论你今天需要什么,当我们谈论人工智能操作,以及它可以为你做什么。这次演讲是预先录制的,但我可以在聊天中找到我,你也可以在Twitter和LinkedIn上找到我。所以,拿上你最喜欢的饮料,吃点零食,放松一下,让我们来聊聊人工智能和自动化如何帮助你和你的管道。所以今天我们将讨论一些内容,为什么人工智能运营很重要,它是什么,它可以为你做什么。

履行提供可行动情报的承诺以及接下来的任务。所以希望你在离开的时候能有一些为团队创造价值的想法,并能让你在一周中多花些时间。

在过去的10到15年里,技术领域发生了巨大的变化。甚至回想20年前的Dot Com热潮,以及亚马逊、eBay、PayPal和其他仍然存在的公司的崛起,这些公司都是建立在运行在非常昂贵的硬件和私有数据中心的专有数据库上的单一应用程序之上的。

在过去的几十年里,基础设施即服务的云计算已经出现,它用几乎无限的虚拟服务器取代了纯金属服务器,但随着其他云的兴起,整体应用程序也被分解为分布式微服务和组件。

想想上世纪90年代末的amazon.com,它只运行一个名为Obidos的应用程序,而今天,它的主页就由数千个不同的部分组成。在此过程中,敏捷、精益和DevOps方法的兴起意味着每个组件都能更快地交付,有时一天要交付很多次。应用程序的复杂性体现在两个方面:单个组件的数量和它们之间复杂的依赖关系,以及变化的速度,不仅是新修订,而且是临时组件和不断变化的依赖树。难怪那些流程依赖于传统数据中心中相对静态的世界视图的IT组织承受着难以置信的压力。

为了跟上这些变化以及监视、APM、日志记录和其他可观察性工具的兴起,所需的工具加剧了这种压力。70%的IT组织依赖于多达9种不同的监视工具来支持现代应用程序。较大的组织可能拥有30多个工具。请记住,这是在他们开始数字化转型之前的情况。根据同样的调查,47%的人平均每个月都会遇到超过5万个提醒,而我们最大的客户每天要处理数百万个提醒。要处理的事情太多了。

你过得怎么样?我们这些在地面上的人是如何处理这一切的?嗯,有些比其他的好。但我想我们都同意去年是漫长的一年。我和很多IT行业的同行聊过,我觉得我们都需要一个集体拥抱。

科技、推特(Twitter)和波旁威士忌(Bourbon)造就了一些不被推荐但可行的应对机制。

我见过很多球队都经历过巨大的失误。那些想要抢占市场份额的公司试图快速增长,并比以往任何时候都更努力地推动他们的IT团队。为了降低成本,那些低调的公司将团队精简到只剩骨头,给现有员工带来了更大的压力,也给正在找工作的人带来了很多焦虑和担忧。那些在两者之间苦苦挣扎的公司在很多情况下都以失败告终,关闭了工厂,或只剩下了用捆线和希望团结在一起的骨干员工。

我仍然不确定对我们的任何一个团队来说什么是正确的,但我知道对我交谈过的那些人的影响是艰难的。不仅仅是你的故事。

最近的一篇期刊文章显示,73%的科技行业同行感到精疲力竭。自大流行开始以来,80%的医院工作量显著增加,近三分之二的医院每周加班10小时解决事故。地平线上没有线索。79%的人认为,数字加速是其组织2021年的首要任务。

《哈佛商业评论》做了一项类似的研究,结果显示,职业倦怠不仅不利于士气,还会从根本上损害组织。雇佣一名优秀的工程师将花费3万美元或更多,而这些影响会累积起来。

更低的敬业度会导致更低的生产力,以及更高的人员流动率和医疗成本。综合影响是巨大的,估计有1900亿美元。疫情前情况很糟糕,但今年的情况告诉我们,我们必须找到改变的方法,我们不能一直靠我们的聪明人来承担所有的重担。

我们不能一直做超级英雄。我对这个充满热情,对帮助团队取得成功充满热情,我认为我对这个特定领域充满热情的原因之一是AI和自动化或AI Ops可以提供帮助。

AI ops这个术语的问题在于,它可能只是一个营销术语,所以它可以有多种解释,就像DevOps一样,尽管许多人说没有单一的AI ops工具。它是创造价值的各种能力的集合体。

所以你可以去阅读来自Gartner,福布斯或福布斯51研究的各种定义,它们都说了同样的事情,但不同。有趣的事实,也是在科技城赢得酒吧赌局的好方法。

AI ops最初被定义为算法IT操作,而不是人工智能。祝你们玩得开心。但即便如此,人工智能到底有什么意义呢?这是关于构建大量的结构化非结构化数据湖进行分析吗?是HELL 9000吗?如果我把我的流媒体日志文件搞砸了舱门会打不开吗?我的混合业务是用Alexa还是Siri ?

人们很容易被天花乱坠的宣传冲掉,认为人工智能是某种神奇的子弹,可以解决这个极其复杂的世界中所有的It运营问题。显然,它不会,那么它今天能做什么呢?

AI ops正在为客户解决四个现实世界的问题,通过减少解决问题的平均时间或mttr,减少需要处理的事件数量,或完全消除所需的人员小时数和事件解决方案,为客户节省数百万美元。因此,帮助每位CIO实现实现业务增长和稳定的梦想。要做的工作就是爬这座山。

如今,这包括从噪音和遥测中分离信号,根据过去的行为确定解决问题的最佳人员或团队,并将其与正确的服务联系起来,使用自助服务来指导自动化,或仅执行自动化来提高mttr,提高团队效率和减少劳动。最后,全面地将IT运营组织从手工反应过程转移到预测主动过程。

这些任务以这种特定的顺序出现,因为这是一个旅程,我们最成功的客户大致按这种顺序处理它们。

例如,如果你被噪音淹没,就很难投资自动化。所以这就是寻呼机任务AI运营解决方案可以发挥作用的地方。

我们从过滤噪声的最佳实践开始,删除重复警报和常见问题,如端口震荡。我们还包括暂停传输警报的能力,知道某些警报将自行解决,并防止这些问题的通知将自行解决并减少警报疲劳。在使用对事件数据的初始重复数据删除机器学习来识别事件之间的相似性之后,根据事件内容,以及时间限制。

这可以帮助我们在识别和解决并发事件时消除团队之间的重复工作。

我们还使用这些数据与历史记录进行比较,以建议以前的团队为解决类似类型的事件所采取的行动和自动化。换句话说,我们不仅在系统生成的数据上使用机器学习,还在响应问题的人身上使用机器学习。

我们可以订阅更改事件。我知道这对于任何在运营中花费超过30秒的人来说都是难以置信的,问题几乎总是来自于变化。这有助于我们更快地找到根本原因。通过将其与管道数据结合起来,我们可以创建交付过程中所处位置的上下文,并能够做一些事情,比如不对非prod部署发送关键警报。我在前面提到过,在快速发展的复杂微服务类型环境中跟踪依赖关系是非常具有挑战性的。对于快速移动的工程团队来说,在其他服务所有者甚至不知道的情况下创建对服务的依赖并不罕见。我们得到它。这就是CI\CD的工作原理。我们再次使用机器学习来揭示服务之间可能隐藏的依赖关系。例如,如果中断和服务B往往紧随中断和服务A之后,那么随着时间的推移,我们将了解到这一点,并向服务B的所有者建议他们的中断可能实际上是由于服务A,即使没有声明显式依赖。

如果用户以前关联过这些东西,我们的算法就会考虑到这一点,并根据时间、标签等进行关联。

帮我们找到合适的服务。这个服务上下文非常关键。我们不希望对产生收入的服务有与后台服务相同的响应,那可能不是关键任务。这是减少警惕疲劳最简单的方法之一,并帮助团队专注于真正重要的事情。如果是周六凌晨3点,有人提醒人力资源服务,每个人都已经拿到工资了。我们知道周一才会有危险。那我们为什么要叫醒别人?有了我们的平台分析功能,你可以利用机器学习来帮助你找到下一个目标。因此,我们的分析实验室将从寻呼机职责的深度数据集中提取洞见,以个性化地回答两个关键问题。

其中一些可能是减少事故的代价是什么?什么事件受解决时间的影响?哪些应急人员受到的影响最大?我可以通过机器学习的智能建议来获得一个按钮来呼吁行动,建议我如何减少噪音?如何提高团队效率?我该如何改进我的日程安排?

有了这些容易生成的数据,我可以把它拖到其他团队,并向他们展示我得出这些结论的原因。

我们在高级分析中编写了一个成熟度模型。

它为企业的数字化之旅提供基准,并根据我们12年服务超过1.3万名客户和近60万名用户的经验,提供具体的建议,展示如何提高成熟度。Analytics API支持对详细事件数据的无所不在的访问,因此您可以利用自己的bi工具和数据专家提取新的见解。这些事件情报分析功能为实际情报创建了新的视图,从而实现了更好的管道管理。

有很多工具和平台都在讨论如何过滤噪音或找出根本原因。事实证明根本原因的分析真的很难,而行业三十年来一直在试图解决这个问题。

像IBM, CA, HP BMC,甚至微软都尝试过一段时间,然后才继续发展。现在像大熊猫这样的公司。Moogsoft,还有许多其他公司,嗯,也在一起几乎所有可观察APM供应商都在尝试处理事件管理和根本原因分析。

将这些集中的事件管理与分散的寻呼机职责方法结合起来可能会产生很大的效果。有很多方法可以达到这一目标,正如我们所展示的,聪明人和分析的结合可以帮助我们获得可操作的情报,但这引出了一个问题,行动在哪里?谁做吗?为什么他们一遍又一遍地这么做?为什么总是我自己去照顾它呢?

自助服务自动化允许主题专家专注于他们的工作为组织提供价值,并赋予L1权力和L2团队来保持业务运行,同时尽可能地减少辛苦劳动。

这就是为什么综合自动化是成功的人工智能操作的关键。

减少噪音固然很好,但在一定程度上,仍然有事件需要处理,如果你能在提醒人类之前自动做出反应,那就更好了。

它是关于将自动化融入这三个领域。首先,在人类警觉之前。为了自动修复已知的问题,避免不必要地叫醒任何人,这是一个很好的开始。第二,如果我们确实需要提醒某人,使一线响应者能够运行自动诊断或收集信息,即使他们不是主题问题专家,这样响应者可以更有效。第三,为任何应答器提供预定义的操作,一个自动化工具箱,解决最常见的问题,收集更多的信息,减少劳动。

有了手机服务,急救人员就可以真正充当工作中的减震器。

他们可能不知道他们正在监督的系统错综复杂的细节,因为专家已经给了他们标准的操作程序,那些L1和L2团队在升级之前有一些东西可以尝试,或者至少他们可以获取诊断信息和一种格式的情况,即使他们被唤醒,也会对工程师有用。我们这样做不仅仅是为了母亲和苹果派或女王和国家,这是真正的商业利益。

Capgemini的一份报告显示,对自动化的投资为75%的公司带来了收入的增加,76%的公司增加了整体盈利能力,86%的公司报告说,自动化有助于改善客户体验,使客户更快乐。预防、诊断和解决。这是自动化最能发挥作用的三个方面。将应用程序功能与自动化相结合的整个目标,从根本上是为了缩短事件响应生命周期的不同阶段所需的时间,同时减少事件的数量。

通过基本的降噪,以及寻呼机任务中的其他事件响应特性,它主要是关于减少探测动员阶段。有了自动化,更多的阶段都可以得到改进,包括诊断真正的错误并进行修复。从这些自动响应中获得的经验教训和知识使增强流程变得更加简单,并确保未来的响应更加快速。

我们有几个客户端现在将mttr驱动到秒,以应对常见的事故,该自动化已经就绪。那么,这对我们的管道来说意味着什么呢?将所有这些功能与JFrog结合起来,您就可以监视您的sdlc,并获得跨管道每个阶段的软件进展的新见解。

在每个阶段集成主要元数据,并将事件合并到寻呼机职责中,可以让您了解状态和细节,从而了解团队需要进行哪些工作以保持事情平稳运行。

这些团队对涉及的特性包、版本、提交、依赖关系、问题和环境了如指掌,从而使他们能够更快地解决问题。有了寻呼机值班自动化和F5 Engine X的添加,您现在可以监视和控制软件的监视器部署,直到软件进入生产的部署的最后阶段。

您可以为自动回滚、配置更改或转移到蓝色、绿色或完全生产部署创建上下文,从而创建具有更大弹性的更快管道。那么我们的目标是什么?我们离终点还远着呢,但这可能是人工智能行动之旅的起点。从许多客户的对话中可以清楚地看到,在这个复杂的时代,他们在AI Ops中寻找的是易于使用、简化、易于开始、自动依赖映射、自动根本原因分析、更多开箱即用的用例等等。

AI Ops将使我们能够识别如何更好地调整进入环境的信号,如何实现自动化以避免事故或在最小程度上加快分诊。我们正在构建更好的能力,以基于服务洞察力组织正确的团队,避免重复工作,并通过引导式自助服务自动化实现更快的解决方案,所有这些都创建了更好的事件后分析。

因为寻呼机的职责是连接所有这些来自各种各样的领域的信号,有超过500个预定义的集成,我们很好地帮助您完成这些任务,再次,在一个易于使用的,容易上手的方式,不需要数据科学家或复杂的模型培训。

我们有独特的技术方法来解决您最大的挑战。以下是我们认为让我们与众不同的四种方式。

与基于团队的模式相比,我们的全服务驱动模式确保了对服务的每个方面都有完全所有权和问责制的文化。它转化为自动化的实时响应,让团队确切知道该做什么,以及与谁接触,以加速事故分类。

我们的服务目录是服务所有权的核心,我们帮助您用机器学习保持它的最新,服务的构建是为了持久,而不是为了组织或团队的变化,并帮助保持全面的问责制。

我们的平台是开放和灵活的。它集成到您的现有环境中,并在您的业务运行的任何地方工作。我们的数据结构增强了降噪能力,并使一流的机器学习算法能够有效工作,作为我们所有AI Ops能力的基础。它是按比例制作的。我们是这个领域的市场领导者、市场发起者和市场创始人,它是可靠和安全的。我们受到全球超过13000名客户的信任。

我们有超过500个开箱即用的集成,以最大化您的现有功能,并且很容易开始使用寻呼机职责。我们的一些客户在短短的三个月内就看到了投资的回报。我们覆盖了实时工作的全方位,从检测、解析到持续学习和改进。所以实时操作可以在你所在的地方进行。

我留给你们最后一个想法。我们将通过从过去12年的事故数据和近14000名客户中收集的经验教训,指导您如何优化人工智能和自动化。

我们投资于您的成功,我们将通过我们的运行甲板和寻呼机值班社区、我们的客户成功和专业服务组织,以及我们的最佳实践和学习资源的广度,指导您在道路上的每一步。2022世界杯阿根廷预选赛赛程这次合作将为您提供我们如何在我们自己的公司内利用我们在云中构建并针对云进行优化的AI Ops的见解和行动。我们准备好帮你了。

谢谢你支持我。

我很感激你,你很棒。

我希望这能激励你找到一些方法来帮助你自己的团队,也许这周能让你多花一两个小时。

下次我再见到你。

给我喝。

再见。再见。

快速释放,否则死亡