兑现提供可操作情报的承诺以及接下来的行动。所以,希望你能在为团队创造价值的时候留下一些想法,并在一周中节省一些时间。
在过去的10年或15年里,技术领域发生了巨大的变化。即使回想20年前的互联网热潮,亚马逊、eBay、贝宝和其他公司的崛起,这些公司都是建立在非常昂贵的硬件和私人数据中心的专有数据库上的单一应用程序上。
在过去的几十年里,基础设施即服务为我们带来了云计算,它用几乎无限的虚拟服务器取代了裸露的金属服务器,但随着其他云的兴起,我们也将单片应用程序分解为分布式微服务和组件。
想想上世纪90年代末的亚马逊,它只运行一个名为Obidos的应用程序,而今天,它的主页就包含了数千个不同的部分。在此过程中,敏捷、精益和DevOps方法的兴起意味着每个组件都在更快地交付,有时一天要交付很多次。应用程序的复杂性体现在两个方面:单个组件的数量和它们之间复杂的依赖关系,以及变化的速度(不仅包括新版本,还包括临时组件和不断变化的依赖树)。难怪那些流程依赖于传统数据中心中相对静态的世界视图的IT组织承受着难以置信的压力。
为了跟上变化以及监视、APM、日志记录和其他可观察性工具的兴起,所需的工具加剧了这种压力。70%的IT组织依赖多达9种不同的监控工具来支持现代应用程序。较大的组织可能拥有30多个工具。请记住,这是在他们开始数字化转型之前的情况。根据同样的调查,47%的人平均每月收到超过5万个警报,而我们最大的客户每天要处理数百万个警报。这有很多事情要处理。
你最近怎么样?我们这些在现场的人是如何处理这些事情的?嗯,有些比其他的好。但我想我们都同意去年是漫长的一年。当我和很多IT行业的同行交谈时,我觉得我们都需要一个集体拥抱。
科技、推特(Twitter)和波旁威士忌(Bourbon)催生了一些不被推荐但可行的应对机制。
我见过很多球队出现严重失误。那些希望获得市场份额的公司试图快速增长,并比以往任何时候都更努力地推动他们的IT团队。为了降低成本,这些公司精简了团队,给现有员工带来了更大的压力,也给正在找工作的人带来了很多焦虑和担忧。那些在两者之间萎靡不振的公司在很多情况下都失败了,关闭了商店,或者只剩骨架员工,他们用捆着的电线和希望团结在一起。
我仍然不确定对我们的任何团队来说什么是正确的,但我知道对那些与我交谈过的人来说,影响是艰难的。这不仅仅是你的故事。
最近的一篇期刊文章显示,73%的科技行业同行感到筋疲力尽。自大流行开始以来,80%的人的工作量显著增加,近三分之二的人每周额外工作10小时解决事件。地平线上没有任何线索。79%的人认为,数字化加速是他们所在组织2021年的首要任务。
《哈佛商业评论》也做了类似的研究,结果显示,职业倦怠不仅会影响士气,还会从根本上损害组织。雇佣一名优秀的工程师将花费3万美元或更多,这些影响加起来。
较低的敬业度会导致更低的生产率,以及更高的人员流动率和医疗成本。综合影响是巨大的,估计有1900亿美元。疫情之前情况很糟糕,但今年的情况告诉我们,我们必须找到改变的方法,我们不能让聪明人继续做所有的繁重工作。
我们不能再当超级英雄了。我对此充满热情,热衷于帮助团队取得成功,我认为我对这个特定领域充满热情的原因之一是人工智能和自动化或人工智能操作可以提供帮助。
AI运维这个术语的问题在于,它可能只是一个营销术语,所以它的解释是开放的,就像DevOps一样,尽管许多人都说没有单一的AI运维工具。它是创造价值的各种能力的集合。
所以你可以去读高德纳,福布斯或福布斯51研究的各种定义,他们都说了同样的事情,但不同。有意思的事,也是在科技城赢酒吧赌局的好方法。
AI ops最初被定义为算法IT操作,而不是人工智能。祝你们玩得开心。但即便如此,人工智能的意义到底是什么?这是关于构建用于分析的结构化非结构化数据的海量数据湖吗?是HELL 9000吗?如果我搞砸了我的流媒体日志文件,吊舱舱门会打不开吗?我的混合行动是用Alexa还是Siri ?
人们很容易被天花乱坠的宣传冲昏头脑,认为人工智能是某种神奇的子弹,可以在这个极其复杂的世界中解决所有It运营问题。显然,它不会,那么今天它能做什么呢?
AI ops正在为客户解决四个现实世界中的问题,通过减少平均解决时间或mttr来节省数百万美元,减少需要处理的事件数量,或者完全消除所需的人员小时数和事件解决。从而帮助实现每一位首席信息官的梦想,为企业带来增长和稳定。这些要做的工作就是攀登这座山。
如今,这包括从噪声和遥测中分离信号,根据过去的行为确定解决问题的最佳人员或团队,并将其与正确的服务相关联,使用自助服务进行指导自动化或仅执行自动化来提高mttr,提高团队效率并消除劳动。最后,将IT运营组织从手工反应式流程整体转移到预测性主动流程。
这些任务以这种特定的顺序出现,因为它是一个旅程,我们最成功的客户大致按照这个顺序处理它们。
例如,如果你被噪音淹没,就很难投资于自动化。所以这就是寻呼机职责AI操作解决方案可以帮助的地方。
我们从过滤噪声、删除重复警报和端口振荡等常见问题的最佳实践开始。我们还包括暂停传输警报的能力,知道某些警报将自行解决,并防止这些问题的通知,这些问题将自行解决并减少警报疲劳。在事件数据上的初始重复数据删除机器学习用于识别事件之间的相似性之后,自动将多个警报实时分组在一起事件内容,以及时间限制。
当我们识别并帮助解决并发事件时,这可以帮助消除团队之间的重复工作。
我们还使用这些数据与历史记录进行比较,以建议以前的团队为解决类似类型的事件所采取的行动和自动化。换句话说,我们不仅在系统生成的数据上使用机器学习,还在对问题做出反应的人的数据上使用机器学习。
我们可以订阅更改事件。我知道这对于任何在行动中花费超过30秒的人来说都很难相信,问题几乎总是来自变化。这有助于我们更快地找到根本原因。通过将其与管道数据结合起来,我们创建了您在交付中的位置的上下文,并能够做一些事情,例如不为非刺激部署发送关键警报。我在前面提到过,在快速发展的复杂微服务类型环境中跟踪依赖关系是非常具有挑战性的。对于快速移动的工程团队来说,在其他服务所有者甚至不知道的情况下创建对服务的依赖关系并不罕见。我们明白了。这就是CI\CD的工作原理。同样,我们正在使用机器学习来揭示服务之间可能隐藏的依赖关系。因此,例如,如果中断和服务B倾向于跟随中断和服务A,那么随着时间的推移,我们将了解到这一点,并向服务B的所有者建议他们的中断可能实际上是由于服务A,即使没有显式地声明依赖关系。
如果用户之前关联过这些东西,我们的算法会考虑到这一点,并根据时间、标签等进行关联。
帮我们找到合适的服务。这个服务上下文非常重要。我们不希望对产生收入的服务有与后台相同的响应,这可能不是关键任务。这是减少警惕疲劳的最简单方法之一,并帮助团队专注于真正重要的事情。如果现在是周六凌晨3点,公司通知人力资源部门每个人都已经拿到工资了。我们知道周一才算危急。那我们为什么要叫醒别人呢?通过我们的平台分析功能,您可以利用机器学习来帮助您了解下一步。因此,我们的分析实验室将从寻呼机职责深度数据集中提取见解,以个性化地回答两个关键问题。
其中一些可能是减少事故的成本是什么?什么事件会受到解决时间的影响?哪些响应人员受影响最大?我可以通过机器学习的智能推荐来获得一个按钮来调用行动,它会建议我如何减少噪音?如何提高团队效率?我应该如何改进我的日程安排?
有了这些容易生成的数据,我可以把它拖到其他团队,并向他们展示我得出这些结论的原因。
我们已经在高级分析中编写了一个成熟度模型。
它对企业在数字化之旅中所处的位置进行了基准测试,并根据我们为超过13,000名客户和近600,000名用户服务的12年经验,通过具体的建议展示了如何提高成熟度。Analytics API支持对详细事件数据的无处不在的访问,这样您就可以利用自己的bi工具和数据专家来提取新的见解。这些事件情报分析功能为实际情报创建了新的视图,从而实现更好的管道管理。
有很多工具和平台都在讨论如何过滤噪音或寻找根本原因。事实证明根本原因分析真的很难,而且这个行业三十年来一直在努力解决这个问题。
像IBM, CA, HP BMC,甚至微软在继续前进之前都尝试过一段时间。现在像大熊猫这样的公司。Moogsoft,还有很多其他公司几乎所有的可观察性APM供应商都试图解决事件管理和根本原因分析。
将这些集中的事件管理与分散的寻呼机职责方法相结合,可能会产生很好的结果。有很多方法可以达到这个目标,正如我们所展示的,聪明的人和分析的结合可以帮助我们获得可操作的情报,但这引出了一个问题,行动在哪里?谁做的?为什么他们一次又一次地这么做?为什么总觉得是我要离开去照顾它?
自助服务自动化允许主题专家专注于他们的工作为组织提供价值并赋予L1权力和L2团队来保持业务运行,同时尽可能地消除辛劳。
这就是为什么综合自动化是成功的人工智能运营的关键。
降噪确实很棒,但在某种程度上,仍然有一个事件需要处理,如果你能在提醒人类之前自动做出反应,那就更好了。
它是关于将自动化融入这三个领域。首先,在人类被警告之前。为了自动修复已知问题并避免不必要的唤醒任何人,这是一个很好的开始。其次,如果我们确实需要提醒某人,使第一线响应人员能够运行自动诊断或收集信息,即使他们不是问题专家,这样响应人员也可以更有效。第三,为任何应答者提供预定义的行动,如果你愿意的话,一个自动化的工具箱,来解决最常见的问题,收集更多的信息,消除辛劳。
有了手机服务,急救人员就可以在工作中真正起到减震器的作用。
他们可能不知道他们正在监督的系统的复杂细节,因为专家已经给了他们标准的操作程序,这些L1和L2团队在升级之前可以尝试一些东西,或者至少他们可以获得诊断信息和格式的情况,即使他们被唤醒,也会对工程师有用。我们这样做不仅仅是为了母亲和苹果派,也不仅仅是为了女王和国家,还有真正的商业利益。
凯捷咨询公司的一份报告显示,对自动化的投资增加了75%的公司的收入,增加了76%的公司的整体盈利能力,86%的公司报告说,自动化有助于改善客户体验,让客户更快乐。预防、诊断和解决。这是自动化最能帮助的三个方面。将应用程序功能与自动化结合的整个目标从根本上来说是为了缩短事件响应生命周期不同阶段所需的时间,并减少事件的数量。
只有基本的降噪,以及寻呼机任务中的其他事件响应特性,它主要是关于减少检测动员阶段。通过自动化,可以改进更多的阶段,包括诊断实际错误并进行修复。在这些自动化响应中吸取的经验教训和获得的知识使增强流程变得更加简单,并确保未来的响应更加快速。
我们现在有几个客户端,在这种自动化到位的情况下,可以将mttr驱动到秒。那么这对我们的输油管道意味着什么呢?通过将所有这些功能与JFrog结合起来,您可以监视您的sdlc,并获得跨管道每个阶段的软件进展的新见解。
在每个阶段集成主要元数据,并将事件合并到寻呼机职责,使您能够了解状态和细节,从而了解团队需要参与哪些工作以保持工作顺利运行。
这些团队可以一目了然地了解包、版本、提交、依赖关系、问题和环境,从而更快地解决问题。随着寻呼机任务自动化,以及F5 Engine X的加入,您现在可以监视和控制软件的金丝雀部署,直到软件进入生产阶段的部署。
您可以为自动回滚、配置更改或切换到蓝色、绿色或完全生产部署创建上下文,从而创建具有更大弹性的更快管道。那么,我们将走向何方?我们离终点还远得很,但这可能是AI Ops之旅开始的终点。从许多客户的对话中可以明显看出,在这个复杂的时代,他们在AI Ops中寻找的是易于使用、简化、易于入门、自动依赖关系映射、自动根本原因分析、更多开箱即用的用例等等。
人工智能操作将使我们能够确定如何更好地调整进入环境的信号,如何实现自动化以避免事故,或者至少加快分类。我们正在建立更好的能力,根据服务洞察来组织正确的团队,避免重复工作,并通过引导自助服务自动化更快地解决问题,所有这些都可以创建更好的事件后分析。
由于寻呼机职责是所有这些来自各种各样的领域的信号的纽带,具有超过500个预定义的集成,我们很好地帮助您完成这些任务,再次,在一个易于使用,易于入门的方式,不需要数据科学家或复杂的模型培训。
我们有独特的技术方法来解决您面临的最大挑战。以下是我们认为让我们与众不同的四个方面。
与基于团队的模式相比,我们的全面服务驱动模式确保了对服务的每个方面都具有完全所有权和问责制的文化。它转化为一个自动化的实时响应,让团队确切地知道该做什么,以及与谁接触,以加速事故分类。
我们的服务目录是服务所有权的核心,我们帮助您通过机器学习使其保持最新,服务的构建是为了持久,而不是组织或团队的变化,并有助于保持全面的问责制。
我们的平台是开放和灵活的。它集成到您现有的环境中,可以在业务运行的任何地方工作。我们的数据结构支持降噪,并使一流的机器学习算法能够有效工作,作为我们所有AI Ops能力的基础。它是为规模而生的。我们是这个领域的市场领导者、市场发起人和市场创始人,而且它是可靠和安全的。我们受到全球13,000多家客户的信赖。
我们有超过500个开箱即用的集成,以最大限度地提高您的现有功能,并且很容易从传呼机任务开始。我们的一些客户在短短三个月内就看到了投资的回报。我们涵盖了从检测、解决到持续学习和改进的全频谱实时工作。所以实时操作可以发生在你所在的地方。
我给你们最后一个想法。我们将根据过去12年的事故数据和近1.4万名客户的经验教训,指导您如何优化人工智能和自动化。
我们投资于您的成功,我们将通过我们的跑步甲板和传呼机值班社区,我们的客户成功和专业服务组织,以及我们广泛的最佳实践和学习资源,指导您在前进的每一步。2022世界杯阿根廷预选赛赛程这一合作关系将让你们了解我们如何在我们自己的公司内利用我们在云中构建并为云优化的人工智能运营,并采取行动。我们已经准备好帮助你了。
谢谢你一直支持我。
我很欣赏你,你很棒。
我希望这能激励你找到一些方法来帮助你自己的团队,也许这周你可以多花一两个小时。
下次再见到你。
饮料我请。
再见。再见。