本文共 1728 字,大约阅读时间需要 5 分钟。
是一个面向混合企业的以服务为中心的AIOps软件即服务(SaaS)平台,最近发布了新的拓扑图、增强的人工智能IT运维(AIOps)功能以及针对云原生工作负载的监控功能。
新版的OpsRamp平台为现代IT运营管理团队提供了Kubernetes监控、智能警报路由和拓扑图。它为混合基础设施监控和管理提供了更强大的以服务为中心的环境,让企业IT团队能够采用更智能的事件管理机制,并提供卓越的用户体验。
OpsRamp产品管理副总裁Mahesh Ramachandran将“以服务为中心”定义为:
以服务为中心的观点将数字运营团队的重心从管理元素转移到管理业务服务。OpsRamp AIOps解决方案旨在通过更快的补救和事件响应来满足服务可用性和性能需求。这样可以帮助IT组织将基础设施环境从一系列设备、资源和配置重新构建为一系列业务服务,我们认为这些服务更易于管理。它还将传统IT、DevOps和业务目标整合并统一为一个共同愿景。IT像业务一样思考其所需的资源——以服务为核心。
新版本提供了影响可见性和服务上下文功能,可发现混合云和多云IT技术栈中多级资源之间的拓扑关系。拓扑图旨在帮助基础设施和运营团队了解IT资源对彼此以及面向最终用户的IT服务的影响。OpsRamp的拓扑发现功能现在可用于应用程序和hypervisor。应用程序拓扑功能可发现40多种流行的企业应用程序,并在应用程序组件和基础设施之间建立拓扑关系。hypervisor拓扑功能可发现VMware vSphere和KVM环境中的虚拟机、hypervisor服务器和集群以及它们之间的关系。
OpsRamp还增强了服务地图功能,提供了新的用户界面,可以识别IT服务中断背后的底层资源,让运营团队制定正确的恢复服务行动方案。新版本引入了一些新功能,包括自动事件创建和路由、推理模型的增强训练和频率驱动的警报升级。
OpsRamp的现在可以使用警报升级策略进行自动事件创建和路由,根据之前的警报、事件和通知数据自动分配事件。机器学习驱动的警报升级使用特定的学习模式(受让人组、业务影响、紧急程度和优先级)为不同类型的警报路由事件分配。OpsRamp的基于机器学习的推理模型使用历史警报数据关联由常见原因引起的警报。OpsQ现在允许使用用户提供的训练数据来增强这些模型。通过这种增强训练,IT运营团队可以引导OpsQ识别日常运营中不常见的警报序列,当发生警报时能够识别出来。要增强模型,用户可以构建电子表格(或使用示例模板),使用预定义的数据(解析器组、类别、子类别、优先级、紧急程度和业务影响)将事件升级到服务管理。然后将这些数据应用于OpsRamp的事件管理工具和第三方事件管理集成。
OpsQ支持新的策略,比如根据最近发生警报的频率来升级警报。运营团队因此可以过滤掉只是偶尔会发生的警报,并升级反复发生的警报。OpsRamp平台提供了多云事件监控功能,以及发现和监控支持现代微服务架构的容器基础设施的功能。
OpsRamp现在可以在本地和云端(例如Azure Kubernetes Services、Google Kubernetes Engine和Amazon Elastic Container Service for Kubernetes)发现和监控Kubernetes环境。DevOps团队可以了解每个Kubernetes集群的总服务(每个集群的节点和容器、按命名空间划分的pod)和资源趋势(CPU和内存利用)。用户可以监控与集群、主机、NameSpaces、pod和容器的可用性和性能相关的关键指标。在公共云中,事件是重要的运维问题通信媒介,而在多云环境中,事件是信号的主要来源。OpsRamp现在可以从AWS服务(如AWS Health、ECS、Redshift、数据迁移服务和CloudWatch)收集、聚合、关联和升级事件。有了这个功能,OpsRamp可以对跨多个云帐户的云事件进行单点监控、管理和修复。
新的OpsRamp版本还提供了包含补丁合规性验证的补丁管理功能、综合事务和SSL证书监控、用于监控开源应用程序的集成,以及简化分类和链接的知识库增强。
查看英文原文:
转载地址:http://dvjtx.baihongyu.com/