400-680-1988
巨宸人工智能解决方案
时间:2020-04-27来源:巨宸科技点击:0

1、概览

AI在全球的增长态势,很大一部分是通过云计算实现的,当一个AI应用运行深度学习模型,并且连续分析数千亿的数据,这个过程将需要大量的存储、数据、计算,AI将不可避免的迁移到云平台中。云为人工智能的深度学习提供平台,人工智能反过来提升云计算的“智商”。

众所周知,深度学习需要大量而又简单的重复、迭代运算。并行的计算量越多(计算芯片核心),计算效率越高。与CPU擅长逻辑控制和通用类型数据运算不同,GPU最擅长的便是大规模并行计算,性能提升几十倍以上。因此,人工智能场景下对GPU的需求愈发强烈。

2、方案架构

针对图像处理、语音识别、自然语言处理等深度学习场景下,需要搭建大规模的GPU集群,针对不同的算法模型、不同的深度学习框架,用户如何统一调度与管理GPU集群的计算资源、存储资源,分配给不同的租户使用,是首当其冲需要解决的问题。

对于TensorFlow、Caffe、MxNet等深度学习框架,如何快速部署,提供开发镜像环境,满足不同用户在不同场景下的框架需求、算法需求与开发需求,也是数据科学家难以逾越的一道门槛。

面对多部门、多用户同时进行模型训练、在线推理,采用什么策略对各个任务进行调度,是抢占模式还是先进先出,以及每个训练任务利用哪个GPU加速卡,每个卡的运行状态如何,都需要统一的监控与管理。

11.jpg


3、解决方案特点

(1) 支持大规模机器学习与深度学习应用,用户可实现数据预处理、模型训练、应用推理等应用。

(2) 部署多种典型深度学习框架和机器学习算法库环境,如TensorFlow,Caffe-MPI,CNTK,mxnet,Torch等,方便用户使用。

(3) 部署云与虚拟化资源管理平台、深度学习管理平台以及应用分析工具Teye实现资源的统一管理、调度、监控与应用特征分析。

(4) 根据机器学习、深度学习应用资源需求和计算特点,配置不同计算资源,如数据预处理CPU集群,实现训练数据的快速预处理;基于Nvidia P40提供高密度GPU集群,针对大规模大数据模型实现快速训练;针对推理识别深度学习应用,提供FPGA集群实现高吞吐、低延时处理。整个云平台提供大容量、高带宽、低延时存储资源、高速万兆/IB网络,提供快速的云服务。

4、解决方案优势

提供一体化的软硬件部署和管理服务,减少开发者系统安装维护工作量;优化分布式训练部署模型,实现多机多卡GPU资源与训练作业灵活调度;提供丰富的可自定义软件和镜像库,充分满足客户对AI计算环境的需求。

5、应用场景

(1)安防行业智能视频分析人工智能解决方案

(2)医疗影像人工智能解决方案

(3)电力设备巡检人工智能解决方案

(4)语音识别人工智能解决方案

6、解决方案的收益

● 统一的集群管理:负责整个系统计算资源的集中管理、统一分配与作业调度,包括GPU资源池的集中管理与分配、多租户方式隔离计算资源、以作业方式动态分配计算资源以及计算资源回收等。

● 统一的监控运维:实时监控管理集群资源使用情况和集群状态,包括作业状态、GPU使用率、集群健康度等,并分析每一类的资源占用情况,提供触发预警机制。;

● 统一的开发环境:提供一站式的交互开发操作界面,帮助用户完成模型脚本在线编辑、模型训练、模型验证以及模型推理等核心功能,并结合硬件资源可视化、作业调度器,最大化提高系统硬件资源的利用率

  • 上一条:没有了
  • 下一条:没有了