目录
基础概念
云产品
解决方案
基础概念
云计算模式:IaaS、PaaS、MaaS
● IaaS:基础设施及服务,云服务器ECS、云盘EBS、私有网络VPC
● PaaS:平台即服务,人工智能平台PAI、容器服务ACK
● MaaS:模型即服务,百炼、API调用
HDFS:分布式文件系统,A机器硬盘->内核缓冲区->A网卡
● 普通文件传输需要:A机器硬盘->->内核缓冲区->JAVA内存(用户态)->网络Socket缓冲区->A网卡
RDMA:阿里云Lunar网络的技术核心,A机器内存->A网卡->B网卡->B机器内存
Milvus:开源向量数据库
SLB/ALB:负载均衡
云产品
基建
ECS:云服务器,E是elatic表示弹性
ACK:容器服务,负责管理各种容器
VPC:专有网络,保证ECS、数据库等都在一个私有的局域网内,外网进不来也看不到
存储
OSS:对象存储,可以看作是一个大型网盘,只能根据名字存和取整个文件,不支持检索操作
EBS:块存储,可以看作是ECS上的一块可插拔硬盘(ECS本身还有一个本地硬盘,插在ECS物理机上的),需要和一个共处一个可用区的ECS绑定(可解绑切换到其他ECS上,数据不会丢失),只有该ECS可以访问EBS,比OSS的http传输快(阿里云自研的 Lunar 网络,使用了 RDMA 技术)
NAS:网络附属存储,可以看作一个网络共享文件夹,可以挂载到多个ECS,每个ECS的Linux系统里都视作一个本地文件夹,写操作会加文件锁,阻止其他机器写
数据库
RDS:关系数据库(支持MySQL),适合业务增删改查
PolarDB:云原生数据库,RDS升级版,计算和存储分离,支持毫秒级弹性扩容和海量数据存储
Tair:高性能内存数据库(兼容Redis),支持极高并发访问,适合缓存和热点数据
DashVector:向量数据库
Lindorm:云原生多模数据库(兼容Hbase),适合大量数据存和读
ODPS:离线表,适合做数据分析,可以看作是阿里自研的Hive
AI平台
PAI:PaaS人工智能平台,为训练、微调模型设计的平台
- DSW,本质是一个notebook,可以直接远程在网页上用Pytorch写transformers代码
- DLC,本质是一个任务调度器,可以将一个训练3天的任务提交给他,自动找显卡去执行
- EAS,本质是一个包装对端接口的生成器,把微调好的模型交给他,会自动生成一个供前端调用的URL,自带负载均衡请求量大了自动加显卡
百炼:MaaS,对外提供千问模型调用入口,也包含简化操作的微调模型和RAG实现
解决方案
1.获得微调模型的三种模式
- 极客模式IaaS:
- 配置环境:购买带GPU的ECS、装vLLM、PyTorch环境
- 训练:使用transformer、QLoRA在SFT数据集上微调模型
- 部署:写LlamaIndex代码连接数据库为模型提供RAG能力,写后端接口接入模型
- 开发者模式PaaS:
- 训练:在PAI-DSW用QLoRA微调模型,并把任务传给PAI-DLC调度运行
- 部署:将微调好的参数传给PAI-EAS,自动生成调用API
- 商业模式MaaS:
- 训练:上传数据集可视化微调
- 部署:训练或微调后会自动获得api key和end point
2.云计费模式
- 按量计费,按流量计费,比如网络流量,比如DashVector查询了多少次
- 按服务器计费,比如一台2核4G的服务器一年多少钱