认清这3个趋势：抢占新机遇

发布时间：2021-02-15 16:38:43 所属栏目：外闻来源：互联网

导读：系统监控在整个项目上线后，需要对系统的各个环节进行监控，并对各种异常情况作出响应。例如输入数据的监控，判别测试数据与训练数据的分布是否有偏移，整个运行 pipeline 的监控，判别是否有运行失败抛出异常的情况，对于预测输出的监控，确保没有异常的预

系统监控

在整个项目上线后，需要对系统的各个环节进行监控，并对各种异常情况作出响应。例如输入数据的监控，判别测试数据与训练数据的分布是否有偏移，整个运行 pipeline 的监控，判别是否有运行失败抛出异常的情况，对于预测输出的监控，确保没有异常的预测输出值，也包括对于系统计算资源等方面的监控，确保不会因为资源不足导致业务受到影响等。在监控信息收集，基础上，还需要配套一系列的自动告警通知，日志追踪排查等。这方面的工具框架包括 TF data validation 这类专门针对算法项目的新产品，也有 elasicsearch + kibana 这类传统产品。

自我考核：将三个项目中做过的问题排查改造成常规监控手段，支持自动的问题发现，告警通知，如有可能，提供自动化或半自动化的问题排查解决方案。

MLOps 系统

MLOps 整体是一个比较大的话题，在这方面有很多产品和系统设计方面的实践可以参考学习。例如 Uber 的 Michelangelo 系列文章，Facebook 的 FBLearner，neptune.ai，dataiku，domino 等，虽然没有开源，但是其背后的很多设计理念，演进思考，白皮书等都非常值得我们学习。在开源界也有很多可以参考的项目，例如 MLflow，Kubeflow，Metaflow，TFX 等，可以学习他们的设计理念，Roadmap，以及实现细节等。

自我考核：总结各个 MLOps 产品的功能模块矩阵对比，能够根据项目需求来进行产品选型与使用。

工程深入方向

数据库

数据库原理

在平时工作中，我们有大量的场景需要用到数据库。从客户数据的对接，数据集的管理和使用，到各种业务系统的数据表设计及优化等，都需要对数据库的运作原理，适用场景，运维使用，性能优化等方面有一定的了解。常见的需要掌握的概念有 OLTP vs OLAP，事务，索引，隔离级别，ACID 与 CAP 理论，数据同步，数据分片，SQL 语法，ORM 等。从底层原理看，会涉及到数据，索引，及日志等存储引擎方面，以及各种计算查询引擎，包括分布式系统的设计与实现。这方面推荐的学习资料有《数据库系统内幕》及《数据密集型应用系统设计》。

自我考核：能够理解 SQL 执行计划，并能够根据执行计划来做索引或查询调优。

关系型数据库

目前常用的关系型数据库主要是 MySQL 和 PostgreSQL，主要需要掌握的是日常的一些 SQL 操作，例如 DML（增删改查），DDL（创建表，修改索引等），DCL（权限相关）。在此基础上还可以进一步了解一些如数据类型，高级计算，存储引擎，部署运维，范式概念与表结构设计等方面的话题。对于高级话题这块，推荐《高性能 MySQL》与《高可用 MySQL》。

自我考核：在 MySQL 中设计相关表结构，存储实际项目中的一系列中间数据集。

NoSQL 数据库

常用的 NoSQL 数据库有几类，KV 存储（Redis），文档数据库（MongoDB），Wide-column 存储（Cassandra，HBase）以及图数据库（Neo4j）。在目前我们的算法项目中，比较有可能会用到的主要是 Redis 这类 KV 存储（也可能把 Cassandra 之类当泛 KV 来用），或者更新一点的类似 Delta Lake 的存储系统。建议学习了解一下这类 KV 存储，以及分布式数据库的常见操作方式，以及基础的运维排查，性能优化方法。

自我考核：考虑一个线上模型服务的场景，用户输入作为基础特征，使用类似 Redis 的 KV 系统，实现实时获取其它特征，并进行模型预测。

云计算

基础架构

IT 系统总体的发展趋势在往云计算方向演进，即使是自建的基础设施，也会采用云计算的一套构建方式，让开发者不用过多的关注底层计算存储资源的部署运维。对于应用开发者来说，需要了解一些基础架构方面的知识，例如各类虚拟化及容器技术，配置管理，容器编排等，便于在日常工作中使用相关技术来管理和发布应用。从工具层面看，Docker 与 k8s 等技术发展速度较快，主要还是根据官方文档来学习为主。浙大之前出版的《Docker - 容器与容器云》一书中有一些更深入的话题的探讨，另外《Kubernetes in Action》中也值得一读。从方法论层面看，《Infrastructure as Code》和《Site Reiliability Engineering》是两本非常不错的学习资料。与算法应用结合的虚拟化，运维，持续集成等都是比较新的领域，需要我们探索出一条可行路线。

自我考核：对于已有的算法项目，总结制定一套开发，测试，发布，运维的标准流程，且尽可能自动化执行。

分布式存储

前些年最流行的分布式存储是脱胎于 Google 经典的 GFS 论文实现的 HDFS，不过随着硬件技术的发展，计算存储分离思想的逐渐兴起，不但灵活性更高，成本更低，且各自架构的复杂度也大大降低了。因此目前更建议学习简单的 object store 形式的分布式存储，例如 s3，minio 等。在此基础上的一些存储系统，例如 Delta Lake，提供了事务，高效的 upsert，time travel 等功能，也值得关注与学习。原理方面，还是推荐《数据密集型应用设计》这本。

自我考核：在项目中实现不同机器能够访问同一个 s3 路径的文件，并进行正常的数据读写，模型文件读写等功能。

分布式计算

（编辑：淮南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

阿耳忒弥斯1号登月任	世界第二高过山车将被
EDA软件突围实行中	海外版抖音TikTok如何