未来即将见证的四种变化
|
尽管有必要,但ETL需要大量的编码,专门知识和维护。除了这项工作对于数据科学家来说是耗时的之外,并不是所有的数据科学家都具有开发ETL的经验。很多时候,这项工作将落在数据工程团队上,这些团队忙于更大的图片项目以引入基础数据层。 这并不总是与数据科学家的需求保持一致,数据科学家的需求可能会让拥有业务所有者的企业希望快速地进行信息和分析。等到数据工程团队有时间提取新的数据源可能不是一个好选择。 这就是为什么在过去的几年中开发了几种解决方案来减少数据科学家为获取所需数据而需要进行的工作量的原因。尤其是以数据虚拟化,自动ETL和无代码/低代码解决方案的形式。 自动化的ETL和数据仓库 尽管ETL本身是一个自动化过程。他们需要大量的手动开发和维护。 这导致了Panoply之类的工具的普及,该工具提供了易于集成的自动ETL和云数据仓库,可以与许多第三方工具(如Salesforce,Google Analytics和数据库)同步。使用这些自动集成,数据科学家可以快速分析数据,而无需部署复杂的基础架构。 无需Python或EC2实例。只需单击几下。然后,在大致了解您打算引入团队中的数据类型之后,便可以拥有一个填充的数据仓库。 这些自动化的ETL系统非常易于使用,通常只需要最终用户设置数据源和目标即可。从那里可以将ETL设置为在特定时间运行。全部没有任何代码。
产品实例: 使用Scala的一些主要优点是:
Scala受欢迎的主要原因之一是Apache Spark(使用Scala构建的数据管理工具)。实际上,Apache Spark是用于Hadoop集成(快速处理大量数据)的最受欢迎的大数据工具之一。 JavaScript 最后,JavaScript是目前最流行的网络编程语言之一,几乎可以在任何类型的应用程序(例如服务器,移动设备,云,微控制器等)上运行。
在网络开发的早期,Javascript的普及率达到了顶峰,此后在过去十年中一直保持稳定的趋势(图7)。 随后,因为 Antlr 对 Go 的支持语言,我改用 Java + Kotlin 来实现其中的语法实现部分,也就是后来的 Chapi:https://github.com/phodal/chapi 。所以,Chapi 被定义为一个通用语言元信息转换器,能将不同语言转换为相同的 AST。而由于使用的是 Kotlin 的实现,我可以自由地转换核心域构建的产品。不过呢,语法解析这种东西,你写了一个语言,你就不想再写第二个了。 上个月和我的同事搞的 CSS 重构工具:Lemonj ,也是基于类似的原理。 系统重写 每隔几年,我们都会发现有大量地系统都在不断也被重写。而除了使用新的框架之外,还有可能使用新的语言。而传统地方式是使用人肉的方式提取这些信息,再一一重写。 这一部分工作,必然可以通过一定地自动完成,那就是代码转换。 编程基础设施的缺失 除此之外,最后的一个考量是基础设施。如你所见,在上一个时代,我们的国家里缺乏一系列的基础设施,从操作系统、数据库、浏览器等等。而在这一个时代,我们缺少原云生相关的基础设施。我们总说开源能解决一部分问题,但是事实上并非如此 —— 开源有着巨大的学习成本。(PS:这个我会在另外一篇文章中介绍)。 我接触过一些国内某大公司,基于开源软件魔改的操作系统、IDE,还有各类的云原生基础设施。不仅仅需要对源码很了解,还需要对系统的设计理念很熟悉。而这些知识则是隐性地藏在源码中,需要经过大量地练习才能掌握。而这个成本,反而远比自己创造一个系统的成本要高得多。 简单来说,就是开源需要巨大的学习成本。 所以,我在 Charj 里打了两个赌: Rust 语言会成为系统编程不可缺少的一部分。
未来编程语言已经不重要了。 (编辑:周口站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
