当前位置: 首页 > news >正文

有关大学生做兼职的网站有哪些免费设计软件app

有关大学生做兼职的网站有哪些,免费设计软件app,北京建设工程交易信息平台,app开发公司大连有几家我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。 在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。 这篇文章旨在检验我的预测能力…

我在2021年底开始使用Polars和DuckDB。我立刻意识到这些库很快就会成为数据科学生态系统的核心。自那时起,这些库的受欢迎程度呈指数级增长。

在这篇文章中,我做出了一些关于未来几年数据科学领域的发展方向和原因的预测。

这篇文章旨在检验我的预测能力。但我也写这篇文章是为了引发关于关键趋势的讨论,并帮助数据科学家思考他们在未来几年应该发展的技能。

注意事项

  1. 这篇文章是从一个传统上以Pandas进行探索性数据分析,然后将分析结果以无服务器函数形式进行生产化的工作者的角度出发。生产阶段可能涉及机器学习模型,但也可能是一组定义好的规则和正则表达式。
  2. 我的经验也包括作为研究科学家在集群上运行大规模分析,而不涉及任何无服务器生产阶段。

预测一:Polars 和 DuckDB 将取代 Pandas 作为表格数据的核心工具

随着性能上相比 Pandas 的巨大飞跃,Polars 和 DuckDB 将成为 Python 中数据分析的标准工具。这一转变已经从那些感受到最大性能压力的用户开始,但随着它们周围生态系统的发展,它们将成为标准。

然而,这些工具的优势并不仅仅在于它们计算速度有多快。Polars 的表达式语法比 Pandas 中相应的语法更适合描述数据转换。这两个库都应用了自动查询优化,避免了 Pandas 代码越来越繁琐的手动优化。它们还都处理了并行化和大于内存的数据,而无需其他无数依赖项。

我认为 Polars 和 DuckDB 将成为双寡头,而不是其中之一取代 Pandas 成为垄断者。尽管这两个库的功能有很多重叠,但有些人会想要一个像 DuckDB 这样的工具,它拥有更多关系型数据库的陷阱,而有些人则不会。

预测二:Arrow 将成为数据科学生态系统的核心技术

Apache Arrow 是一种用于表示内存中数据的格式。Arrow 的设计是语言无关的,并且许多语言中都出现了实现这种格式的库。

Polars 是直接基于名为 Arrow2 的 Rust Arrow 库构建的。DuckDB 并不是基于 Arrow 构建的,但它可以从 Arrow 数据中进行零拷贝读取。

Arrow 将取代 Numpy 数组在数据科学生态系统中表格数据的核心地位。这意味着可视化、机器学习和其他库将接受 Arrow 对象作为输入。由于 Arrow 允许零拷贝数据交换,这些库将能够直接从数据框中直接摄取数据,而无需像现在这样进行大量浪费性的数据复制。

随着 Arrow 使得进程间通信更加容易,我们还将看到数据科学工具的融合,例如在 Python 脚本中拟合 R 模型。

在这方面,变革的步伐比 Polars 和 DuckDB 的采用要慢一些。然而,变革的步伐正在加快。例如,XGBoost 模型现在接受 Arrow 表作为输入,而 Huggingface 的 Datasets 库则使用 Arrow 作为其本地缓存系统。

预测三:Rust 化的趋势

在数据科学蓬勃发展的十年里,我所在领域的日常工作主要由像 Python 这样的动态语言或像 R 和 Julia 这样使用即时编译的语言主导。虽然像 C 和 C++ 这样的编译型语言被用于 Python 扩展或 DuckDB 的内部,但很少有数据科学家直接使用它们。

我预测 Rust 将成为数据科学家常用的第一种预编译语言(而不会取代 Python 和 R 作为主要语言)。Rust 在数据科学家中的普及将受到 Polars 的推动,用户会发现从使用 Python 切换到 Rust API 的门槛相对较低——比从 Pandas 切换到 C 的门槛要低得多!

我们还将看到更多基于 Rust 构建的库,这些库将提供 Python 和 R 的 API。特别是,我认为我们将看到一个广泛使用的、用 Rust 编写并基于 Apache Arrow 的 Scikit-Learn 替代品。

在过去的几个月里,我在 Polars 的工作中明显感受到了 Rust 的优势。相比 Python,Rust 在性能上的提升是巨大的,并且并行化得到了可靠的管理。然而,Rust 周围的现代工具系统,如用于管理依赖项的 Cargo,使得 Rust 对于 Python 开发者来说比旧语言更容易接受。我之所以决定将精力集中在 Polars 而不是 DuckDB 上,其中一个因素就是我对学习 Rust 的热情远超过学习 C++。

关于GPU

我最近将Polars描述为地球上最快的数据科学工具。然而,一位受访者正确地指出,基于GPU的库(如cuDF)更快。但是,使用GPU的额外成本很高,包括GPU本身的成本以及管理额外云实例的成本。

GPU在数据处理方面的流行度将继续增长,但在未来几年内不会成为标准方法。随着Polars和DuckDB通过内置并行化和矢量化指令更高效地利用多核CPU,只有高级用户才会觉得使用GPU的成本效益是合理的。

http://www.sczhlp.com/news/97509/

相关文章:

  • 个人网站特点采集站seo赚钱辅导班
  • wordpress 圆角图片宝塔优化wordpress
  • 外贸多语言网站建设推广网站开发模式有什么
  • 现在在百度做网站要多少钱平面设计师用的网站
  • 美食网站开发报告广州企业网站排名
  • 网站建设价格与哪些方面公众号简介有趣的文案
  • 如何装修公司网站有哪些网站可以做笔译
  • 建设银行软件官方网站wordpress 事件插件
  • 蒙阴蜜桃重庆做seo外包的
  • 辉南网站建设网络营销效果好的网站
  • 泡沫制品技术支持东莞网站建设wordpress 修改密码函数
  • 江宁区建设工程局网站进不去WordPress 磁力
  • 彩票网站建设 极云电商数据网站有哪些
  • 成都网站优化排名一个人可以做网站
  • cc域名网站温州市建设工程质监站网站
  • 做明星网站可以做那些子网页html网页设计期末作业
  • 电子商务网站的建设收益网站运营与公司
  • 常见的手机网站sae wordpress 伪静态
  • 一个人建网站wordpress主题什么值得买
  • 广西城市建设学校学生网站深圳燃气公司服务电话
  • 网站建立有哪些功能谷歌seo专员
  • 简单响应式网站佛山建网站
  • 淘宝客网站备案wordpress网站空白
  • 移动网站建设价格win10最强性能优化设置
  • 教育培训推广网站模板建设电子商务网站的启示
  • 个人网页上传网站怎么做重庆建筑工程特种作业信息网
  • 至少保存十个以上域名网站手机微信网页版网址
  • 企业网站管理系统多少钱一年网站集约化建设优点
  • visual studio 切换重载
  • [AGC022F] Checkers 题解