加入收藏 | 设为首页 | 会员中心 | 我要投稿 周口站长网 (https://www.0394zz.cn/)- 数据采集、智能营销、经验、云计算、专属主机!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

我推荐给每个Web开发人员的在线工具

发布时间:2021-02-21 15:31:44 所属栏目:传媒 来源:互联网
导读:据中心是新型信息基础设施的重要部分,是各类下游数据应用产业的基础,具有较强的联结价值链的公共属性。近年来,国家出台政策支持数据中心发展,各级政府也出台配套政策支持建设数据中心,同时也暴露出一些问题。为此,亟须从三方面优化政府对数据中心建设

据中心是新型信息基础设施的重要部分,是各类下游数据应用产业的基础,具有较强的联结价值链的公共属性。近年来,国家出台政策支持数据中心发展,各级政府也出台配套政策支持建设数据中心,同时也暴露出一些问题。为此,亟须从三方面优化政府对数据中心建设的引导支持,加快新基建有效落地。

政府支持数据中心建设存在四方面不足

 

们都知道,数据科学离不开各式各样的扩展包。并且,现在有很多性能强大的包可以用来构建预测模型或者用来生成可视化数据。如下列举了用于描述性和预测性分析的一些最常见包:

  • Ggplot2
  • Matplotlib
  • Seaborn
  • Scikit-learn
  • Caret
  • TensorFlow
  • PyTorch
  • Keras

得益于以上这些扩展包,任何人都可以构建模型或者生成可视化数据。但与此同时,要优化模型进而生成性能最佳的可靠模型,拥有强大的数学背景也是很有必要的。

也就是说,构建模型只是一方面,另一方面还需要对模型进行解释,得出有意义的结论,这样才能更好地做出数据驱动的决策。

最后,在使用这些包之前,你需要理解每个包中蕴含的数学基础,这样才不会只把这些包当作黑盒工具(black-box tool)。

案例分析:构建一个多元回归模型

假设我们要构建一个多元回归模型,那么需要事先问自己几个问题:

  • 数据集有多大?
  • 特征变量和目标变量是什么?
  • 哪些预测特征与目标变量关联最大?
  • 哪些特征比较重要?
  • 是否应该扩展特征?
  • 数据集应该如何划分成训练集和测试集?
  • 主成分分析(principal component analysis, PCA)是什么?
  • 是否应该使用 PCA 删除多余特征?
  • 如何评估模型?用 R2 值、MSE 还是 MAE?
  • 如何提升模型的预测能力?
  • 是否使用正则化回归模型(regularized regression model)?
  • 回归系数是多少?
  • 截距是多少(intercept)?
  • 是否使用像 K 近邻回归(KNeighbors regression)或者支持向量回归(support vector regression)这样的无参数回归模型?
  • 模型中的超参数是多少?如何调整超参数使模型性能达到最佳?

很明显,如果没有良好的数学背景,你将无法解决上述问题。因此,在数据科学和机器学习中,数学技能和编程技能一样重要,这很关键。

作为一个数据科学的推崇者,投入时间来学习数据科学和机器学习中的理论基础和数学基础很有必要。毫不夸张地说,你所构建的可靠有效模型能否用于解决现实世界的问题,这也将取决于你的数学技能有多好。

接下来讨论一下数据科学和机器学习中一些必要的数学技能。

数据科学和机器学习中必要的数学技能

数学包罗万象,任何人都不可能门门精通。所以,在数据科学和机器学习研究中,我们可以根据自身所在的具体领域、手头的具体工作或者使用的具体算法来有侧重地学习对应的数学技能。

1. 统计学与概率论

统计学和概率论可用于可视化变量、数据预处理、特征变换、数据插补、降维、特征工程和模型评估等等。

以下是需要熟悉的一些统计学与概率论概念:

  • 平均数、中位数、众数、标准差 / 方差;
  • 相关系数和协方差矩阵、概率分布(二项分布、泊松分布和正态分布);
  • p 值、贝叶斯定理(精度、召回率、正预测值、负预测值、混淆矩阵和 ROC 曲线)、中心极限定理
  • ;R_2 值、均方误差(MSE)、A/B 测试、蒙特卡罗模拟。


(编辑:周口站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读