执行大数据准备和探索

时间:2019-03-04 18:35:11 阅读:2次
摘要
此开发人员代码模式使用R4ML(一种可扩展的R包)在IBM Watson Studio上运行,以执行各种机器学习练习。对Watson Studio和对数据探索和数据准备任务的大数据感兴趣的可扩展机器学习的开发人员将学习如何使用R4ML,它增强了Apache Spark R框架的功能。
描述
在这个代码模式中,我们将使用R4ML,一个在IBM Watson?Studio上运行的可扩展R包来执行各种机器学习练习。对于不熟悉Watson Studio的用户,它是一个交互式,协作的基于云的环境,数据科学家,开发人员和其他对数据科学感兴趣的人可以使用工具(例如,RStudio,Jupyter笔记本,Spark等)进行协作,分享并从他们的数据中收集洞察力。
我们生活在大数据时代。每天都会生成大量数据,分析师和数据科学家分析业务结果的数据非常重要。但是,传统的数据科学工具(如基于R和Python的scikit-learn)无法扩展到大数据,这就是创建Apache Spark和Apache Hadoop等框架的原因。 R4ML是实现该目标的一种方法。
R4ML提供各种开箱即用的工具和用于执行特征工程的预处理实用程序。它还提供了对数据进行采样和探索性分析的实用程序。此模式提供了一个端到端的示例,以演示R4ML在实现数据预处理和数据探索时的易用性和强大功能。
完成此代码模式后,您将了解如何:
使用Jupyter笔记本来加载,可视化和分析数据。
在IBM Watson Studio中运行笔记本。
利用R4ML进行大数据的数据准备和探索性分析。

将提供的笔记本加载到IBM Watson Studio中。
笔记本与Apache Spark实例交互。
一个示例大数据数据集被加载到Jupyter Notebook中。
在Apache Spark上运行的R4ML用于执行机器数据预处理和探索性分析。
说明
准备好使用这个代码模式了吗?有关如何开始运行和使用此应用程序的完整详细信息,请参见自述文件。
执行大数据准备和探索所属专题:探索专题 执行专题 《执行大数据准备和探索》链接:http://www.zhouchuanxiong.net/665