个人理财 使用Sqoop导入数据 - 假人

使用Sqoop导入数据 - 假人

视频: 千锋大数据教程:94 Sqoop使用query导入和export导出 2025

视频: 千锋大数据教程:94 Sqoop使用query导入和export导出 2025
Anonim

准备好用Sqoop来导入数据?首先看一下这个图,它说明了从RDBMS或数据仓库系统进行典型的Sqoop导入操作的步骤。这里没有太复杂的东西 - 只是一个典型的产品数据表(典型的)是从典型的数据管理系统(DMS)导入到一个典型的Apache Hadoop集群中的虚拟公司。

<! - 1 - >

在步骤1中,Sqoop使用适当的连接器从目标DMS检索产品表元数据。 (元数据用于将Products表中的数据类型映射到Java语言中的数据类型。)然后,步骤2使用这个元数据生成并编译一个Java类,这个Java类将被一个或多个map任务用来从Products表中导入实际的行。 Sqoop将生成的Java类保存到临时空间或您指定的目录,以便您可以将其用于后续处理数据记录。

<! - 2 - >

为您保存的Sqoop生成的Java代码就像是一直在奉献的礼物!使用此代码,Sqoop从DMS导入记录,并使用以下三种格式之一将它们存储到HDFS:二进制Avro数据,二进制序列文件或分隔文本文件。之后,您可以使用此代码进行后续数据处理。如果您要导入二进制数据类型,序列文件是一个自然的选择,您将需要生成的Java类来稍后对数据进行序列化和反序列化 - 可能用于MapReduce处理或导出。 Avro数据 - 基于Apache自己的序列化框架 - 在导入HDFS之后需要与其他应用程序交互时非常有用。

如果您选择以分隔文本格式存储导入的数据,则可能会在解析数据格式并对新数据执行数据格式转换时发现生成的Java代码。您将看到生成的代码还可以帮助您在Sqoop导入操作之后合并数据集,并且生成的Java代码可以帮助避免处理分隔文本数据时出现歧义。最后,在步骤3中,Sqoop将产品表中的数据记录分成许多映射任务(用户可选指定的映射器数量),并将表数据导入HDFS,Hive或HBase。

使用Sqoop导入数据 - 假人

编辑的选择

记录您的思科网络配置与CDP - 傻瓜

记录您的思科网络配置与CDP - 傻瓜

记录思科网络配置有时没有思科发现协议)可能需要花费数小时在布线室跟踪电缆和记录端口。在某些情况下,配线室是一个真正的老鼠的电缆巢,并且可能需要几个小时的导航才能找出哪些交换机连接到哪个交换机,哪些路由器,...

以太网通道诊断信息收集 - 虚拟

以太网通道诊断信息收集 - 虚拟

诊断思科网络中的以太网通道问题,您首先必须能够收集您的交换机及其配置。为了执行这个任务,你一如既往地依靠Show和debug命令。首先,简要介绍一下show命令的内容。 Switch1> enable Switch1#configure terminal Switch2#show EtherChannel ...

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL) - 虚拟

扩展访问控制列表(ACL)允许您允许拒绝来自特定IP地址的流量到特定的目标IP地址和端口。它还允许您指定不同类型的流量,如ICMP,TCP,UDP等。不用说,它非常细化,可以使您非常具体。如果...

编辑的选择

电子项目计划步骤1:设想您的电子项目 - 傻瓜

电子项目计划步骤1:设想您的电子项目 - 傻瓜

设计和建立你的电子项目的细节,你应该退后一步,看看大局。首先,你需要确保你有一个坚实的想法为您的项目。你为什么要建立它?它会做什么,谁来使用它,为什么? ...

电子项目计划步骤4:构建您的电路 - 傻瓜

电子项目计划步骤4:构建您的电路 - 傻瓜

而且你对它的操作感到满意,你可以建立一个永久版本的电路。虽然有几种方法可以做到这一点,但最常见的是在印刷电路板(也称为PCB)上构建电路。请注意,在PCB上组装电路...

电子项目计划步骤3:原型电路 - 假人

电子项目计划步骤3:原型电路 - 假人

永久的电路板,你会想确保它的工作。最简单的方法就是在无焊面包板上构建电路。无焊料面包板可以让您快速组装电路元件而不需要焊接任何东西。相反,您只需将其裸露在外...

编辑的选择

如何替换R中的文本 - 虚拟变量

如何替换R中的文本 - 虚拟变量

R中的sub()函数在文本模式,并用替换文本替换此模式。你使用sub()来替代文本文本,并使用其表兄gsub()来替换所有出现的模式。 (gsub()中的g表示全局。)假设你有句子He ...

中如何成功地遵循命名惯例在R - 傻瓜

中如何成功地遵循命名惯例在R - 傻瓜

R是非常自由的,对象和功能。这个自由是一个很大的祝福,同时也是一个很大的负担。没有人不得不遵循严格的规则,所以在R中编程的人基本上可以按照自己的意愿去做。如何选择一个正确的名字...

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

中使用函数在R中创建并转换脚本后,如何使用R - dummies中的函数

再次使用前面显示的Source()命令将其加载到控制台中。现在你看...什么也没有。 R并不让你知道它已经加载了这个函数,但它已经在工作空间中了,你可以检查一下...