您可以将HDFS 中存储的 csv 数据、index文件,以及 TIFF、GeoTIFF 栅格数据用于分布式分析。其中,将 HDFS 目录中存储的栅格数据(如 TIFF、GeoTIFF )注册到 iServer 后,可分布式入库到 HDFS 分布式存储库以及本地文件系统存储中。
注册 HDFS 目录
登录 iServer 服务管理器,依次点击“数据-数据注册”,进入注册数据存储页面(http://{ip}:{port}/iserver/admin-ui/data/dataRegistration),点击“注册数据存储”按钮,并配置以下参数:
- 存储 ID:自定义存储 ID 名称,为数据库创建的唯一标识
- 数据存储类型:选择“大数据文件共享”
- 文件共享类型:选择“HDFS目录”
- 共享目录:输入共享目录地址
- 如果需注册的是存于HDFS上的单独的 csv 文件,您可以直接填写 HDFS 路径+csv 名称,如:hdfs://{ip}:9000/data/a.csv
- 如果注册的是带有 csv 文件的文件目录,该目录下含有多个 CSV 文件(仅支持已只读的方式打开 HDFS 目录):
-
- 所含 CSV 文件的字段、属性等格式都相同时,注册时则需填写 CSV 文件所在的目录的上一级目录,如 hdfs://{ip}:9000/data,其中,data 为 csv文件 的上一级目录。
- 所含 CSV 文件不同时,注册时则需填写 CSV 文件所在的目录,如hdfs://{ip}:9000/data/csvfolder。
- 如果注册的是带有 index 的文件目录,则需填写 index 文件所在目录,如 hdfs://{ip}:9000/data/indexfolder,其中,indexfolder 下含有 index 文件。
- 如果注册的是 TIFF、GeoTIFF 数据,则需填写 TIFF、GeoTIFF 数据所在目录,如 hdfs://{ip}:9000/data/TIFF,其中,TIFF 下含有 TIFF、GeoTIFF 文件。
- 如果注册的是 HDFS 集群为高可用模式,则直接填高可用的 HDFS 地址,如 hdfs://{高可用地址}/data。
- 设置是否“已开启Kerberos认证”。如未开启,则无需勾选;如您需要注册的是已开启 Kerberos 认证的HDFS目录,需勾选“已开启Kerberos认证”,并进行如下配置:
- 主体名称: 用户名@域。例如:iServer@SUPERMAP1.COM
- 用户名:必须是 HDFS集群 Mater 节点的一个系统用户。
- 域:Kerberos 服务设定的域。(必须与 HDFS 集群所在的域相同)
- 秘钥文件路径:搭建集群的过程中生的密钥文件拷贝到 iServer 服务所在机器的文件位置。
- Kerberos客户端配置文件路径: iServer 服务所在机器的 Kerberos 客户端配置文件所在文件位置。
- 设置选用的 HDFS 集群是否为“高可用模式”。若不为高可用模式,则无需勾选;若为高可用模式,则需勾选,并需将 HDFS 集群配置文件中的 core-site.xml 和 hdfs-site.xml 拷贝到 iServer 所在机器任意指定位置后,还填写以下参数:
- Hadoop 集群 core-site.xml 文件路径:iServer 所在机器中 core-site.xml 文件路径
- HDFS 集群 hdfs-site.xml 文件路径:iServer 所在机器中 hdfs-site.xml 文件路径
点击“注册数据存储”按钮即完成注册。
注:1. 如果您注册的是csv 数据文件,需要经过验证,才可用于分布式分析服务。详见:csv 数据文件验证
2. 如果注册的是已开启Kerberos认证的HDFS目录,且分布式分析服务使用开启Kerberos认证的Hadoop Yarn集群时,才可用于分布式分析。