准备数据 |
iServer 的分布式分析服务支持的输入数据来源,包括以下几种。当数据准备就绪后,在创建各类分布式分析任务时,iServer 会自动列出符合分析条件的数据集。
iServer DataStore 中存储的关系型数据集
大数据文件共享中的数据集
共享目录
分布式文件存储 HDFS 目录
空间数据库中存储的数据集
iServer DataStore 是一款应用程序,您可以通过 iServer DataStore 快速创建数据存储,并将数据存储与 iServer 关联起来。iServer DataStore 分布式环境的搭建方法,请参考搭建 iServer DataStore 分布式环境。
iServer DataStore 中关系型数据集的来源有两种:
创建数据集:在 %datacatalog_uri%/relationship/datasets 资源页面,可以创建一个数据集,但这里创建的数据集中没有要素,可以通过 iDesktop 连接上 iServer DataStore 后向数据集中添加要素。
导入数据集 :在 %datacatalog_uri%/relationship/dataimport 资源页面,可以导入数据集。支持导入的数据类型为 CSV、UDB、工作空间、Excel、GEOJSON。导入成功后,导入的数据集会列在 %datacatalog_uri%/relationship/datasets 资源中。
iServer 管理员可以将 CSV 文件、UDB 文件、HDFS目录注册为 iServer 的大数据文件共享,注册方法请参见注册大数据文件共享。注册成功的大数据文件共享里的数据集,会出现在数据目录服务的 datasets 资源中,也会作为分布式分析服务的输入数据。
注册到 iServer 的 csv 数据文件需要经过验证,才可用于分布式分析服务。验证方法为:
若使用未注册到 iServer的 csv 数据进行分布式分析服务,则需确保在 csv 存放目录下有与其对应的 .meta 文件,该.meta文件包含 csv 数据文件的元信息。以示范数据 newyork_taxi_2013-01_14k.csv 为例,.meta 文件内容为:
"FieldInfos": [ { "name": "col0", "type": "WTEXT" }, { "name": "col1", "type": "WTEXT" }, { "name": "col2", "type": "WTEXT" }, { "name": "col3", "type": "INT32" }, { "name": "col4", "type": "WTEXT" }, { "name": "col5", "type": "WTEXT" }, { "name": "col6", "type": "WTEXT" }, { "name": "col7", "type": "INT32" }, { "name": "col8", "type": "INT32" }, { "name": "col9", "type": "DOUBLE" }, { "name": "X", "type": "DOUBLE" }, { "name": "Y", "type": "DOUBLE" }, { "name": "col12", "type": "DOUBLE" }, { "name": "col13", "type": "DOUBLE" } ], "GeometryType": "POINT", "HasHeader": false, "StorageType": "XYColumn" }
iServer 管理员可以通过“数据”“ 数据注册”页面上的“ 注册数据存储”功能,将 Oracle、PostgreSQL、PostGIS 数据库注册为 iServer 的空间数据库,注册方法请参见注册空间数据库。注册成功的空间数据库里的数据集,会出现在数据目录服务的 datasets 资源中,也会作为分布式分析服务的输入数据。