准备数据

发送反馈


iServer 的分布式分析服务支持的输入数据来源,包括以下几种。当数据准备就绪后,在创建各类分布式分析任务时,iServer 会自动列出符合分析条件的数据集。

iServer DataStore

iServer DataStore 是一款应用程序,您可以通过 iServer DataStore 快速创建数据存储,并将数据存储与 iServer 关联起来。iServer DataStore 分布式环境的搭建方法,请参考搭建 iServer DataStore 分布式环境

iServer DataStore 中关系型数据集的来源有两种:

大数据文件共享

iServer 管理员可以将 CSV 文件、UDB 文件、HDFS目录注册为  iServer 的大数据文件共享,注册方法请参见注册大数据文件共享。注册成功的大数据文件共享里的数据集,会出现在数据目录服务的 datasets 资源中,也会作为分布式分析服务的输入数据。

注册到 iServer 的 csv 数据文件需要经过验证,才可用于分布式分析服务。验证方法为:

  1. 进入数据注册页面,http://localhost:8090/iserver/admin-ui/data/dataRegistration,如果注册的是文件目录,“状态”一栏为橙色叹号表示该文件未验证;
  2. 可以直接点击操作栏的“验证”,或单击对应的“存储 ID”,打开数据集列表,单击“验证”;
  3. 在“数据元信息”弹出框中指定 X、Y 索引;
  4. 单击“确定”。当状态变为绿色对勾时,表示验证成功。

若使用未注册到 iServer的 csv 数据进行分布式分析服务,则需确保在 csv 存放目录下有与其对应的 .meta 文件,该.meta文件包含 csv 数据文件的元信息。以示范数据 newyork_taxi_2013-01_14k.csv 为例,.meta 文件内容为:

    "FieldInfos": [
        {
            "name": "col0",
            "type": "WTEXT"
        },
        {
           "name": "col1",
            "type": "WTEXT"
        },
        {
            "name": "col2",
            "type": "WTEXT"
        },
        {
            "name": "col3",
            "type": "INT32"
        },
        {
            "name": "col4",
            "type": "WTEXT"
        },
        {
            "name": "col5",
            "type": "WTEXT"
        },
        {
            "name": "col6",
            "type": "WTEXT"
        },
        {
            "name": "col7",
            "type": "INT32"
        },
        {
            "name": "col8",
            "type": "INT32"
        },
        {
            "name": "col9",
            "type": "DOUBLE"
        },
        {
            "name": "X",
            "type": "DOUBLE"
        },
        {
            "name": "Y",
            "type": "DOUBLE"
        },
        {
            "name": "col12",
            "type": "DOUBLE"
        },
        {
            "name": "col13",
            "type": "DOUBLE"
        }
    ],
    "GeometryType": "POINT",
    "HasHeader": false,
    "StorageType": "XYColumn"
}

空间数据库

iServer 管理员可以通过“数据”“ 数据注册”页面上的“ 注册数据存储”功能,将 Oracle、PostgreSQL、PostGIS 数据库注册为  iServer 的空间数据库,注册方法请参见注册空间数据库。注册成功的空间数据库里的数据集,会出现在数据目录服务的 datasets 资源中,也会作为分布式分析服务的输入数据。