1. 设置模型参数

要为模型中的工具指定参数设置,需要通过鼠标左键点击输入节点,此时在页面右侧的参数栏会出现参数填写注释,根据注释要求输入符合格式的参数值即可。当前工具所有必填参数填写完毕后,工具的功能节点框线会由灰色变为蓝色,由此,您可根据节点的外框颜色情况快速检查模型参数填写情况。

图  输入节点参数设置

进行城镇密度聚类分析,需要填写的参数示例如下:

工具名 参数名 参数释义

读取矢量数据 连接信息

城镇数据的连接信息,此处示例为存储于HBase中的城镇数据,您可以将示例数据导入Hbase中。

--providerType=hbase --hbase.zookeepers=172.16.16.8:2181 --hbase.catalog=demo --dataset=Town_P
密度聚类 带单位的聚类半径 进行城镇密度聚类分析的聚类半径。 5.5 Kilometer
密度聚类 密度聚类阈值 进行城镇密度聚类分析的聚类数目阈值,用于判断是否为核心。 5
密度聚类 用于保存聚类类别的字段名 用于保存城镇聚类结果的字段名称。 town_class
密度聚类 需要保留到结果数据集中的字段名称 城镇数据中需要保留的结果字段名称,在这里只保存城镇的名称。 NAME
保存矢量数据 连接信息 保存城镇聚类分析结果的连接信息。 --providerType=hbase --hbase.zookeepers=172.16.16.8:2181 --hbase.catalog=demo --dataset=Town_c

 

 

  1.  设置集群环境参数

使用Apache Spark进行空间大数据分布式分析,在运行模型前可以通过以下两种方式配置集群环境参数:

处理自动化服务建模页面中使用大数据工具时,点击工具节点可以在参数面板切换"Spark 环境设置"选项,设置好对应参数,在运行模型时将连接集群并提交处理自动化任务。

图 环境参数设置

为了方便复用集群环境参数, 提供了全局Spark环境参数的配置。具体步骤如下:

1. 在处理自动化服务建模页面,点击左侧菜单栏中的 “环境” 项,进行 Spark全局环境参数的配置;

2. 在环境配置页面,可以点击"添加"按钮来配置环境参数。支持将添加的一组环境参数设置为默认模式,勾选“Spark集群默认部署模式”后,当新增带有大数据工具的模型时,将自动填充该环境参数;

3. 在模型的参数面板中,Spark环境设置新增“环境参数类型”参数,通过下拉菜单可以方便的配置和切换全局环境参数,也可以按需修改默认填充的全局环境参数。

图 全局环境参数设置

集群环境参数主要包括以下四部分:

注:Spark为2.3以上的版本时,Windows的处理自动化服务任务提交至外部集群需要在配置参数中增加spark.driver.host参数设置,参数值为当前应用程序运行机器的IP地址。若当前应用程序所在机器是多网卡,该参数值需要为集群能够访问到的IP。 设置了环境参数,运行模型后即可连接上Spark集群并向集群提交任务,模型使用的数据读取、分析等工具会默认使用该参数连接的集群以及创建的任务。

 

请参考:

一、构建模型

三、运行模型

四、模型的复用

五、编辑工具参数

六、模型元数据

七、模型库管理模型