欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug

程序员文章站 2022-06-21 18:30:08
...

其实我是很烦在kettle里边写java代码,因为有些地方很不智能。比如TM的他不支持泛型。但是公司一直在用只能硬的头皮来。最近在使用过程中就碰到了一个版本bug。网上没有找到答案。最后公司前辈有碰到过,帮我解决了问题,于是在这记录一下

java代码组件教学

先介绍一下kettle里边java代码组件

kettle中java代码基本上是用来处理普通组件无法完成的一些操作,如果普通组件就能完成功能,那就没有必要去使用java代码“炫技”,因为对后边维护人员很不友好,我们都有体会看别人代码是什么感觉吧

[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug

[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug
关于kettle里边java代码组件,一般用法是如上图,点击Main后会在右边自动填充这些代码。

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException
{
	if (first){
	  first = false;

	  /* TODO: Your code here. (Using info fields)

	  FieldHelper infoField = get(Fields.Info, "info_field_name");

	  RowSet infoStream = findInfoRowSet("info_stream_tag");

	  Object[] infoRow = null;

	  int infoRowCount = 0;

	  // Read all rows from info step before calling getRow() method, which returns first row from any
	  // input rowset. As rowMeta for info and input steps varies getRow() can lead to errors.
	  while((infoRow = getRowFrom(infoStream)) != null){

	    // do something with info data
	    infoRowCount++;
	  }
	  */
	}

	Object[] r = getRow();

	if (r == null) {
	  setOutputDone();
	  return false;
	}

	// It is always safest to call createOutputRow() to ensure that your output row's Object[] is large
    // enough to handle any new fields you are creating in this step.
    r = createOutputRow(r, data.outputRowMeta.size());
	
    /* TODO: Your code here. (See Sample)
    
    // Get the value from an input field
    String foobar = get(Fields.In, "a_fieldname").getString(r);

    foobar += "bar";
    
    // Set a value in a new output field
    get(Fields.Out, "output_fieldname").setValue(r, foobar);

	*/
	// Send the row on to the next step.
    putRow(data.outputRowMeta, r);

	return true;
}

先他喵的把注释一删,就剩这么点东西了。

[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug

我们要写代码的地方,我已经在图中标识出来

1) 我们首先第一行代码需要写明白数据来源,就是java代码要处理的数据流,也就是上一个组件处理完之后的数据

/**
* 此行必须要写的
*/
                           //流中的字段名  名字是自己起的 来自前边的组件
String str =get(Fields.In,"java_input").getString(r);

[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug作者案例中在此处是一大段json

2)然后的java代码就都是围绕着 将数据如何处理
也就是核心逻辑代码(面向百度编程)

3)最后就是处理完之后的结果输出
此处作者是for循环输出处理完数据后存放在ArrayList中的元素

/**
* 也是必写
*/
                 //自己起的变量名                      ArrayList变量名
get(Fields.Out, "data_value").setValue(r,  typeOther(jsonList[i]));
putRow(data.outputRowMeta,r);

最后在java组件里配置一下要输出的字段名和类型
[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug然后代码能跑通就大功告成

关于KETTLE 5.4版本java代码组件bug

在预览java代码组件运行完之后时 得到的数据是这样的
[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug但是更新/插入数据库后 发现数据就成了这样,莫名其妙的就都一样的
[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug
解决方案:

首先把java代码组件的下一跳设置为一个其他任何后续不需要的输出组件(此处为Excel输出),然后第二次复制设置下一跳为需要执行的步骤(此处为插入/更新)
[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug

然后他喵的好了 , 坑了我两天
[Kettle] java代码组件使用教学 & Kettle5.4版本java代码组件bug

相关标签: Big Data