心得技巧

html5 HTML/Xhtml CSS XML/XSLT Dreamweaver教程 Frontpage教程心得技巧

上一篇: 论文解读（MPNN）Neural Message... 下一篇:FastAPI 学习之路（十二）接口几...

Apache Beam入门及Java SDK开发初体验

发布时间：2022-07-02 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了Apache Beam入门及Java SDK开发初体验，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

1 什么是apache Beam

Apache Beam是一个开源的统一的大数据编程模型，它本身并不提供执行引擎，而是支持各种平台如GCP Dataflow、Spark、Flink等。通过Apache Beam来定义批处理或流处理，就可以放在各种执行引擎上运行了。

Apache Beam入门及Java SDK开发初体验

目前支持的SDK语言也很丰富，有Java、Python、Go等。

1.1 一些基础概念

PCollection：可理解为数据包，数据处理就是在对各种PCollection进行转换和处理。
PTransform：代表数据处理，用来定义数据是怎么被处理的，用来处理PCollection。
PiPEline：流水线，是由PTransform和PCollection组成的集合，可以理解为它定义了数据处理从源到目标的整个过程。
Runner：数据处理引擎。

一个最简单的Pipeline例子如下：

Apache Beam入门及Java SDK开发初体验

从数据库读数据为PCollection，经过转化成为另一个PCollection，然后写回到数据库中去。

可以有多个PTransform处理同一个PCollection：

Apache Beam入门及Java SDK开发初体验

一个PTransform也可以生成多个PCollection：

Apache Beam入门及Java SDK开发初体验

2 Java开发初体验

我们通过使用Java SDK来开发一个WordCount感受一下。

先引入必要的依赖，版本为2.32.0：

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>${beam.version}</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-direct-java</artifactId>
  <version>${beam.version}</version>
</dependency>

写Java主程序如下：

public class WordCountDirect {
    public static void main(String[] args) {
        Pipelineoptions options = PipelineOptionsFactory.create();
        Pipeline pipeline = Pipeline.create(options);
        PCollection<String> lines = pipeline.apply("read From file",
                TextIO.read().from("pkslow.txt"));

        PCollection<List<String>> wordList = lines.apply(MapElements.via(new SimpleFunction<String, List<String>>() {
            @override
            public List<String> apply(String input) {
                List<String> result = new ArrayList<>();
               char[] chars = input.toCharArray();

                for (char c:chars) {
                    result.add(String.valueOf(c));
                }

              return result;
            }
        }));

        PCollection<String> words = wordList.apply(Flatten.ITerables());

        PCollection<KV<String, Long>> wordCount = words.apply(Count.perElement());

        wordCount.apply(MapElements.via(new SimpleFunction<KV<String, Long>, String>() {
            @Override
            public String apply(KV<String, Long> count) {
                return String.format("%s : %s", count.getKey(), count.getValue());
            }
        })).apply(TextIO.write().to("word-count-result"));

        pipeline.run().waitUntilFinish();
    }
}

直接运行，默认是通过DirectRunner来执行的，即在本地即可执行，不用搭建。非常方便开发和测试Pipeline。

整个程序大概流程是：

从pkslow.txt文件里读取所有行，然后将每一行拆分为多个字符，计算每个字符出现的次数，输出到文件中word-count-result。

pkslow.txt文件内容如下：

Apache Beam入门及Java SDK开发初体验

执行后的结果文件如下所示：

Apache Beam入门及Java SDK开发初体验

3 总结

简单体验了一下，基于Beam的模型开发还是很简单，很好理解的。但它在各种平台上的执行效率如何，就还需要深挖了。

代码请查看：https://github.COM/LarryDpk/pkslow-samples

脚本宝典总结

以上是脚本宝典为你收集整理的Apache Beam入门及Java SDK开发初体验全部内容，希望文章能够帮你解决Apache Beam入门及Java SDK开发初体验所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：java list load load php python spark String wordcount 大数据大数据开发开发数据库数据库程序员程序员

上一篇: 论文解读（MPNN）Neural Message... 下一篇:FastAPI 学习之路（十二）接口几...

猜你在找的心得技巧相关文章

clion结合vcpkg以及GTest的使用 2022-07-07
EGF 2022-06-06
ExtJS 布局-Column布局（Column layout） 2022-06-05
颜色之ARGB与RGB、RGBA的区别与介绍 2022-04-15
rgba中的a是什么意思 CSS之RGBA颜色指南 2022-04-15
rootfs -根文件系统制作 2022-07-07
网页简单布局之结构与表现原则分享 2022-04-15
小项目中怎么防止Vue的闪现画面效果 2022-04-15
隐藏 Web 中的元素方法及优缺点教程详解 2022-04-15
告别硬编码让你的前端表格自动计算的实例代码 2022-04-15

全站导航更多