golang 如何处理大数据_Golang

Golang

vbs DOS/BAT hta htc python perl 游戏相关 VBA 远程脚本 ColdFusion ruby专题 autoit seraphzone PowerShell linux shell Lua Golang Erlang

上一篇: golang 如何结束一个协程下一篇:golang 如何安装包

golang 如何处理大数据

发布时间：2022-05-15 发布网站：脚本宝典

脚本宝典收集整理的这篇文章主要介绍了golang 如何处理大数据，脚本宝典觉得挺不错的，现在分享给大家，也给大家做个参考。

Golang被证明非常适合并发编程，goroutine比异步编程更易读、优雅、高效。本文提出一个适合由Golang实现的PiPEline执行模型，适合批量处理大量数据（ETL）的情景。

想象这样的应用情景： （推荐学习：go）

从数据库A（Cassandra）加载用户评论（量巨大，例如10亿条）；根据每条评论的用户ID、从数据库B（MySQL）关联用户资料；调用NLP服务（自然语言处理），处理每条评论；将处理结果写入数据库C（ElasticSeArch）。

由于应用中遇到的各种问题，归纳出这些需求：
需求一：应分批处理数据，例如规定每批100条。出现问题时（例如任意一个数据库故障）则中断，下次程序启动时使用checkpoint从中断处恢复。
需求二：每个流程设置合理的并发数、让数据库和NLP服务有合理的负载（不影响其它业务的基础上，尽可能占用更多资源以提高ETL性能）。例如，步骤（1）-（4）分别设置并发数1、4、8、2。

这就是一个典型的Pipeline（流水线）执行模型。把每一批数据（例如100条）看作流水线上的产品，4个步骤对应流水线上4个处理工序，每个工序处理完毕后就把半成品交给下一个工序。每个工序可以同时处理的产品数各不相同。

你可能首先想到启用1+4+8+2个goroutine，使用channel来传递数据。我也曾经这么干，结论就是这么干会让程序员疯掉：流程并发控制代码非常复杂，特别是你得处理异常、执行时间超出预期、可控中断等问题，你不得不加入一堆channel，直到你自己都不记得有什么用。

可重用的Pipeline模块

为了更高效完成ETL工作，我将Pipeline抽象成模块。我先把代码粘贴出来，再解析含义。模块可以直接使用，主要使用的接口是：NewPipeline、Async、Wait。

使用这个Pipeline组件，我们的ETL程序将会简单、高效、可靠，让程序员从繁琐的并发流程控制中解放出来：

package main
 
import "LOG"
 
func main() {
    //恢复上次执行的checkpoint，如果是第一次执行就获取一个初始值。
    checkpoint := loadCheckpoint()
    
    //工序(1)在Pipeline外执行，最后一个工序是保存checkpoint
    pipeline := NewPipeline(4, 8, 2, 1) 
    for {
        //(1)
        //加载100条数据，并修改变量checkpoint
        //data是数组，每个元素是一条评论，之后的联表、NLP都直接修改data里的每条记录。
        data, err := extractreviewsFromA(&amp;checkpoint, 100) 
        if err != nil {
            log.PRint(err)
            break
        }
        
        //这里有个Golang著名的坑。
        //“checkpoint”是循环体外的变量，它在内存中只有一个实例并在循环中不断被修改，所以不能在异步中使用它。
        //这里创建一个副本curCheckpoint，储存本次循环的checkpoint。
        curCheckpoint := checkpoint
        
        ok := pipeline.Async(func() error {
            //(2)
            return joinUserFromB(data)
        }, func() error {
            //(3)
            return nlp(data)
        }, func() error {
            //(4)
            return loadDataToC(data)
        }, func() error {
            //(5)保存checkpoint
            log.Print("done:", curCheckpoint)
            return saveCheckpoint(curCheckpoint)
        })
        if !ok { break }
        
        if len(data) < 100 { break } //处理完毕
    }
    err := pipeline.WaIT()
    if err != nil { log.Print(err) }
}

以上就是golang 如何处理大数据的详细内容，更多请关注脚本宝典其它相关文章！

脚本宝典总结

以上是脚本宝典为你收集整理的golang 如何处理大数据全部内容，希望文章能够帮你解决golang 如何处理大数据所遇到的问题。

如果觉得脚本宝典网站内容还不错，欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: golang 如何结束一个协程下一篇:golang 如何安装包

猜你在找的Golang相关文章

什么是Go语言？Go语言的优缺点介绍 2022-05-15
golang 数组随机排序的实现 2022-04-19
golang实现数组分割的示例代码 2022-04-19
浅谈Go1.18中的泛型编程 2022-04-19
Go 语言的 :=的具体使用 2022-04-19
golang实现PHP数组特性的方法 2022-04-19
如何在Go中将[]byte转换为io.Reader 2022-04-19
golang 调用c语言动态库方式实现 2022-04-19
Go 通过 Map/Filter/ForEach 等流式 API 高效处理数据的思路详解 2022-04-19
在 Golang 中使用 Cobra 创建 CLI 应用 2022-04-19

全站导航更多

最新Golang教程

热门Golang教程