大数据分布式计算 0917
本次课程内容讲述的几个注意的有意思的东西:
分布式是什么
“数据向代码跑” / “代码向数据跑”
原本的流程:
新流程:
俗话说:双拳难敌四手嘛。
多进程 并非 多线程
多进程即开很多程序,多线程是多路并行。
map-reduce原理
1+3+5+7+9+11+13+15+17
map
(1+3+5) + (7+9+11) + (13+15+17)
reduce
9 + 27+ 45
answer
常用的框架已经封装了分布式运算的计算法,用户只写需求的逻辑,由此产生了MapReduce的框架和Yarn,并不做运算。
因为专门的“计算引擎”(基于计算系统)Hadoop,HDFS储存,spark(生于伯克利,号称分布式平台中流砥柱)
学习目标:非常熟悉,能够把自己写的东西放上去,不写,要会用。
作业
请用R或者Python自带的并行计算模块实现一个简单的单机文件查找代码,并与串行代码在效率上做比较。思考分布式与并行计算的区别。
我的答案,由于特殊需求无意义地加长了很多。同时就当初学python的任务驱动练习了。
1 |
|
多进程也不见得很好用嘛,甚至不经过特意等待,比顺序运行还慢,哈哈。
(请多指教,完)
本文链接: https://konelane.github.io/2020/09/17/200917hadoop/
-- EOF --
转载请注明出处 署名-非商业性使用-禁止演绎 3.0 国际(CC BY-NC-ND 3.0)