• About Me


  • 江湖传闻



  • 上一张

分布式1015-1021-分布式回归分析

一、开始!今日信息量巨大

大佬们展示肌肉。

回归部分还需要些数学根底。

代码后面也有一丢丢正文。

数据之学|交叉验证相关理论介绍

交叉验证相关理论介绍

2020.10.13

1.1 场景构建

源禾同学和正阳同学在某次考试都考了100分,正阳同学实力强劲,学习踏实,掌握核心科技,考了100是实力的体现,因为卷子上只有100分。而源禾同学考100分,因为源禾使用了败者食尘,他课下做了这张卷子的所有题,背了题,考了100分是因为记性好。

谁才是老师喜爱的同学呢?

分布式1007-Map-Reduce的文字流

最后编辑于:20.10.15

开门见山地来一段,就一段,不会有人这个都没搞懂吧,不会吧不会吧(拖走

1
2
3
4
5
6
hadoop jar \
$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.1.3.jar \
-input /user/devel/2020210995wangyuanhe/README.txt \
-output /user/devel/2020210995wangyuanhe/1007output \
-mapper "/usr/bin/cat" \
-reducer "/usr/bin/wc"

开始前再插一句题外话,被强大而可爱的丰丰老师表(da)扬(shang)了,动力+10086,继续努力啊小禾禾!!

分布式0917-遍历检索的多进程初试水

大数据分布式计算 0917

本次课程内容讲述的几个注意的有意思的东西:

分布式是什么

“数据向代码跑” / “代码向数据跑”

原本的流程:

新流程:

俗话说:双拳难敌四手嘛。

遍历山河|贵州

第一次坐飞机。

夜航|氦核20.07.06

芸芸灯火糅中盘,一子冲天战正酣。
班师星中我非客,翼稍挂月天外山。
明灯未知夜深浅,颠簸可猜云浓淡。
远电殷霞威颜厉,破雾勒马便坦然。

python联萌|pandas(国宝库

最后编辑于:2020.02.06 18:00

Pandas库

Pandas是基于NumPy 的一种工具,其出现是为了解决数据分析任务。(氦核:个人觉得更像是探索工具,没有模型,简单分析。)
Pandas吸纳了大量库和一些标准的数据模型,提供了高效操作大型数据集所需的工具。
Pandas中的函数和方法能够使我们快速便捷地处理数据。
它是使Python成为强大而高效的数据分析环境的重要因素之一。

http://pandas.pydata.org/pandas-docs/stable/api.html

本文参考万旷网教程

python联萌|今天康康numpy(怒骂朋友库

最后编辑于:2020.02.05 12:30

Numpy库

Numpy库是Python的一种开源的数值计算扩展。

Numpy可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效很多。

据说Numpy将Pyhon变成了一种免费的更强大的Matlab系统。

本文介绍性文字转载自万旷网。氦核感觉notebook形式更适合学习,有机会把丘比特文件给大家附上。

python联萌|初探WindAPI

最后编辑于:2020.02.05 12:30

Wind API使用说明

windAPI是一个很好的工具,可以不通过客户端获取数据(不过前提是要有土豪的账号加持,笑)本文大部分介绍性文字转载自万旷网。本文的分析全部通过python完成。配置安装略过不表,请致电客服经理小哥哥(声音奶声奶气有点温柔!

遍历山河|南京

旅行结束,慢慢添加我的心绪啦。有人说旅行是痛并快乐着,我觉得没错。偶尔快乐多,偶尔痛苦多。但是南京不太一样,在这里,我几乎没有痛苦,只有一些遗憾和无穷快乐。