Willa
Willa
数据分析新人 Lv 42
好奇心 100 | 学习力 100

入职第二周:感激憧憬与自我质疑

我到底能不能通过试用期?

想写这篇随记是在一周前的事情了,只是上周忙着租房搬家,没有时间坐下来好好复盘一下,有点可惜。不过从这周开始进行每周整理也不迟。

这周五(也就是昨天),在我入职的第二个周五,T老师和我约了阶段性沟通,问我这两周的感受怎么样。我没敢直接质询T老师我何德何能和这么些大佬共组,只是透露了这两周我一下班就开始的忧虑:我到底能不能通过试用期?

Y老师说,不要想这些,肯定没问题的。

T老师似乎略过了我这个问题,说慢慢来。

然后我自己想了想,前两周就把自己的负面焦虑情绪暴露在外是不是不太好。

不过我的焦虑也只是因为想要更快提升自己,跟上步调,为公司做贡献,所以本质也不太坏吧(笑)。

不过与其焦虑,更有效的方式应该是对前两周进行复盘(Y老师风格自我教育),所以我这不就来了吗。(这篇感性回顾更多一些,因为我是 high on 感性动物。或许还会有另外一篇代码与逻辑整理更多的,不好说。)

入职路线回顾

我的试用期总时长半年。第一个月是培训阶段,两周脱产、两周对接项目——正常顺序理论上是这样的,不过T老师给我特别倒过来了,说是

1)一开始的项目只是普通的建模任务,没学过专业的空间分析也能做;2)带着项目中的理解去学习会更有目的性。于是我现在正处于对接项目的结尾(不过还没做出结果来就是了)。

在这个过程中我的心情被分成两部分:感激与憧憬 + 自我质疑。

感激与憧憬

感激来自于T老师把我从留学生归国,就业市场青黄不接的时间段捞了起来。再加上T老师、Y老师、Z老师都很耐心地帮我解答在工作上的问题。

憧憬来自于对工作团队的能力、氛围、态度,及工作内容的100%认可。还记得入职第二天,我在微博上写,在一个满是大佬的组里工作真快乐啊,每天都能学到更多的东西。在真实的工作环境里,我终于切身体会到了什么是打工人的要求hhhh,更快,更精,还要更有解释度,伴随而来的就是探索过程的更难,更深,更痛苦。

自我质疑

自我质疑来自于这几个方面:

  1. 职位的挑战:讲个道理,在T老师介绍我说是数据科学家的时候,我都抖了三抖,我的自我认知和这个职位暂时还很不匹配,导致了我对自己的不自信。不过我简历的内容其实主要都是数据科学家的内容,只能尽量同步自己的认知了。

  2. 环境的挑战:周五听了答辩,更加发觉同组的都是大神:Z老师数科、前后端全能,Y老师入职一年就能单独负责项目,完整交付数据模型、配置服务器。我一年后能不能做到同样的水平呢?

  3. 项目的挑战:工作中的项目和学校里的项目完全不是同一个难度,即使要求达到的是同一个目的,也需要更快响应、更精确地解释、并为自己的内容负责(指做成合情合理的ppt)。在这种较高强度的要求下,我对自己感到不满——两周做一个内容——虽然中间有进行了多种算法尝试,并且接入了两个新的数据源,但我的效率依然有提高的空间。

提升空间:

我目前认识到的提升空间集中在认为效率提升、想法扩充上:

  1. 操作重复率高,代码可复用性不强:比如在数据中难免有初次探索难以发现的outliers,在聚类以后重新审视才会意识到。在这种情况下,应该重新返回前面进行异常值的排除,再进行聚类。这整个过程对于熟练工来说,应该能很快完成,然而我却要在这个部分花很长的时间,原因就在于之前写的代码比较杂乱,不方便后期重新运行,外加之前的结果没有保存完整,容易被后期操作覆盖。

  2. 更多时间用在了解释模型结果、数据处理部分:虽然聚类确实十分看重结果解释,但在我本人对业务情况不太了解,聚类结果数据量又较大的情况下,不应该花过多时间执着于人工解释上,而是应该在控制变量的基础上借助已有的metrics对分类结果进行衡量。(比如定义模糊系数、使用grid_search,但是注意不要写太大,不然容易跑崩)

  3. 另一个缺点是对于模型/算法/数据处理的想法较少,目前还拘泥于基础的使用方法上。在入职的两周内,我受了很多同组大佬的启发,比如同样是聚类,如果聚类的结果太模糊,可以选中聚类中样本数量最多的聚类,重新选择指标,进行再聚类(暴力聚类)。比如除了聚类,同一个项目可以尝试的模型有:user-item collaborative filtering, item-item network analysis, user-item/WOB LDA模型,几乎是只要数据处理得好就能进行运用的程度。另外我还发现除了K-Means聚类以外的大多数聚类,如分层聚类都可以直接输入距离矩阵,或者1/相似度矩阵进行分类。还有一些神奇的包可以生成sparse_matrix, 用matrix做组间计算嗖嗖快。

在解决方案上,T老师安慰我说:这种东西都是慢慢做出来的。随着实践时间的增加,自然会知道哪些操作未来可以复用,哪些包直接调用起来效率更高,甚至知道探索的结果该怎样以业务的标准去评判。但是我还是希望能够加速学习的进度,比如说主动理解模型算法、尤其是文档。多看相关的文章,开拓算法运用的空间。当然还有很重要的,跟大佬们搞好关系 ;P

既然知道自己的不足,又很想在这个方面提升,那就发掘自己的所有潜力做到最好吧!Y老师一年做到了现在的水平,我的基础稍微薄亿些,那我就争取1.5年、甚至2年。

总之,我要留在这里。

comments powered by Disqus