Willa
数据分析新人 Lv 42
好奇心 100 | 学习力 100

入职第二周：感激憧憬与自我质疑

我到底能不能通过试用期？

想写这篇随记是在一周前的事情了，只是上周忙着租房搬家，没有时间坐下来好好复盘一下，有点可惜。不过从这周开始进行每周整理也不迟。

这周五（也就是昨天），在我入职的第二个周五，T老师和我约了阶段性沟通，问我这两周的感受怎么样。我没敢直接质询T老师我何德何能和这么些大佬共组，只是透露了这两周我一下班就开始的忧虑：我到底能不能通过试用期？

Y老师说，不要想这些，肯定没问题的。

T老师似乎略过了我这个问题，说慢慢来。

然后我自己想了想，前两周就把自己的负面焦虑情绪暴露在外是不是不太好。

不过我的焦虑也只是因为想要更快提升自己，跟上步调，为公司做贡献，所以本质也不太坏吧（笑）。

不过与其焦虑，更有效的方式应该是对前两周进行复盘（Y老师风格自我教育），所以我这不就来了吗。（这篇感性回顾更多一些，因为我是 high on 感性动物。或许还会有另外一篇代码与逻辑整理更多的，不好说。）

入职路线回顾

我的试用期总时长半年。第一个月是培训阶段，两周脱产、两周对接项目——正常顺序理论上是这样的，不过T老师给我特别倒过来了，说是

1）一开始的项目只是普通的建模任务，没学过专业的空间分析也能做；2）带着项目中的理解去学习会更有目的性。于是我现在正处于对接项目的结尾（不过还没做出结果来就是了）。

在这个过程中我的心情被分成两部分：感激与憧憬 + 自我质疑。

感激与憧憬

感激来自于T老师把我从留学生归国，就业市场青黄不接的时间段捞了起来。再加上T老师、Y老师、Z老师都很耐心地帮我解答在工作上的问题。

憧憬来自于对工作团队的能力、氛围、态度，及工作内容的100%认可。还记得入职第二天，我在微博上写，在一个满是大佬的组里工作真快乐啊，每天都能学到更多的东西。在真实的工作环境里，我终于切身体会到了什么是打工人的要求hhhh，更快，更精，还要更有解释度，伴随而来的就是探索过程的更难，更深，更痛苦。

自我质疑

自我质疑来自于这几个方面：

职位的挑战：讲个道理，在T老师介绍我说是数据科学家的时候，我都抖了三抖，我的自我认知和这个职位暂时还很不匹配，导致了我对自己的不自信。不过我简历的内容其实主要都是数据科学家的内容，只能尽量同步自己的认知了。
环境的挑战：周五听了答辩，更加发觉同组的都是大神：Z老师数科、前后端全能，Y老师入职一年就能单独负责项目，完整交付数据模型、配置服务器。我一年后能不能做到同样的水平呢？
项目的挑战：工作中的项目和学校里的项目完全不是同一个难度，即使要求达到的是同一个目的，也需要更快响应、更精确地解释、并为自己的内容负责（指做成合情合理的ppt）。在这种较高强度的要求下，我对自己感到不满——两周做一个内容——虽然中间有进行了多种算法尝试，并且接入了两个新的数据源，但我的效率依然有提高的空间。

提升空间：

我目前认识到的提升空间集中在认为效率提升、想法扩充上：

操作重复率高，代码可复用性不强：比如在数据中难免有初次探索难以发现的outliers，在聚类以后重新审视才会意识到。在这种情况下，应该重新返回前面进行异常值的排除，再进行聚类。这整个过程对于熟练工来说，应该能很快完成，然而我却要在这个部分花很长的时间，原因就在于之前写的代码比较杂乱，不方便后期重新运行，外加之前的结果没有保存完整，容易被后期操作覆盖。
更多时间用在了解释模型结果、数据处理部分：虽然聚类确实十分看重结果解释，但在我本人对业务情况不太了解，聚类结果数据量又较大的情况下，不应该花过多时间执着于人工解释上，而是应该在控制变量的基础上借助已有的metrics对分类结果进行衡量。（比如定义模糊系数、使用grid_search，但是注意不要写太大，不然容易跑崩）
另一个缺点是对于模型/算法/数据处理的想法较少，目前还拘泥于基础的使用方法上。在入职的两周内，我受了很多同组大佬的启发，比如同样是聚类，如果聚类的结果太模糊，可以选中聚类中样本数量最多的聚类，重新选择指标，进行再聚类（暴力聚类）。比如除了聚类，同一个项目可以尝试的模型有：user-item collaborative filtering, item-item network analysis, user-item/WOB LDA模型，几乎是只要数据处理得好就能进行运用的程度。另外我还发现除了K-Means聚类以外的大多数聚类，如分层聚类都可以直接输入距离矩阵，或者1/相似度矩阵进行分类。还有一些神奇的包可以生成sparse_matrix, 用matrix做组间计算嗖嗖快。

在解决方案上，T老师安慰我说：这种东西都是慢慢做出来的。随着实践时间的增加，自然会知道哪些操作未来可以复用，哪些包直接调用起来效率更高，甚至知道探索的结果该怎样以业务的标准去评判。但是我还是希望能够加速学习的进度，比如说主动理解模型算法、尤其是文档。多看相关的文章，开拓算法运用的空间。当然还有很重要的，跟大佬们搞好关系；P

既然知道自己的不足，又很想在这个方面提升，那就发掘自己的所有潜力做到最好吧！Y老师一年做到了现在的水平，我的基础稍微薄亿些，那我就争取1.5年、甚至2年。

总之，我要留在这里。

07 Nov 2020

日常整理

« 微博项目（1）：爬取用户微博内容成熟销售的话术真厉害！ »

Willa Y's

入职第二周：感激憧憬与自我质疑

入职路线回顾

感激与憧憬

自我质疑

提升空间：

Explore →