分享人BG介绍
Krystal师姐——中国人民大学 2020级 统计学院 应用统计学本科生,辅修高礼金融科技,现已保研至复旦大学管理学院DS&BA项目
过往实习经历:集中在金融行业,曾在券商固收、量化私募实习,在字节跳动DS团队实习前并未有过互联网大厂实习经历。
字节跳动TikTok国际化电商数据科学团队实习
2024年2月6日
完成字节一面
2024年2月7日
完成字节二面,两轮均为技术轮面试
2024年2月18日
完成字节三面(HR面,中间跨越一个春节假期)
2024年3月4日
入职,进入字节跳动tiktok国际化电商数据科学团队实习
DS实习面试经验
1. SQL和Python
面试中一般考察SQL频率>>Python,会要求共享屏幕写SQL代码,着重掌握行转列、窗口函数、数据倾斜、SQL优化等,可以用牛客网、LeetCode刷题,相比之下Python考察频率会比较低,但是Pandas和Numpy常用函数要熟练
2. 机器学习八股
涉及到各种模型的原理(回归、分类、聚类、降维等)各个模型的使用场景、优缺点、模型之间的比较(GBDT、XGBoost、LightGBM)
tips:要对数据建模的整个流程熟悉于心,要清晰特征工程的步骤
p.s. 深度学习、强化学习、大模型了解的话更好,一般面试中不会问到,但是简历上如果有相关经历大概率会被问到
3. 统计知识
△ 概率论+数理统计:抽样分布、大数定律、中心极限定理、假设检验、显著性水平、P-value、两类错误、贝叶斯条件概率等
△ AB-test:z检验、t检验、检验统计量(均值类指标和比率类指标检验统计量服从的分布);统计功效(power)、MDE与最小样本量的计算、实验周期、实验灵敏度;双边市场中的AB-test
△ 因果推断:无法进行AB-test时,方法有PSM、DID、各种Uplift Model(EconML : DML、DR、Casual Forest、Meta-Learner)
△ 推荐一个网站链接:https://jace-yang.github.io/Full-Stack_Data-Analyst/Causal_Inference/2_methods.html
4. 业务sense
△ 常用指标术语(电商):GMV、GPM、ROI、COD(Cash on delivery)、PCT(per customer transaction)、VV(Video View)、PV(Page View)、UV(Unique Visitor)、DAU(Daily Active User)、SKU、SPU、CTR(Click through rate)、C-O rate(Click to order)、D-O rate(Detail to order)、ARPPU(Average Revenue per Paying User)等
△ 指标异动分析与拆解:横向维度拆解、纵向链路拆解
tips:
1. 使用小红书等app广泛搜集信息,相信前人的力量
2. 面试后及时复盘,弄懂没答出来的题目,防止下一次还答不出来
3. 对自己过往的项目经历胸有成竹,保证能够有条理、有逻辑地叙述出来(STAR法则)
HR面主要会问:简历上的经历、你的职业规划、你对实习岗位的工作要求是否清楚、反问环节,日常实习一般不会卡在HR面,保持一个积极的精神面貌就好~
字节DS团队实习体验
1、团队氛围 + 实习强度
到目前为止,我在字节已经实习了一个月,总体感受是字节的工作节奏比较快(部门的工作氛围还是比较卷的,当然这也和实习所属部门有关)
我是在字节TikTok国际化电商团队,业务迭代速度还是比较快的,实习任务也不少,在刚开始实习的时候需要学习的内容很多(字节内部的学习文档非常之多),但是mentor会帮助我快速landing,所以说体验还是很好的。在实习阶段我也遇到了志同道合的实习搭子,很多问题如果自己一个人想不太清楚的时候就会一起讨论一下,大家彼此互帮互助,组内也会有knowledge sharing分享会,能够学到很多知识~
2、数据科学岗位的工作内容
数据科学岗位主要分两个方向,一个是业务型,一个是中台型。
△ 业务型工作内容主要包含数据建模,侧重用统计或机器学习算法解决业务问题,并推动决策落地
△ 中台型工作内容主要侧重AB-Test,推动平台AB产品,各种复杂场景AB-Test
我目前实习工作内容集中在前者,即数据建模解决业务问题,涉及到的技术栈包括Python、SQL、因果推断
(这里推荐两本因果推断的书,大家可以参考学习)
(关注BA GROUP,后台回复“领书”可以自动领取原书PDF)
关于我的实习工作 tbc
熟悉字节内部基建、团队架构以及业务逻辑,完成landing任务以及mentor安排的小任务
从mentor这边接手一个完整的项目,熟悉项目onepage,清楚项目每步的思路,复现
针对项目初始版本模型的缺点进行优化改进,模型迭代(建模任务:针对增效进行度量)
使用多种方法,进行比较,探索最优方法,项目迭代后移植到其他端(如toB等)