有经验的数据科学家和新手的22个区别

《有经验的数据科学家和新手的22个区别》

哪些事情是那些有经验的数据科学家知道而初学数据的科学家不知道的?

这篇文章编译自 22 Differences Between Junior and Senior Data Scientists

这里是一个快速概述。

  1. 自动执行任务。编写可以编写代码的代码。
  2. 将任务外包给初级成员或顾问。
  3. 管理员工,雇佣合适的人,管理向你汇报的经理。
  4. 培训可能不懂技术的同事。做高级经理的顾问。
  5. 为特定的大型项目(构建庞大的分类法,等等)确定合适的工具,并评估供应商软件和平台的优点和缺点。
  6. 为特定项目确定正确的算法和统计技术。根据需要混合这些技术以获得最佳性能。
  7. 不信任数据;识别有用的外部或内部数据源,混合各种数据源,同时清除数据冗余和其他数据问题。
  8. 找出最好的特征 (feature),比如使用比率或转换,组合原始特征,使它们成为更好的预测指标。这一点通常需要对你所从事的业务有很好的了解。
  9. 理解高管谈话,并将来自高管的请求、问题、关注或想法转化为成功的数据科学问题并加以解决。
  10. 衡量你给公司带来的投资报酬率 (ROI);能够说服主管相信你的附加值(或者当ROI是非正数时提供合理的解释,并提供一条纠正的途径)。
  11. 有效地沟通问题。成功地与各种类型的经理/同事/执行人员/客户进行交互。
  12. 清楚地了解什么能为你的公司或客户创造价值,并且能够及时、持续地交付价值,而不受公司内部政治和挫折的影响。
  13. 能够评估完成一个复杂的项目需要多少时间,有哪些障碍和奖励,并在交付成果和截止日期方面确保不掉链子。
  14. 能够提出建议,创建新项目,说服利益相关者,并从头到尾管理这些项目。
  15. 能够快速创建自己的公司,并成功地管理它。
  16. 提出关于数据科学实现的建议,帮助维护,并确保项目启动良好,不会随着时间的推移而动摇。
  17. 了解哪些东西你尚未了解,并设法外包或学习新的东西(并且能够识别/优先排序你需要获得的知识或需要外包的技能)。
  18. 理解你所从事的业务,理解高管心中的愿景,即使你的经理没有明确说明。
  19. 测试,测试,再测试。为什么尽管付出了巨大的努力和数百万美元,Facebook上的假新闻依然像瘟疫一样泛滥?原因可能在于缺乏测试和/或无法弄清楚假新闻是什么样子(缺乏商业头脑)。骗子们总是在改变他们的策略;你的算法应该识别并关注新的趋势,而不是仅仅能够发现20种类型的假新闻,并错过在你的解决方案实施之后的新类型。与业务分析师和IP管理员合作,不断完善您的算法。使用稳健的算法和稳健的特征。正确衡量你的成功率。做有意义的交叉验证:如果你对15个欺诈案例(测试数据集)进行算法训练,它是否能够识别出不在这个训练集中的新出现5个欺诈案例?避免过度适配模型。
  20. 不会花上三个月的时间在完美模型的基础上提供一个完美的解决方案,而是选择在一天内可以得到一个近似(但不那么完美)的解决方案。毕竟,数据是杂乱无章的,所以完美的模型并不真正存在。如果你想要绝对完美的话,你只是在损害你的投资回报率。
  21. 相信你的直觉,但也应适可而止。有些问题不需要编写任何代码或测试就可以得到解答。有时,简单的模拟 (simulation) 就相当有效。事后分析 (post-mortem analyses) 也是一样(你可以称之为分析法证)。
  22. 花时间(一天至少一小时,通常更多)记录每件事,确定优先级,与利益相关者进行讨论,并进行规划。

点赞