本文摘录了一组关于机器学习的介绍文章,帮助非技术性的读者快速了解机器学习的目的、原理和用途。
为什么要机器学习?
机器学习有望解决传统企业软件解决方案的很多问题。首先,在传统企业软件中,数据的质量受限于人类的输入。然而现实是,大部分销售不喜欢更新CRM系统中的数据,真正的销售数据只存在于若干电话会议与数字表格中。同时,传统的企业系统大多构建于关系型数据库上,而关系型数据库并不善于表现信息的时间轴视图,因此大多数企业需要依赖于庞大的数据仓库来不断接收来自企业系统的数据转储。使用这种方法,业务人员必须等待几周甚至几个月才能从数据团队得到有用的洞见。最后,传统的企业系统依赖于成千上万人定的规则,而这些规则是静态的,在业务发展的过程中会逐渐失效。
(来源:Crunch Network | The Next Wave Of Enterprise Software Powered By Machine Learning)
机器学习的发展可以分作三个阶段:机器学习1.0是“描述”(description),2.0是“预测”(prediction),3.0是“对策”(prescription)。今天的CxO们大约不用太操心“描述”阶段,大多数企业已经拥有对应的IT系统。眼下他们迫切需要拥抱“预测”阶段。今天的科技不仅能让业务人员查看历史数据,而且能预测未来的行为和结果。
(来源:McKinsey | An executive’s guide to machine learning)
机器学习如何工作?
简单说,机器学习是一类自我改进的算法。计算机从一个模型开始,用试错法反复训练这个模型,然后就可以做出预测,例如预测某一笔金融交易有多大风险。以侦测信用卡欺诈的机器学习算法为例,首先要用大量真实持卡人的交易记录来训练这个模型,并根据历史记录对模型调优。接下来,信用卡交易就会实时地流过这个算法模型,算法模型则对每条交易记录生成一个概率数据,代表该笔交易涉及欺诈的可能性(例如97%)。如果欺诈侦测系统被配置为阻止欺诈概率95%以上的交易,那么这个评估值就会引发POS机拒收这张信用卡。
在判断交易是否欺诈时,机器学习算法会考虑很多因素:商家的可信度、持卡人的购买行为、时间、地点、IP地址等等。数据点越多,预测就会越准确。人类不可能在几分之一秒内评估几千个数据点,只有自动化的算法能让实时的欺诈侦测成为可能。
(来源:The Conversation | Machine learning and big data know it wasn’t you who just swiped your credit card)
机器学习与传统的数据统计有一个重要的区别:使用机器学习时,我们并不关心因果性(causality)。我们可能并不关心什么变化造成什么结果,而是聚焦于预测:只要有一个模型能在当前环境下给出准确的判断就行。可以参考我们如何使用天气预报:天气预报并不告诉我们降雨的原理,只告诉我们下雨的概率,我们参照这个概率判断是否应该带伞出门。机器学习也是一样:个性化推荐就是对人们偏好的预测,尽管并不知道人们为什么喜欢这些东西,但这种预测是有用的。习惯了这个思维方式以后,机器学习的价值就会显而易见。
(来源:HBR | What Every Manager Should Know About Machine Learning)
机器学习用来干嘛?
(来源:Tata Consultancy Services | Using Big Data for Machine Learning Analytics in Manufacturing)
在银行里应用机器学习技术提供个性化服务:
- 基于顾客的信用卡/银行卡使用模式给出推荐;
- 基于顾客在特定产品/网站上的行为给出推荐;
- 预测顾客下一步可能的消费行为;
- 如果顾客错过了航班,预测他们立即的需要;
- 向顾客推荐有折扣的商品、餐馆、酒吧等;
- 根据顾客的还款周期及时推送时尚信息
(来源:Kathiravan Manoharan | Applications of Machine Learning Algorithms in Banking)
应用在金融服务领域,机器学习算法可以揭示新的消费模式、识别未知的交互方式、发现新的顾客群体、获得新的洞见,从而助力银行的全渠道建设。
(来源:Strands Finance | Transparent technology: How machine learning brings magic to next-generation PFM)
我们调查了168家年收入5亿美元以上企业的执行官,76%表示机器学习可以通过从大数据中持续学习和优化给销售人员的实时推荐而带来销售增长。超过4成的企业已经开始在销售与市场领域实施机器学习。我们的研究显示,大企业在销售流程中应用机器学习有三个维度:首先是提供数据和流程的可见性,使销售过程更加科学;另外是在销售与市场环境中开展更多数据驱动的实验;第三是通过自动化事务性流程来最大化实际销售活动的时间占比。
在采用机器学习之前,决策的主要依据是静态的数据库、针对历史数据的分析、经验和直觉。机器学习可以用实时数据来驱动决策,并且持续改进预测质量。假说可以快速被提出、测试、调整、并最终用于改进工作流程。在我们的调查中,接近80%的企业认为机器学习显著提升了销售关键绩效指标。
(来源:Sloan Review | Sales Gets a Machine-Learning Makeover)
(来源:Yandex Data Factory)
麦肯锡使用机器学习算法扫描超过1万份应聘者简历,预测出来的招聘结果与真实结果高度相关。有趣的是,机器学习算法接受了比真实招聘略多的女性应聘者,也许将来技术可以有效地消除人类面试官隐藏的偏见。
(来源:McKinsey | An executive’s guide to machine learning)