数据学习背后的数学原理,张靖笙授课见证 -【中华讲师网】张靖笙授课见证,张靖笙博客,张靖笙网站,张靖笙文章,张靖笙最新文章

张靖笙:数据学习背后的数学原理

数据学习应用数学

2020-07-11 2602

由于工作需要和虚荣心驱使，我慢慢接受并且享受人家对我大数据专家的称呼，虽然这么多年一线数据工作经验也壮了我这个胆，但在数学面前还是情不自禁要打起了哆嗦。我也专门写过文章论述过数据和数学的关系，但这并不能掩盖我数学认知上的肤浅。

同样，数据学习也是根植于丰厚的数学土壤，如果今天我们看到各种人工智能大数据应用的如火如荼，其实是各种深厚应用数学的开花结果，本质上，数据学习和数学是一体的，套用我所喜爱的冰山模型来比喻，数学是整个冰山，数据学习仅仅是冰山水面上露出来的那一个角，如果没有水底过千倍的体量支撑，这一个角也显露不出来，说句题外话，我不想用金字塔来形容此山，因为数据学习无论如何都没资格座在山顶。

提出数据学习的概念，我套用了机器学习的定义，当然机器学习背后仍然是几乎令人望而却步的高深数学，但在人工智能越演越烈的今天，我们每个人都要学会和众多的人工智能“生命”和谐相处，就不可避免地要了解人工智能的“心思”，可以说今天我们每个人都是被数字智能时代倒逼着学习数据，也要硬着头皮面对那些当初高悬在象牙塔尖的数学。

像我这种天生脑子并不灵光的学生，当初学生时代的数学虽然不算太差，但肯定不会太好，于是能给我留下对数学的学生记忆，是从华南理工大学（当时还叫华南理工学院）一年级开始的对计算机产生浓厚兴趣之时。虽然那时的我对计算机尚且无知到把微机主板里面的大电容误认为是硬盘，但也不可阻挡我摸着石头过河学习各种编程知识，这个遥远的记忆和数据学习距离不是一般的远，却和数学的距离无比地近。

当年大学一年级我玩的是华南理工大学27号楼微机房的286，编程语言是BasicA(后面加个A表示的是高级),而27号楼微机房在当时显出神圣光芒之处，那里的286和BasicA居然是可以支持图像模式编程的，而且分辨率在当时的电脑来说还不算低，这和我高中时期走马观花接触过的字符界面老苹果微机简直是天壤之别，于是那个微机房磁铁一样吸引了包括本人在内的很多华工男愣头青，有些人在那里玩那个美国的阿帕奇直升机战斗游戏，这在当时绝对是被膜拜的高科技。

本人却在华工图书馆找到了一本当年著名的沙老师编写的《Basic高级编程》教材，里面有大量的教导如何用BasicA作图的内容，特别是那种三维几何图形的透视旋转操作程序，我依葫芦画瓢输入书本中的程序在屏幕中浮现出了各种简单图形，比如立方体之类，按下按钮旋转不同角度观察其变化，这让我感觉非常兴奋，于是结合自己当时所读的船舶工程专业，立下了要搞计算机辅助设计(CAD)的志向，转行金融信息化是后话。

坦白说，早期写程序还是很挑战智商的，不像今天的程序员已经有丰富的组件、模板、SDK、API、函数等资源可供调用，我们当时要处理非常多的逻辑细节，从数据如何被输入，到在内存如何存储和加工，再到屏幕如何显示和画图，越生动出彩的程序越要对其数据结构和算法逻辑做精心的设计，所以当我们这些早年的码牛们终于爬到了汇编和C语言，大部分人的选择就是果断地放弃原来的Basic，可偏偏后者才是计算机高级语言。

由此可以看到，在算法为王的年代，我们的数据处理也就是记忆、理解这种浅表学习的水平，连决策支持的应用层次都还触及不到，当然这不代表没有应用数学，只是大多数还就只是用到中小学的数学知识，常用的包括代数、函数、数组、排列组合、矩阵计算等等，当然我要搞CAD绘图也需要用包括三角函数之类的解析几何知识。

后来我在计算机方面的学习始终离不开数学应用的深入，虽然我的数学应用总是点到解决了当时的问题就打住了，但还是缓慢地取得一些进步。对此我有一些体会，以前呢我们解数学题也就是为了测验或者考试，好像都是一些纯智力的烧脑难题，我这种脑子不灵光的人常常被一些题目难住了，那种看着都认识的数学符号却无从下手的感觉的确有些难受，内心那种敬而远之的感觉是挥之不去的。而当我开始搞计算机程序的时候，那个心情是很不一样的，我们总是千方百计地想办法把自己编的程序弄得更好使，于是心甘情愿去恶补程序所涉及的数学原理也就甘之如饴了，从这点我的感受是，儿童编程在激发小孩的数学思维方面应该是有科学作用的，只是我小孩现在才小学一年级，我不急于让她去弄计算机程序，虽然她从五岁起已经在玩Scratch，而在苹果版本的ScratchJr她完全可以自己编写一些故事化的程序。

大家都知道我有多年的商业智能数据应用开发经验，之前分享过点滴经验。既然是商业智能就不能不用数据来支持管理层的决策需求，所以我的数据学习也进化到应用和分析的学习层级，应用还是属于浅表学习，分析已经摸到了深度学习的边边。对于这两者，我统一在商业智能旗下分析其背后的数学原理。

这个商业智能首先要解决的第一个问题，是如何转化数据为信息的问题。刚才提到的记忆、理解这样浅表数据学习应用不赘述了，商业智能里面有一个很常用的OLAP数据多维分析应用。

先给大家补补OLAP这个技术的渊源。上世纪60年代，关系数据库之父E.F.Codd提出了关系模型，促进了联机事务处理(OLTP)的发展(数据以二维表格的形式存储)。1993年，E.F.Codd提出了OLAP概念，认为OLTP已不能满足终端用户对数据库查询分析的需要，SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决策者提出的需求。因此，E.F.Codd提出了多维数据库和多维分析的概念，即OLAP。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。

多维分析是一种数据分析过程，在此过程中，将数据分成两类：维度（dimensions)和度量(metrics/measurements)。维度和度量的概念都出自于图论(graph

theory)，维度指能够描述某个空间中所有点的最少坐标(coordinate)数，即空间基数；度量指的是无向图中顶点(vertices)间的距离,这个维度撑起来的坐标空间，这个空间中每个顶点均可有对应的取值，这种数据模型业界简称为OLAP cube(立方体)。

在多维分析领域，维度一般包括字段值为字符类或者字段基数值较少且作为约束条件的离散数值类型；而度量一般包括基数值较大且可以参与运算的数值类字段，一般也称为指标。

OLAP cube数学描述如下：如果用X、Y、Z代表OLAP cube的三轴，通过定义函数关系 F:( X,Y，Z)->W，W则表示每一个(X，Y，Z)元组所映射的数据集合，每个元组我们称为OLAP cube的一个单元（cell），我们也可以简单把OLAP cube理解为计算机程序里面常用的数据结构，多维数组，这个X、Y、Z就是数组的下标值，而W就是数组中存储的值，于是F:( X,Y，Z)->W就是从这个数组中读出下标为X、Y、Z的数组单元中存储的值W。

因此OLAP cube可以简单描述为“多维数据集”。cube，我们可以想象为数据指标根据多维度封装成的一个立方体结构（以三维空间为例，如果维度数超过3，我们则称为“Hypercube”），OLAP cube的数学原理我就点到这算了，我们更关心的是其用途。

我们在平时工作中，会遇到各种问题，在分析问题的时候，同样的现象，我们会从多个角度去分析考虑，并且有时候我们还会从几个角度综合起来进行分析。这就是OLAP分析最基本的概念：从多个观察角度的灵活组合来观察数据，从而发现数据内在规律。

OLAP将数据分为两种特征，一种为表现特征，比如一个销售分析模型中的销售额、毛利等；还有一种为角度特征，比如销售分析中的时间周期、产品类型、销售模式、销售区域等。前者是被观察的对象，OLAP术语称之为“度量数据”，后者为观察视角，OLAP术语称之为“维数据”。

有了OLAP cube这个数据炼丹神器，很多原来白开水一样的数据结合不同的观察角度，就可以化腐朽为神奇让管理者看到很多问题成因的端倪，比如把一个产品的销售业绩从时间地区等维度做个比较分析，我们可以从数据中学习到这个产品在什么时间什么地方比较好卖，那管理层就可以针对旺季热点决定投入更多的业务资源。

再往上走，数据应用就走到评价和创造这样的深度学习程度，抛开还有争议的创造，评价背后所需要的数学支撑体系是非常之深厚的，最近我们粤港澳应用数学中心为广州市越秀金融局搞的数字普惠金融指数研究课题，可以体现应用数学在指导民间金融行业监管工作中广阔的应用前景。

在金融评价体系中，由于金融服务的大范围覆盖面，业务的多样性，高度的数字化水平等等，我们会发现很难用简单的统计指标准确测量当前的普惠金融产业发展水平，许多直接测量的表层数据都难以揭示产业发展内在规律和必然趋势，要获得这些洞察能力，我们必须通过多个复合指标的定量分析方法，例如这个课题研究团队所推荐的因子分析法、熵值法、神经网络深度学习方法、无监督的自编码深度学习模型等等。

可能很多人会问，一个问题需要用这么多高深的数学方法吗？解决问题具体要用到什么数学方法其实是由问题的性质所决定的。数据深度学习所需要解决的问题，都是需要把握根本矛盾和本质规律才能有效指导我们工作实践的问题。

刚才我提到，数据浅表学习解决的是从数据中获得我们决策所需要信息的问题，比如刚才说的，我们做销售总监的人需要知道货卖得怎么样，进一步也就是需要知道什么时候卖得怎么样。这些问题都是知其然（事实）的层面就可以直接求是（判断和决策）的了，一般人也不具备沃尔玛研究那些类似啤酒和尿布高频出现的组合关系背后原因等问题的水平和能力，所以大部分都是人云亦云，随波逐流。

而为什么真理常常掌握在少数人手上？因为这些人拥有一般人缺乏的独立思考、探究质疑、爱琢磨事理规律的思维习惯。恩格斯说：数学是研究数量关系与空间形式的一门科学，对于我们所要解决的现实世界的问题中的，问题背后都有无限联系的宇宙背景，对事物的关键因素没有抽象和简化就无法被我们所认知和研究，所以所有的数学方法都不可避免存在其适用性和局限性，我们要解决具体问题，根据问题性质要从知其然进入到知其所以然的境界，必然是需要多种数学方法和工具的综合运用。

于是，支撑数据深度学习的必然是更多应用数学前沿的基础理论研究成果，今天我国的产业发展要从低端制造简单加工转型升级到智能制造品质创造，必然会遇到很多前所未见的挑战和困难，在当今世界大势，我们也很难再如当初向世界科技第一强国copy2china(复制到中国)，人家已经开始卡我们科技发展的脖子了，我们要解决这些卡脖子问题，唯有从应用数学基础研究搞起，开车上路尚且要备胎，何况走上中华民族伟大复兴的长征路。

如果今天有人恭维我聪明，我自己知道这种聪明也是在这几十年的时光中，一步一步在数学的指引下从数据中学习回来的，当然我认为还远远不够。

（本稿完成于2020年7月11日，如需转载请注明出处）

上一篇 5G时代背后的卡脖子问题

上一篇全民数据学习时代的组织与个人