在吴明辉看来,人工智能最核心的是需要有大量的数据支持,不管是机器学习训练还是其他算法优化。最近获得的2亿元人民币B轮融资的明略数据,将在基础层继续专注于数据挖掘和存储/清洗/治理等方向的研发,在业务层要求驻场科学家深入客户一线,实现业务需要的智能性,把企业数据的价值真正变现。
吴明辉,明略数据董事长。毕业于北京大学数学系,取得学士学位后又免试保送北大人工智能实验室,于2007年获得计算机软件与理论硕士学位,研究方向为生物特征识别,包括指纹掌纹识别、静脉识别等。在大学期间开始创办自己的软件公司。2006年创办大数据营销技术公司秒针系统,2014年创办明略数据。
人工智能的核心是数据支持今天看来,机器智能主要来自于统计机器学习的训练结果,尤其深度学习对感知智能及自然语言处理的精度提升贡献巨大,同时也对(标识)数据极为渴求。为解决一些缺乏数据的领域而生的迁移学习方法,前提也是存在一个相关领域的能够提供用于初始训练的数据。
人工智能专业出身的吴明辉很早就相信数据基础的作用,他甚至认为没有数据的场景不可能实现人工智能。所以,以实现人工智能的应用为目标,他在最初创业时却瞄准产生和处理高质量数据。吴明辉表示,明略数据专注于数据本身的挖掘,在公司成立早期就希望把大数据往人工智能方向去应用,不管是做大数据,还是做数据本身的挖掘,以及利用挖掘数据去做人工智能的训练样本,因为大数据和人工智能之间的关系非常紧密。
吴明辉在研究生时的专业方向是人工智能里比较特殊的行业生物特征识别,包括指纹掌纹识别和静脉识别等,同今天火爆的人脸识别一样,都属于图像处理领域。虽然计算机视觉和深度学习大热,明略数据没有改变技术策略的意思。吴明辉认为,数据准备的不足,是当前企业应用人工智能/机器学习的主要挑战。例如无人车也需要大量的试车数据不断地测试算法。在整个采访过程中,他也一直强调,“先要把数据处理,数据处理不好任何事都无从谈起。”他认为,当前应该花更多的时间从互联网/移动互联网找到合适的数据并清洗干净,用来实现人工智能。
当然,有了数据,还需要把好的算法应用在数据上,同时在业务场景上面形成反馈系统——如果没有一个很好的应用形式,只有原始的数据,最后不一定能形成自我改进的更新换代的能力,如AlphaGo在全世界每年公开的有限的9段棋手棋谱之外,还要自我PK无数轮形成大量的反馈,然后从中寻找输赢的原因改进。
目前人工智能/机器学习算法在工业界里应用比较好的领域,也是用户量很大,有大量的学习样本和训练数据,并且具有重复性,在应用的过程中能够给出算法的评价,能形成闭环,不断地改进优化。例如搜索排序算法、电子商务推荐算法,有自己数据的闭环;如科大讯飞的语音识别,也是由科大讯飞语音输入法收集识别错误的数据,形成一个闭环。
所以,一开始的核心是准备数据,后期的核心就是创造应用。吴明辉表示,未来的研发模式一定是协作的、开源的模式,人工智能算法将不是什么神奇的事。
明略数据的研发路线吴明辉详细介绍了明略数据的定位、策略和研发重心。他的目标很简单,就是首先帮助客户把数据都做好准备,利用这些数据给各行各业实现人工智能,当然在这个过程中也要用一些人工智能的算法。
聚焦垂直领域吴明辉表示,目前数据挖掘的市场更大,明略数据的定位是在各个不同的企业里去应用,从底层的数据存储/清洗/治理到上层的关联关系挖掘,以及后面的机器学习,都要聚焦在几个垂直的领域,全套的服务,既有大数据又有人工智能——所有想做人工智能的客户,第一件事情肯定是把数据弄好。他解释说,企业级服务如果不能聚焦在垂直领域,最后就变成一个纯粹的企业级软件,从目前的趋势来看,最后的竞争对手就不是市场和企业,而是开源社区,这不是一个靠谱的商业模式,至少在中国如此。
明略数据聚焦的垂直领域,最重要的方向是公共安全,其他领域还包括金融、税务,制造业领域等——明略的目标是要在公安领域实现最牛的警察,在金融领域实现最牛的风险控制师、审贷员,在医疗领域实现最牛的医生……吴明辉介绍,在制造业已经有为某大型制造企业基于设备数据和深度学习做故障的检测和预测的初步探索。吴明辉表示,这虽然是最简单的工作,但是最后的目标会非常令人兴奋。
以数据治理为核心明略数据现阶段的研发重心,吴明辉表示还在数据治理,其中又比较专注关联数据挖掘——目前企业有各种各样的散乱的数据存在不同的系统里,明略数据要把它们联系起来,并把那些显性的和隐性的关联关系挖掘出来,比如在公安系统,把存在不同系统里的酒店数据、航班数据、通讯数据、地图数据等连起来,根据某几个人经常一同出行,通过算法推断出他们是同事或者朋友。吴明辉认为,把数据治理好并做关联关系的挖掘,把数据真的连接起来,会对将来人工智能的实现有巨大的帮助。
吴明辉也举例介绍了具体的人工智能技术在这个过程中的应用。比如人工智能里面很重要的自动分类,在处理公安局的数据时,需要对案件笔录文档做分类、聚类各种分析。所以目前的工作虽然还没有到真正的把最终的智能展现出来,但是也在向着人工智能的目标前进。
明略数据B轮融资之后,研发方向仍然专注这些领域,当然还有一部分用于吸纳更多优秀的研发工程师作为前端的驻场科学家,深入到客户一线去了解客户业务流程和实际需求,然后才能把数据的价值在客户那真正的变现。
明略数据技术框架明略数据整个底层的核心开发是基于开源的,采用Apache Hadoop、Apache Spark、Apache Kylin等开源的项目,同时也在这些开源项目上在做积极的贡献。但是应用层面,在行业里面的所有解决方案都不考虑开源,不过将来也会对合作伙伴做一定程度的开放,因为企业级的市场服务太大。吴明辉认为,产品的价值价格是跟独特性挂钩的,真正有价值的部分一定是花大量的时间精力做了很多很重要的工作,才有可能赚到很多钱。明略数据的研发策略和商业策略会完全一致。
谈到明略数据技术的优势,吴明辉表示,包括最核心的几款产品:
MDP,一个非常适合做海量数据的数据挖掘的Hadoop发行版,明略数据投入了很多的力量去做安全的模块,比如高可用,安全的权限管理等。
DataInsight,一个分布式的数据挖掘系统(可以理解为一个分布式的SAS或者SPSS),明略数据自己也是这个产品的用户。
拳头产品SCOPA,做关联关系挖掘,包括上面的可视化,在公安领域里面有非常好的应用,明略数据投入一半的研发人员在SCOPA上。
明略数据三大核心产品MDP、SCOPA、DataInsight,实现从数据到智慧的转换
研发挑战分析对于未来的技术研发挑战,吴明辉认为主要在如下两个方面:
整个IT市场和数据市场特别严重的碎片化/多样化,不同的客户数据的这个规范接口完全不一样,需要会花很多精力。
反馈系统的场景,本质上是研发和客户的业务如何深入结合的挑战——客户肯定不懂技术,需要把研发同学培养得懂业务。
他不认为云厂商的人工智能API会和明略数据形成竞争关系,因为明略数据是在做真正的业务级的应用,云厂商可以提供自动分类算法服务,或者类似Hadoop as a Service这样的东西。但是对明略数据来讲,真正的应用是公安能不能破案。同时,很多领域目前对公有云也很难接受,因为真正涉及到国计民生的数据需要非常谨慎地处理。
研发团队管理明略数据公司是近三百人,其中研发团队占70%以上,而且他们并非普通工程师,其中很多人来自全球知名高校的,有丰富的工作经验,同时又拥有很强的数学基本功的一群人。吴明辉表示,不管是处理数据,还是未来做人工智能,都是需要有数学功底的,明略数据在这方面要求很深,这样的文化也很容易形成群聚效应。
对于团队的协作,吴明辉强调,底层的技术架构要尽量统一,因为技术架构决定的是软件运行的兼容性,但是上面具体的算法,需要去尊重每个人自己的创造力,选择最优的办法,就是用结果说话,比如金融征信的算法,最后谁的准确率、查询率高,就先拿过来用。同时,明略数据内部团队的管理模式采用技术合伙人制,小团队作战,每个团队领导都叫技术合伙人,他们之间都是平级的。
研发出身的吴明辉,尽管对写代码很有热情,但他目前更多关注的是产品而不是代码。他表示:
技术研发的管理者更要去看团队的建设,因为当研发团队大到一定规模时,研发Leader和底层的研发工程师水平就决定了最后的代码质量,如果能确保他们的水平,就不用担心代码了。
做企业级的服务,不能光有一堆技术天才,把产品做出来,还需要让客户接受和应用,同时把他们的所有的需求都进一步地迭代到你的系统里面。
开发者的启示曾获过许多国际的算法大奖的吴明辉,介绍了他对一个好的人工智能算法的理解:
从学术论文和比赛来看,好算法要求形式、理论的优美,但是效果也没办法验证,因为每个人的实验环境、实验结构不一样。
在企业里,需要低成本、务实地解决问题,算法工程师通常不关心数学公式是不是优美,也不关心算法是否高大上,就追求准确率和性能,以及二者的平衡,比如在手机端和云端运行的图像处理算法,就是不一样的处理方式,云端可以用几千万的数据进行深度学习训练。
对于人工智能技术对开发者的影响,吴明辉表示,非人工智能专业的开发者,不需要所有人学习人工智能算法,因为这些算法今天有很多开源的开发包,知道怎么去用就可以,背后的原理、数据公式的推导、具体的实现没必要懂。