维择科技谢映莲:集中智能,从大量原始数据中直接挖出“黄金”
datavisor维择科技创始人兼ceo谢映莲近日在《福布斯》上发表了她对大数据发展的见解,她认为推动下一次大数据浪潮的动力不是“集中数据”,而是“集中智能”的能力。“集中智能”指运用有效的工具优化企业各部门的工作流程,运用先进的特征工程直接从原始数据中获取智能见解并输出有预见性的决策。
▽以下为原文译文
数据对现代数字经济的运作至关重要。但是,仅有数据并不能自动转换为可操作的智能能力,也不会自动推动数字经济繁荣发展。想要在全球数字经济中取得成功,除数据外,还需要先进的操作工具和解决方案,从而大规模获得可行的智能见解。
当前,不少企业仍停留在用大量集中式的数据驱动企业发展的阶段,但是,从数据安全和隐私保护等角度出发,我们应该从“集中数据”向“集中智能”过渡。
2015年,ibm指出:“当今世界90%的数据是在过去两年中创建的。”回头看这段数字化之路,我们提升了数据解释、创建数据图表、图形和可视化效果的能力,同时也增强了数据分析能力。为了在企业级利用这些能力,我们还开发了集中式数据分析方法使企业和机构能够受益。
如今,ai和机器学习等变革性技术快速崛起,智能能力也随之变得异常复杂,同时,“集中数据”和“集中智能”之间出现了沟壑。在“集中数据”阶段,我们仍在进行可视化的数据管理和数据分析解释,努力找出趋势并尝试理解它们。当我们进入到“集中智能”阶段时,意味着数据不仅停留在解释阶段,“集中智能”能够预测性地创建可行的智能见解,并有效采取大规模实时的行动。重要的是,可操作的智能位于系统内部,它是集中式的。
什么是集中式?集中式不是一个新概念。数据规模和复杂性的快速增长使企业难以管理自己的信息。因此,企业往往朝着集中团队、工具和流程的方向去发展。表面上看,集中式代表了企业对大数据增长趋势的积极应对。不少企业在实现降本增效的路上努力,并取得了不同程度的成功。但实际上,还有一些企业停留在只“集中数据”而不是“集中智能”的阶段,而“集中数据”的成本和效率收益仍然有限。
鉴于当今数字经济的需求,数据安全的压力和用户体验的竞争都在不断增加。大数据智能已成为当代最有价值的商品。但对于大多数企业而言,“集中智能”仍然是一个遥不可及的目标,主要原因是许多企业普遍缺乏先进的特征工程的能力。特征工程对于构建智能系统至关重要。特征能从大数据中发掘出的可行见解,这些见解转换为智能来供ai算法使用,也就是说,通过特征来释放出大数据的力量。
那么,为什么先进的特征工程尚未得到广泛的应用呢?因为特征工程必须手动完成,这是一个复杂且耗时的工作。在迎接各类业务挑战时,需要大量有效特征去应对,这是个很难克服的困难。
实时生成高质量的特征需要大量专业领域的知识,来自专家丰富的经验能够支持特征工程输出特征的价值、适用性、相关性,并且还能对操作进行有效优化。除此之外许多因素影响着特征工程的质量和效率,比如,在准备好生产就绪的代码之前,数据科学团队和特征工程团队需要详细沟通;复杂特征的创建需要考虑可扩展性;大规模获取智能见解也需要耗费大量内存等。先进的算法带来了巨大的复杂性,对数千个数据点进行实时全面分析,在流程上仍需进行大量优化。
如果一个系统仍旧依赖于手动操作,该系统是无法真正实现智能的。对于企业来说,要提高模型性能、提升效率、优化灵活性并采取实时行动是至关重要的,同时,企业内不同团队的能力和独立性也非常重要。这意味着:自动化和定制之间的平衡将很关键。
如果某个领域的专业知识可以被应用在处理特定业务问题上,那就意味着一些标准化特征也有机会被应用在自动化模型的构建。通过自动化的能力,直接从原始数据中获得新特征。比如,在欺诈检测领域中,影响检测精度的关键特征是ip地址,如果能从原始数据的一个ip地址中自动提取可用特征,那自动化能力、准确性和效率都将大大提高。
先进的特征工程本质上是“集中智能”在实践中的体现。因为它代表了一种高效、大规模地从大量众多来源的原始数据中集中提取可操作的智能见解的能力,并且这些智能见解能够实时对其他诸多领域产生积极影响。
重塑企业的大数据系统,既是纵向的过程,也是横向的过程。纵向角度来看,“集中智能”的目标是使组织中的每个团队都能利用数据做出贡献,并获取智能见解。横向角度看,“集中智能”需要在所有相关用例和业务场景中实现集中智能风控的目标。
先进的实时特征工程能推进企业的现代化进程,加速并优化企业的风控模式,从而确保更安全,更高效,更繁荣的数字经济发展。