资深数据科学家倪嘉琦:
充分发挥数据要素优势 赋能产业科技创新
来源:中国企业报 作者:金云升
在数据科学的广阔领域中,如何有效管理和利用数据日益成为一项关键挑战。由于如今接触到的数据类型和数量都在呈爆炸式增长趋势,使得我们必须尽快去开发新的技术和策略,以便确保数据的高效整合与应用;此外,数据的管理应用,还与数据安全、隐私保护等重要问题息息相关,需要谨慎地对待这些问题,在最大化利用好这些数据资源的同时,又要避免对个人隐私和企业秘密的侵害。
“随着NoSQL数据库的推出和逐渐普及,可以清晰地看到,多样性和专业性的理念不仅已在数据库管理技术的领域内牢固树立,而且正在不间断地萌发出新的技术思想与解决方案。”资深数据科学家倪嘉琦表示,NoSQL数据库的特色在于其不再受限于传统的关系型数据库架构,而是开启了一种更加灵活、高效的数据存储和处理方式,以此来满足大数据时代愈发复杂多变的数据需求。
目前,一批呈现多样性与专业性的新兴技术潮流正在不断浮现,Edge计算技术和 Explainable AI技术就是其中代表。Edge计算,即将数据的分析和处理放到网络边缘,也就是接近数据源的地方,从而节省数据传输时间,提高计算效率,使得大数据处理更迅速、更精准。Explainable AI则解决了人工智能应用中的“黑箱”问题,通过机器学习模型的可解释性,更加清晰地呈现AI的决策过程,进而提升人工智能的可信度与可靠性。
“这些新兴技术的不断出现,为数据库管理技术的多样化与专业化趋势提供了强大助力。”倪嘉琦说,“新兴技术通过不断优化完善数据模型和查询接口,将其特性与功能赋予每一种新的技术概念,使得各类新兴技术都在某种程度上得到专业化处理,进而能够更加精细化地解决特定问题。”
倪嘉琦还强调了通用性技术在这一进程中的重要性。他说:“Spark、YARN等技术的出现,为我们的专业化技术提供了一种强有力的补充手段。而这些通用性技术的最大价值在于,能够将各种特定领域的专业化技术统一整合在一起,形成一个全面、协同的数据管理和分析系统。这种整合的作用是至关重要的,因为它能够在更宏观的层面上理解和利用数据,从而实现更全面、更深入的数据分析。也正是因为这样,我们可以对复杂的问题进行更为全面、深入地考察,进而找到最佳解决方案”。
此外,一体化应用也在此过程中发挥着重要作用。倪嘉琦指出,为了便捷化Hadoop集群及其组件的部署和管理,大数据领域的许多组织倾向于采纳基于Hadoop的一体化解决方案。此类套件一般涵盖了HDFS、MapReduce等Hadoop的核心组件,并集成了一系列数据处理、管理和分析工具。
以Cloudera为例,它提供了基于Hadoop的一体化套件——Cloudera Data Platform (CDP)。该平台是一个综合性的数据管理和分析平台,内嵌了Hadoop集群管理工具Cloudera Manager以及众多其他Apache开源项目的组件。这个套件包含了如Hive、Pig、HBase、Spark和其他Hadoop生态系统工具的预配置和管理选项。这些平日在各自领域独立运作的技术在此被有机地集成起来,形成一个一体化数据解决方案。
“这种整合设计凸显出一种趋势,即当前的数据产品和服务在实现层面上正逐渐增加对一体化技术集成的依赖度。同时,我们也应看到,专业化的新技术正在逐渐崭露头角,其更倾向于深入挖掘特定问题,提供独特且专业的解决办法。”倪嘉琦称。