数据科学成熟度模型 (DSMM):广泛共识的综合体

关于大数据成熟度模型:近期(2015-20 年)的许多数据科学工作都集中在大数据上。一些大数据成熟度模型 (DSMM) 与传统模型相似,可识别共享级别、域和属性。这些模型为以下模型做出了贡献。更关注独特属性(例如,容量和速度对数据捕获和处理的影响)的 BDMM 未包括在内。

已审查的来源类型

使用 Rusa Data 的 WhatsApp 号码数据提升您的业务!通过有针对性的消息直接与您的受众建立联系。我们可靠的 WhatsApp 号码数据 数据库可确保您接触到合适的客户,从而提高参与度并推动销售。利用 WhatsApp 的强大功能进行即时通信。提升您的营销策略 — 立即访问 Rusa Data!

DSMM、DSMM 评估工具、DSMM 的评估和/或比较、大数据 M​​M、相邻子领域的模型。来自供应商、大型科技公司、教育中心、研究人员。

DSMM 核心功能

级别(指定能力或性能的级别)、领域(指定跨级别衡量的性能领域)、属性(每个级别内领域性能的描述)。

级别

所审查的大多数数据科学成熟度模型 (DSMM) 涵盖 4-5 个级别,通过更离散地划分级别或包括数据感知之前的级别,异常值达到 6 或 7 个级别。许多核心数据科学(以及数据仓库、AI、大数据等相邻领域)的成熟度模型使用早期模型中级别术语的变体或同义词,甚至可以追溯到 20 世纪 80 年代中期起源于卡内基梅隆大学的能力成熟度模型集成 (CMMI)。这里介绍的“共识复合”模型与其中大多数模型一致。

在审查的模型中

WhatsApp 号码数据

大多数域是相似的或彼此的子组件。当比较多个 DSMM 的域对齐时,可以看到它们的相似性(参见 Comuzzi)。所包含的“共识复合”模型使用以下域:

组织(意识、人员、赞助、角色、细分、战略、企业、文化)
基础设施(架构、技术、平台、工具)
数据管理(“数据”、大小、来源、复杂性、方法等)
分析(如何处理数据、实践、自动化、集成等)
治理(谁在控制或提供访问、安全、隐私、资产管理等)
最佳实践(代表某一级别上可用的最佳行动,和/或对能力增长至关重要的行动)
属性

所审查的模型之间存在许多共同属性(实施数据管理策略、部门级数据项目等)。但是,这些属性出现的时间几乎没有共同点。由于级别不是按日历持续时间定义的,因此每个模型中属性之间的差异尚不清楚。由于模型之间存在共同点,并且/或者对于继续将能力建设提升到下一个级别至关重要,因此以下属性被确定为关键属性。

模型使用

DSMM 可用于通过简单比较或完成一项可用的 DSMM 评估将组织置于 DSM 范围内。DSMM 可帮助确定每个领域或级别内的关键挑战,并确定组织能力建设过程中的关键步骤。

第一级:临时
在数据科学成熟度模型 (DSMM) 的初期,公司没有管理数据科学应用的策略。参与其中的人通常受到行业期刊中大量参考文献、人工智能 (AI) 和机器学习 (ML) 的关注、对竞争对手工作的了解,或者最重要的是,对回答关键业务问题的渴望的激励。数据科学家的专业术语以及可用的大量专业平台和工具集使得在没有数据专家在场的情况下开发能力的决策变得困难。他们可能会问关键的数据问题,但几乎没有资源来回答,或者没有明显的路线图来实现目标。一般来说,具有赞助能力的高管不太可能理解分析推动决策的力量,而且兴趣不大。

缺乏数据分析基础设施,或者特定企业可能已经开发了一套系统用于其自身孤立的活动。用于数据工作的平台和工具是从其他功能中重新利用的,并非为商业智能 (BI) 或分析而设计的。数据量通常很小且不完整,活动受到桌面硬件的限制。最多,一家企业可能会购买一款前端 BI 工具,让高级用户创建过去数据的简单可视化,以便高管可以一目了然地了解业务。

数据管理不受策略控制

相反,主要的内部数据源归 IT 部门所有,数据管理策略仅限于几个数据库的所有权。

分析仅限于财务、监管和合规性数据、一些用于管理报告的历史仪表板以及使用可访问的 KPI 的绩效管理。构建要分析的数据集是一个缓慢的手动过程,使用临时方法合并来自不同电子表格的数据。

数据项目是孤立的,通常没有预算,并且独立于现有业务战略。在此初始阶段,此类数据活动是孤立发生的,没有数据科学小组会了解其他小组的工作成果或活动。更常见的是,业务主管只是要求 IT 部门提供描述上周或上个月发生的事情的数据或报告,以便与预定目标进行比较。由于工作努力是孤立的,数据项目成果的覆盖范围和业务价值有限。

任何治理都可能是以 IT 为中心,而不是以业务或业务/IT 为中心,因为在此阶段,数据的所有权与硬件和技术的所有权是同义词。不幸的是,想要更多数据来回答问题的业务领导者可能不会询问 IT,因为响应速度慢且与净新请求相关的难度大。通常,新的业务数据请求超出了当前 IT 的能力。

第级从业人员的最佳实践临时

通过清晰地阐明业务需求和预计影响来确定业务领域内的用例。向利益相关者证明分析价值是推动更多采用数据科学作为核心业务能力的关键。
成为变革推动者,找到帮助管理大规模变革的方法。请记住,在这个层面上,决策不是由数据驱动的,没有赞助(或需要)将所有数据提供给可以使用它来提高绩效的每个人,更不用说跨越企业并推动业务模式的集成数据平台和工具集了。帮助确定分析的愿景以及实现该愿景所需的步骤。
与多个利益相关者合作,促进可能保护自己数据所有权的其他受保护方之间的关系。基础层面的合作机会将会增加。
从实用角度考虑,确保在数据科学家层面鼓励协作:对一位数据科学家来说,新挑战可能对另一位数据科学家来说就是旧挑战。尽早分享最佳实践将鼓励寻找最佳解决方案的文化,而不是坚持解决方案必须在您的团队中发明。
第二级:基础
在基础阶段,越来越多的数据爱好者开始自学、参加网络研讨会、查阅行业文章,并增加多个业务线之间的知识库。专门的团队和明确的用例正在发挥作用,但数据科学可能仍然被公司视为几个新奇的特殊项目。多个组织专注于功能领域的卓越性,并开始尝试使用内部和外部数据来改善其部分业务。通常,执行发起人会推动业务部门以外的讨论,此时营销等其他领域可能会提出业务数据问题。

虽然最低限度的数据基础设施支持着数据科学团队

但企业数据基础设施的必要性已经变得显而易见:使用手动和不同数据源的项目时间表、整个企业的工具变化以及手动数据组合的固有错误。不同的业务线使用各种自助服务工具、前端 BI,通常是为了特定的项目目的而获取的。本地化数据仓库是可能的,但仅限于当前的系统和来源。在某些业务领域,更大的数据量可能成为日益复杂的数据项目的一部分,并具有管理非结构化数据评估的一些能力;然而,这通常是一个例外。

总体而言,分析仍处于初级阶段,但随着机器学习和预测分析在解决业务问题方面的应用,分析正在取得进展。根据公司部门和经验(即一些数据分析历史,如贷款审批、信用风险分析),一些团队或个人可能更擅长高级分析。然而,他们会在部门或业务线层面本地运营。随着用户友好的 BI 工具集的进步,一些团队可能会开发超出月末目标状态的报告,并获得业务主管的支持。

真正的治理尚处于起步阶段,大多数组织尚未确定在企业层面上解决问题的指导委员会。各个部门在各自的孤岛中执行政策和控制。然而,如果没有集中治理,从业者就无法发现整个企业中有哪些数据资产可用,除非通过控制遗留来源的“关键人物”联系人。

第二级从业人员的最佳实践:基础
用例机会开始广泛出现,多个企业和 IT 部门之间开始在分析领域开展小型项目合作。利用这些机会来推动接受度、展示价值并鼓励其他从业者可以加速企业级数据科学的采用。
赞助企业数据管理指导委员会(让 IT 主持这项工作)可以推动治理和主数据管理策略的关键决策。
以业务为中心:在 DSMM 的每个步骤中,确保业务或运营目标(通过明确链接的数据衡量)始终是中心和焦点。避免让数据项目成为 搜索查询的目的是什么 其自身的目标,而不是推动业务成果的推动因素。
开始研究移动分析——访问数据、测量和分析数据。将此数据流与传统使用的数据相结合可能会发现新的用例。
第三级:集成
在这个层面上,集成发生在整个企业和更大的数据科学平台中,提供广度、深度和稳定性,最终支持数据驱动企业的文化成熟度水平。

高管们认识到,追求数据是实现未来目标的关键。多条业务线中由各种员工共同开展的成功数据科学项目提高了人们对数据业务相关性和投资回报率的认识。IT 和业务部门的高级数据建模师和统计学家加入了业务分析师和其他从业人员的行列。数据科学团队现在使用集成数据架构、BI 工具和专用应用程序,使用有针对性的技术进行数据挖掘和分析,从不同的数据源中获得洞察。整个企业的数据方法都是一致的。公司将数据科学视为一项基本的竞争优势,业务战略现在欢迎从数据中获得的洞察,帮助推动整个企业的数据分析实践。

基础设施现在由企业级元素组成

集成和自动化工作流程开始,加速数据项目,同时消除手动工作和相关错误。易于访问的集成数据工具允许更多没有正式数据经验的参与者,从而扩大从业者队伍。

企业数据管理战略成为一项现实举措,旨在识别、组织和评估所有当前数据资产。人们认识到需要处理大量数据,这可能是迈向创建大数据战略这一独立但平行轨迹的第一步。

数据科学项目现在以业务为中心。协作被认为是整个企业的必需品,数据项目跨越了不同职能部门之间的传统障碍。自动化现在是分析工作流程的一部分,取代了重复的手动任务(收集、清理、处理数据),并缩短了数据项目时间表。虽然预测分析是较早引入的,但现在它经常用于预测特定业务流程的特定结果的可能性。数据驱动决策在整个企业以及每个业务和职能领域的持续增长有助于将数据驱动使命提升到文化层面。

在集成层面,随着众多数据从业者和数据源在企业层面变得可见,全面治理成为一种显而易见的必要条件。以前,多个利益相关者充当着各自为政的王国的守门人;现在是一个机会,可以挖掘有价值的数据洞察来源,提供安全性,并系统地实施访问政策,以推动创新,同时保持数据完整性。

第三级从业人员的最佳实践:综合
数据访问民主化使所有成员都能使用可用数据来了解其业务及其绩效。要实现这一点,必须让更多人能够使用分析活动。警惕任何利用数据作为杠杆来维护个人或群体权力的把关方法。
在早期整合阶段,分析团队和业务团队之间的新型协作应成为数据驱动型业务解决方案工作的一部分。寻找机会在团队之外“众包”数据项目任务:允许非数据科学家执行与其专业知识相符的步骤(例如,数据选择、数据清理等)。越来越多的企业参与对于促进数据驱动型业务文化至关重要。
大数据 (BD) 能力可能是任何组织实现变革性数据科学水平的一部分。DSMM 和 BDMM 之间存在根本差异,例如处理高容量和高速数据流所需的专用工具。尽管如此,采用 BD 能力确实需要技术成熟度模型的许多熟悉步骤——确定用例、构建相关技术能力、本地化采用和企业采用。

研究当前实践之外的新型分析方法

例如文本分析、地理空间分析和点击流分析。其中一些或全部可能会与当前使用的数据建立有价值的联系。
第四级:文化
文化层面最显著的特征是几乎完全没有孤岛式的所有权。企业接受数据驱动的决策,数据科学资源得到人员、技术和资金的充分支持。首席数据官可能负责监督作为企业资产的数据。企业现在实际上是数据驱动的。

公司持续投资企业级基础设施,维护标准化、集成的数据科学平台和工具集,实现数据科学项目的协作、建模和跟踪。数据科学产品已采用最佳实践,并引入了元数据工具。引入了可量化的指标来评估数据科学项目。

企业分析现已成为可能。数据项目现在涵盖了各个职能和业务线,能够量化应用于不同业务活动的洞察价值。数据团队现在超越了传统的描述和诊断,通常使用预测和规范分析来充分了解业务,从而知道哪些决策将提供最佳结果。用例现在包括整个组织的 AI/ML。整个企业都建立了数据驱动的洞察文化,将结果整合到新的业务政策和流程中,为公司创造附加值。

为数据科学要素建立企业级治理,快速高效地管理数据源访问。企业治理的信心体现在所有业务部门的数据驱动决策文化中。

第四级从业人员的最佳实践:文化
最佳实践应该融入整个数据生命周期的基础设施中。工作流程与分析的集成、项目内的元数据标记,甚至数据项目方法——最佳实践参数应该推动数据科学流程。随着集成工具的出现,新的最佳实践应该继续融入所有系统。
定期评估新方法和工具,以获得新见解并提高数据科学家的生产力。业务嵌入式分析更有可能主动预测需求,比传统上分散的团队更快地提供更新的解决方案。
营销中的机器学习
它是什么以及为什么重要简介机器学习使计算机能够发现潜在的……

阅读更多

见解

第五级转型

转型水平是独一无二的——很少有公司能达到这一水平。先决条件是全面而复杂的(即所有先前水平的能力建设行动的顶峰)。达到这一水平的公司通常从一开始就是数据驱动型公司,通常是定义其业务领域的领导者,不仅推动其行业,还推动依赖该行业的相关领域的变革。公司对数据至上的认识极高,并传播到组织之外。此时,数据科学支撑着整个组织,完善的实践和策略不断创造商业模式创新,实现彻底的市场颠覆(想想 Netflix、Google、Amazon)。

在这个层面上,越来越高的数据标准是日常业务的一部分。资源不断通过用例、技术驱动因素和思想领导力进行改进。公司希望数据科学家进行创新,并了解随之而来的技术和组织需求。该公司很可能作为数据服务提供商,为外部和内部客户、合作伙伴和员工提供服务。

该公司检查了可用于机器学习的所有数据源,并追求 TR 编号 高价值用例。元数据管理工具在整个生命周期内集成、形式化并应用于所有数据资产。一项核心技能是能够将不同的异构数据整合为可消费格式的完整高质量数据集。

正式的数据科学方法最佳实践已融入整个企业的所有项目中。员工和外部合作伙伴可以在整个企业内无缝协作和共享分析。

信息治理贯穿整个业务流程。许多日常治理都是自动化的,访问跟踪管理着整个数据生命周期和企业的所有工作记录。在本地和云端均可按需访问数据资源,并实现无缝治理控制。

第五级从业者的最佳实践:转型
在第五级,组织通过整合方法,从人员、流程和技术中汲取最佳成果,然后将发现或创新的价值重新整合到系统中,从而将创新规范化。始终评估新方法和新工具集的精神是文化的一部分,并将揭示、捕捉和整合最佳实践。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注