这是由被誉为“数据仓库之父”的美国计算机科学家 Bill Inmon 为 Integrate.io 撰写的客座文章。Inmon 撰写了第一本关于数据仓库的书和第一篇杂志专栏,举办了关于该主题的第一次会议,并且是第一个教授数据仓库课程的人。 关于此主题,您需要了解以下五件事: 数据架构不断发展。 在 20 世纪 90 年代,组织使用蜘蛛网系统和孤立系统来管理数据。然而,这些技术使得确定数据的价值变得困难。 数据仓库为这个问题提供了解决方案,尽管一些理论家声称组织在使用大数据和数据湖时不需要仓库。 数据仓库和基于文本的数据扩展了数据仓库的发展。 Integrate.io 是一种数据仓库集成解决方案,可帮助组织从数据集生成商业智能。 “数据仓库是一个面向主题的、集成的、时变的、非易失性的数据集合,用于支持管理层的决策过程。” —比尔·英蒙,1990 “数据仓库是一个面向主题的、集成的(按业务密钥)、随时间变化且非易失性的数据集合,用于支持管理层的决策过程,和/或作为记录系统支持可审计性”。—比尔·英蒙,2018 建筑是一个永生、不断发展的实体。建筑在不断变化。随着时间的推移和技术的进步,技术的底层架构也不可避免地发生演变和变异。 下面详细了解不断发展的架构。
蜘蛛网系统和孤立系统
然后是数据仓库 数据仓库的兴起 大数据怎么样? 基于文本的数据机遇新景象 数据仓库和文本 最后一句话 Integrate.io 了解不断变化的数据仓库的力量。其低代码/无代码本机连接器简化了 ETL、反向 ETL 和快速变更数据捕获 (CDC) 等数据集成流程,让您无需雇用昂贵的数据工程团队即可生成有关业务的情报。亲自体验 Integrate.io,世界经历了一种被称为“蜘蛛网系统”或孤立系统的 巴林电话号码列表 建筑现象。蜘蛛网系统是从多个应用程序的快速生产中产生的,并且没有考虑到企业对这些应用程序的构建。结果,相同的数据元素出现在多个地方。 某个组织有一天醒来,应用程序 ABC 元素 XYZ 中的值为 38,应用程序 BCD 元素 XYZ 中的值为 1,000,应用程序 CDE 元素 XYZ 中的值为 -762!正如您所看到的,当没有人知道数据的真正价值意味着什么时,试图在整个企业的蜘蛛网系统/孤立系统上做出良好的企业决策是不可能的。这就是进化的本质。 最后一句话 数据架构不断发展。从蜘蛛网系统到文本处理,组织将继续使用新技术来管理、存储数据并从数据中获取更多价值。
基于文本的数据
数据架构的另一个分支是从数据仓库发展而来的。这就是包括文本在内的数据架构的演变。多年来,计算一直以结构化、面向记录的数据为中心。这种计算形式非常有价值,因为 ALB 目录 它非常适合事务处理,而事务处理对于商业世界非常重要。但与交易一样重要的是,它们并不是企业使用的唯一数据。公司的文本数据比面向记录的数据更重要。文本是沟通、合同、客户态度、保证和上千个其他主题的基础。 仅仅因为文本一旦最适合交易处理就不能很好地适应记录,并不意味着文本不应该在公司的决策中发挥重要作用。现在有一种技术——文本 ETL——允许组织将文本纳入决策中。 阅读更多内容:什么是数据仓库,为什么它们很重要? 机遇新景象 通过将文本纳入公司决策,全新的机遇前景将打开。考虑你的客户。在文本处理之前,了解客户意味着从外部观察他们。客户的第一个视图包括姓名、职业、工资、年龄、教育、婚姻状况、地址和一百个其他间接测量值。客户的早期观点做了一切,除了实际听到他们的声音。您可以对客户有大量了解,但实际上并不知道他们在想什么。