码界工坊

htykm.cn
人生若只如初见

数据仓库的特点有哪些?

数据仓库的特点有哪些?数据仓库是为企业的决策制定过程,提供数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。

数据仓库的特点有哪些?

面向主题
即处于数据仓库中的数据是按照特定的主题组织而成的,这里的主题不是具体的而是一个抽象的概念,常指企业或个人在使用数据仓库着重关注的方面。传统数据库中,最大的特点是面向应用进行数据的组织,各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

集成性
数据集成,指在数据仓库中的数据信息并不是在各业务系统中简单、随机抽取的,由于数据仓库间的独立性,因此需要消除源数据中的异值。通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据,这样保证了数据仓库内的数据关于整个企业的一致性。

数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:1.要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。2.进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。

稳定性
业务系统中的数据总是处于不断变化的状态,即数据为最新的状态。相对于业务系统的不断变化,数据仓库具有稳定性,是指数据在进入数据仓库后,数据一般用于查询,很少会对数据进行修改,常见的操作也只是进行定期的加载和刷新。

时变性
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,更是一个过程。

数据仓库的数据随时间的变化表现在以下几个方面:

数据仓库的数据时限一般要远远长于操作型数据的数据时限。
操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。
总结数据仓库特点
数据仓库是面向主题的,操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
数据仓库是集成的,数据仓库将所需数据从原来的数据中抽取出来,进行集成,才能进入数据仓库。
数据仓库是不可更新的,数据仓库主要是为决策分析提供数据。
数据仓库是随时间而变化的,稳定的数据以只读格式保存,且不随时间改变。
汇总的。操作性数据映射成决策可用的格式。
大容量。时间序列数据集合通常都非常大。
非规范化的。Dw 数据经常是冗余的。
元数据。将描述数据的数据保存起来。
数据源。数据来自内部的和外部的非集成操作系统。
数据仓库是单个数据存储,用于支持分析性报告、决策等为目的而建立的。其可以提供各种类型数据,支持企业进行各种级别决策的制定,还能为有业务智能需求的企业提供有关数据监看、业务流程改进等支持。由此可见数据仓库对整个数据挖掘过程的重要性

未经允许不得转载 » 本文链接:http://htykm.cn/html/699b4699254.html

推荐文章

  • CentOS Java日志中线程死锁怎么办

    当在CentOS系统中的Java应用程序日志中发现线程死锁时,可以采取以下步骤来定位和解决问题:1. 确认死锁的存在线程状态检查:使用 top或 htop命令查看Java进程的CPU使用情况。如果CP ...

  • 如何优化 Debian 缓存设置

    优化 Debian 缓存设置可以通过以下几种方法进行:清理 APT 缓存更新软件包索引:sudo apt-get update清理未安装的软件包缓存:sudo apt-get clean清理过期的缓存 ...

  • Debian Notepad++更新频率是多少

    Notepad++是一个在Debian操作系统上运行的文本编辑器,但它的更新频率并不是由Debian项目直接管理的,因为Notepad++并非Debian官方软件包的一部分。Notepad++的更新通 ...

  • Debian如何优化Golang日志输出

    在Debian系统上优化Golang日志输出,可以从以下几个方面进行:使用日志库:使用成熟的日志库,如logrus、zap等,它们提供了丰富的功能和配置选项,可以帮助你更好地管理和优化日志输出。日志级 ...

  • Linux下cmatrix如何进行性能测试

    cmatrix 本身是一个用于在终端中显示字符动画的程序,主要用于视觉效果,并不专门用于性能测试。然而,由于它是一个 CPU 密集型的命令,可以通过观察它在运行时的 CPU 使用情况来间接评估系统性能 ...

  • Debian系统下GitLab如何优化性能

    在Debian系统下优化GitLab性能可以从多个方面入手,以下是一些主要的优化措施:服务器硬件配置优化CPU:至少配置4核CPU,中型团队建议8核以上。内存:最低要求4GB,推荐至少8GB或更多对于 ...

  • 阿里文娱否认裁员:将开放招聘超1800名新员工

    3月1日消息,最近有网友爆料称阿里大文娱正在进行大规模裁员,对此阿里文娱表示,不存在裁员,将开放招聘超1800名新员工!阿里文娱表示,未来一年公司计划在影视内容制作、互联网产品策划、技术研发等方向开放 ...

  • centos上weblogic安全设置有哪些

    在CentOS上部署WebLogic服务器时,安全性是一个重要的考虑因素。以下是一些关键的安全措施和最佳实践,可以帮助确保WebLogic服务器的安全:最小化安装:禁止采用示例应用,禁止采用默认web ...