码界工坊

htykm.cn
人生若只如初见

什么是数据挖掘?数字挖掘有哪些流程?

什么是数据挖掘?数字挖掘的概念是什么?数据挖掘一般要经历哪些流程?下面是有关数字挖掘的介绍。

据了解,数据挖掘理论涉及到的面很广,它实际上起源于多个学科,可以简单的理解为从大量数据中提取或挖掘知识或者说是知识发现。

数据挖掘应用了众多领域的思想,包括来自统计学的抽样、估计和假设检验;来自人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论等。

数据挖掘一般经历以下几个流程:

1. 解读需求

绝大多数的数据挖掘工程都是针对具体领域的,因此数据挖掘工作人员不应该沉浸在自己的世界里YY算法模型,而应该多和具体领域的专家交流合作以正确的解读出项目需求。这种合作应当贯穿整个项目生命周期。

2. 搜集数据

在大型公司,数据搜集大都是从其他业务系统数据库提取。很多时候我们是对数据进行抽样,在这种情况下必须理解数据的抽样过程是如何影响取样分布,以确保评估模型环节中用于训练(train)和检验(test)模型的数据来自同一个分布。

3. 预处理数据

预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等;而后者主要包含维度归约、值归约、以及案例归约。后面两篇博文将分别讲解数据准备和数据归约。

4. 评估模型

确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。很多人认为这一步是数据挖掘的全部,但显然这是以偏概全的,甚至绝大多数情况下这一步耗费的时间和精力在整个流程里是最少的。

5. 解释模型

数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。

以上就是有关什么是数据挖掘?数字挖掘有哪些流程的介绍。

未经允许不得转载 » 本文链接:http://htykm.cn/html/07c4499948.html

推荐文章

  • Zookeeper与Ubuntu兼容性问题解析

    Zookeeper与Ubuntu的兼容性问题可能包括安装过程中的错误、配置错误、Java环境问题、资源不足、端口冲突等。以下是一些常见的兼容性问题和解决方法:常见兼容性问题安装过程中的错误:在安装Zo ...

  • 重点解析一级域名与二级域名的区别

    随着互联网的普及,越来越多的群体将目光投向域名这个领域。近期陆续有新朋友咨询小编一级域名与二级域名有什么区别?下面就让小编来为大家解答这个问题吧。重点解析一级域名与二级域名的区别:第一点:域名组成方式 ...

  • 域名知识之域名解析服务器

    域名知识小课堂开课啦!近期,有新手朋友咨询小编什么是域名解析服务器及域名解析的作用。那今天小编就具体介绍一下域名解析服务器。一、什么是域名解析服务器?域名解析服务器是根据来访者的IP类型对同一域名作出 ...

  • 新手可以找到合适的域名平台吗?有什么方法吗?

    新手可以找到合适的域名平台吗?有什么方法吗?我国的域名注册人还比较多,域名注册市场比较成熟,域名注册人有数万人。不同的域名注册商,域名注册的价格不同,提供的后期服务质量不同,域名服务器的稳定性也不同, ...

  • Telnet在Linux远程协助中的作用

    Telnet在Linux远程协助中扮演着重要的角色,它允许用户通过网络连接到另一台计算机,并在该计算机上执行命令。以下是Telnet在Linux远程协助中的主要作用:基本功能远程登录:用户可以通过Te ...

  • 新手怎么提高域名投资的几率?

    曾经360.com一亿的交易价格刷新了域名收购记录,也让许多手持优质域名的米农们感到了域名投资的前景,也吸引了许多刚入行的域名投资新手们。其实在小编看来,域名投资人其实都是顶尖的“销售行家”,不论是在 ...

  • 域名net是干嘛的?网站域名net是什么意思?

    域名net是干嘛的?网站域名net是什么意思?net域名是国际上广泛流行的通用域名,一般用于从事Internet相关的网络服务的机构或公司,是建立全球商业品牌,国际化形象的第一选择。下面聚名网就带大家 ...

  • 域名解析生效后网站为什么打不开?要怎么解决?

    域名相当于网站的名字,一般来说域名解析后,就可以通过域名访问网站了。但是,相信站长们或多或少都会遇到这样一个令人头疼的问题,也就是域名解析生效后,网站还是打不开。下面,小编就就具体说说域名解析生效后网 ...