码界工坊

htykm.cn
人生若只如初见

什么是数据挖掘?数字挖掘有哪些流程?

什么是数据挖掘?数字挖掘的概念是什么?数据挖掘一般要经历哪些流程?下面是有关数字挖掘的介绍。

据了解,数据挖掘理论涉及到的面很广,它实际上起源于多个学科,可以简单的理解为从大量数据中提取或挖掘知识或者说是知识发现。

数据挖掘应用了众多领域的思想,包括来自统计学的抽样、估计和假设检验;来自人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论等。

数据挖掘一般经历以下几个流程:

1. 解读需求

绝大多数的数据挖掘工程都是针对具体领域的,因此数据挖掘工作人员不应该沉浸在自己的世界里YY算法模型,而应该多和具体领域的专家交流合作以正确的解读出项目需求。这种合作应当贯穿整个项目生命周期。

2. 搜集数据

在大型公司,数据搜集大都是从其他业务系统数据库提取。很多时候我们是对数据进行抽样,在这种情况下必须理解数据的抽样过程是如何影响取样分布,以确保评估模型环节中用于训练(train)和检验(test)模型的数据来自同一个分布。

3. 预处理数据

预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化、平整化、时间序列加权等;而后者主要包含维度归约、值归约、以及案例归约。后面两篇博文将分别讲解数据准备和数据归约。

4. 评估模型

确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。很多人认为这一步是数据挖掘的全部,但显然这是以偏概全的,甚至绝大多数情况下这一步耗费的时间和精力在整个流程里是最少的。

5. 解释模型

数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。

以上就是有关什么是数据挖掘?数字挖掘有哪些流程的介绍。

未经允许不得转载 » 本文链接:http://htykm.cn/html/07c4499948.html

推荐文章

  • Debian 缓存对SEO有何影响

    Debian 缓存本身对SEO没有直接的影响,但它可以间接影响SEO效果。具体来说,缓存机制对SEO有以下几个方面的影响:提高页面加载速度:缓存可以将网页内容存储在用户的浏览器或服务器上,当用户再次访 ...

  • 购买域名需要多少钱?多少钱可以购买一个域名

    购买域名需要多少钱?多少钱可以购买一个域名?相信很多人都会有这样的疑问,下面聚名网为你详解一下以上问题。域名类型 注册价格 续费价格 转入价格 介绍.com  58元/年 65元/年 65元/年 国际 ...

  • 域名过期后多长时间可以注册?在哪注册比较好?

    很多米农问我,域名过期后多长时间可以注册?在哪里注册比较好?聚名网的小编告诉你,一般都在聚名网上抢注的。域名过期后多长时间可以注册?一、国际域名过期65–75天后ICANN会删除,删除之后可以立即注册 ...

  • 个人怎么获得有价值域名?有什么方法?

    个人怎么获得有价值域名?有什么方法?如今域名的资源十分稀缺,每一个网站都需要有一个一级域名,但是懂网站建设的人都知道,域名是需要购买的,因此,聪明的人都做起了域名投资,并赚到了不少钱的钱,那么个人如何 ...

  • CentOS Java日志中线程死锁怎么办

    当在CentOS系统中的Java应用程序日志中发现线程死锁时,可以采取以下步骤来定位和解决问题:1. 确认死锁的存在线程状态检查:使用 top或 htop命令查看Java进程的CPU使用情况。如果CP ...

  • 域名相关知识有哪些?怎么了解域名知识?

    域名相关知识有哪些?怎么了解域名知识?域名是网站唯一的名称。主机解决方案中应包括域名注册。域名应该容易记、容易写。那么怎么认识域名呢?有什么方法?下面聚名网小编就为大家介绍一下域名相关知识有哪些和怎么 ...

  • 有关国内域名注册有哪些规则 大陆怎么注册域名

           有关域名注册,聚名网前面给大家提到了很多,互联网高度发展的中国,域名注册事业也是蓬勃发展,而在大陆注册域名的需求也是日益增加,今天聚名网就受邀来谈谈大陆注册域名有哪些规则。在大陆做域名注 ...

  • top域名需要实名吗?top域名不实名可以吗

    top域名需要实名吗?top域名不实名可以吗?相信很多人都会有这样的疑问,下面聚名网为你详解一下以上问题。top域名需要实名的,。top域名实名制将迫使企业或个人对网站发布的内容负责,到时如果产生纠纷 ...