当前位置: 首页 > 架构/云

数据挖掘相关的几个问题

NO.1 Data Mining 和统计分析有什么不同?      硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但 ...

“量化风投”:用数据挖掘潜在项目

引自:ITONGJI.CN 本文由汤森路透中国区数据和产品业务部总监刘欣推荐 6月2日消息,对于硅谷风投来说,YCombinator等创业孵化器的“展示日”(DemoDay)是发掘“潜力股”的必经途径,但是如今的科技创投领域正在悄然发生变化,如果只是坐等“展示日”就会错失良机,因为越来越多风投机构开始借助数据专家的力量进 ...

zookeeper --Refusing session request for client

启动zookeeper报错解决方法 一、启动zookeeper时,后台一直报错,错误描述 2014-03-18 09:03:50,703 [myid:] - INFO  [NIOServerCxn.Factory:0.0.0.0/0.0.0.0:12 181:NIOServerCnxnFactory@197] - Accepted socket connection from / 10.179.55.58:37 033 2014-03-18 09:03:50,703 [myid:] - INFO ...

hadoop、hbase、zookeeper环境搭建(详细)

一 机器 192.168.0.203 hd203: hadoop namenode & hbase HMaster 192.168.0.204 hd204: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.205 hd205: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.206 hd206: hadoop datanode & hbase HRegionServer ...

Hadoop1.1.2 Eclipse 插件编译

可以直接下载我编译好的插件 hadoop-eclipse-plugin-1.1.2 http://download.csdn.net/detail/wind520/5784389 1:方法一:   copy src\contrib\build-contrib.xml 到src\contrib\eclipse-plugin目录下,然后修改 <?xml version="1.0"?> <!-- Licensed to the Apache Software ...

hadoop深入研究:(十三)——序列化框架

转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/9376495所有源码在github上,https://github.com/lastsweetop/styhadoop框架简介MapReduce仅仅可以支持Writable做key,value吗?答案是否定的。事实上,一切类型都是支持的,只需满足一个小小的条件:每个类型是以二进制流的形式传输。为此Hadoop ...

数据切分——Atlas介绍

数据切分——Atlas介绍         Atlas是由 Qihoo 360公司Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它在MySQL官方推出的MySQL-Proxy 0.8.2版本的基础上,修改了大量bug,添加了很多功能特性。目前该项目在360公司 ...

nosql篇mongodb初识与安装整理以及与关系型数据库对比

nosql篇mongodb初识与安装整理以及与关系型数据库对比 年前曾经写过关于mongodb的安装,但是后来有朋友弹窗说安装后遇到服务无法启动,在此将windows下以及Linux下的安装重新整理,顺便把会遇到的一些问题的解决方法写出来,其实mongodb的安装还是比较简单的. 随着互联网WEB2.0网站的兴起,传统关系型数据库力不从 ...

Android多线程及异步任务消息处理机制(一)--Handler的使用

Android多线程及异步任务消息处理机制(一)--Handler的使用 转载请注明出处:http://blog.csdn.net/yegongheng/article/details/38845953 前言         我们知道,不管在任何的语言或操作系统平台(Android系统也不例外),多线程、多进程和异步任务的相关技术地讨论都是永恒的话题, ...

用Gearman进行分布式任务处理

用Gearman进行分布式任务处理 Gearman是一款开源的通用的分布式任务分发框架,自己本身不做任何实际的工作。它可以将一个个的任务分发给其他的物理机器或者进程,以达到工作的并行运行和LB。 有人说Gearman是分布式 计算框架其实是不太准确的,因为相较于Hadoop而言,Gearman更偏重 ...

用pdb调试OpenStack Havana

用pdb调试OpenStack Havana http://www.csdn123.com/html/blogs/20131029/90565.htm Note:若是想要用pdb调试OpenStack,必须通过Devstack安装它。 Devstack安装Havana过程 1.   使用一般用户(非root用户),从github上获取devstack代码 git clonehttps://g ...

制作适用于openstack的Windows server 2008镜像

制作适用于openstack的Windows server 2008镜像 因为实验室需要在Openstack上安装Windows Server 2008,这里记录一下制作适用于Openstack的windows server 2008镜像的过程。 1.首先需要使用kvm等工具,利用如下的命令,下载安装。 sudo apt-get install qemu-kvm libvirt-bin virt-manager bridge-uti ...

理解OpenStack认证:Keystone PKI

理解OpenStack认证:Keystone PKI 原文链接:  The latest stable release of OpenStack, codenamed Grizzly, revolutionizes the way user authentication works. You  may have read some of the few articles available on this new authentication scheme. Th ...

别以为真懂Openstack: 虚拟机创建的50个步骤和100个知识点(3)

本文转自:http://www.cnblogs.com/popsuper1982/p/3932821.html 四、Nova-compute 步骤17:nova-compute接收到... 步骤18:调用Neutron API配置... 步骤19:生成MAC Address 步骤20: 获取DHCP Server的... 步骤21:获取Network的信息 步骤22:获取Security Grou... 步骤23:拿着所有的信息,创建P ...

Hadoop集群应用于大数据分析优势和挑战

大数据分析在过去几年里非常流行。即便如此,很多组织发现,现有的数据挖掘和分析技术还是不能胜任大数据的处理任务。对于这个问题,一个可能的解决方案就是搭建Hadoop集群,但它并不适合所有情况。让我们了解一下使用Hadoop集群的优缺点。   Hadoop集群是什么?   Hadoop集群是一种专门为存储和分析海量非 ...

大数据:一场改变我们如何生活、工作和思考的革命(更多,凌乱,足够好)

更多,凌乱,足够好          大数据将是新经济价值和创新的源泉。但更多的是频临危险。大数据的优势代表了三种我们分析需要理解和改变社会的信息的方法转变。          第一种转变在第二章中已经描述了。在这个新的世界我们 ...

MapReduce之去除标点的WordCount

这是一个wordcount的简单改进版,因为wordcount不处理标点,输出的单词里面含有很多的标点符号。 import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.ha ...

MapReduce例子1--wordcount

MapReduce例子1--wordcount 1.MapReduce编程模型 MapReduce采用的是“分而治之”的思想,把对大数据集合的操作,分发给一个主节点管理下的各个分节点共同完成,通过整合各个分节点的中间结果,得到最终结果。简单的来说MapReduce就是”任务的分解和结果的合并“。 在hadoop中,用 ...

【数据分析】电商数据挖掘之关联算法(一)

所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上,比如搜索引擎算法中文档之间的关联性,我们采 ...

一次数据分析的全过程

一次数据分析的全过程  刚下完班的时候,在公司无聊的坐着,一位同事拿了一些数据给我,说让我实现一个类似交叉表格的统计报表。我原以为是最多十几分钟就搞定的事情,没想到花了2个小时,所以印象比较深,就把全过程记录了下来 源数据就是个日志文本信息2008/1/11&nbs ...