10、空间的数据怎么分析
上面的分析大都是统计维度的,其实最简单的描述就是求和或者平均值等,这个时候问题来了, 大数据 量的空间数据如何分析呢?对于我们电子商务而言,空间数据可能就是海量的收货地址数据了。需要做分析,第一步就是先要把经纬度添加到数据中(如果添加经纬度,这个可以搞http的请求来通过地图服务提供商来或者,或者是根据测绘公司的基础数据来进行文本切割分析),之后空间数据是二维的,但是我们常见的代数是一维的,这个时候一个重要的 算法 出现了,geohash 算法 ,一种将经纬度数据转换为一个可比较,可排序的字符串的 算法 。然后,这样就可以再空间距离方面进行分析了,例如远近,例如方圆周边等数据的分析。
11、上面这些仅仅是统计,如果想搞 算法 或者挖掘之类的,怎么搞呢
上述的分析,大多数是统计分析,这个时候如果想高一点高级的,例如添加一个 算法 ,咋搞呢?其他复杂的 算法 我没咋接触过。将拿一个我练过手的 算法 来讲吧。逻辑回归,如果样本数据量不是很大,可以采用weka来做了个回归,获得一个表达式,然后在线上系统中应用这个表达式,这种类似的表达式获取对于实时性要求不是很高,所以公式每天跑一次就行了。如果数据量比较大,单机的weka无法满足需求了,可以将weka的jar包集成在系统中分析,当然也可以通过hadoop中的mahout来进行离线分析,获取这个表达式。
12、我就是想离线分析数据,但是受不了hive或者hadoop的速度,咋搞
其实搞过一段时间hadoop的人肯定有一点不爽,就是离线分析的速度太慢了,可能需要等很久,这个时候spark出现了,他和hadoop类似,不过由于是内存中计算,所以速度快了很多,底层可以介入HDFS的文件系统,具体我没有使用过,但是公司内部一个团队目前已经用spark来进行分析了。
13、这就是搞 大数据 了?
有了这些工具就是搞 大数据 了?答案肯定不是,这个仅仅是工具罢了。真正搞 大数据 的可能在于思维的变化,用数据来思考,用数据来做决定。目前的无线和 大数据 啥关系?我觉得无线的终端是数据的来源和消费端,中间需要 大数据 的分析,两者密不可分埃