数据
如果数据的准确性本身存在问题,那能产出正确结果的概率与买彩票中奖的概率大概相差无几,其商业的价值也就无可厚非的降低。即便数据是准确地,那还得证明数据具有代表性,你应当抽取了部分的抽样标本数据,很多时候,你必须要进行抽样,那你更要谨慎了,因素那么多,你要保证自己在数据采样过程中,考虑了应该考虑的因素。这些数据对于这个结论很具有代表性,对于另一个分析目的却有可能完全没有代表性,这些都不能一概而论,建议是多批次的抽样并随机性的抽取。总之,数据准确性这个问题基本上要在分析之前给出确定的答案,但是这也是数据正确参考必然经过的问题。而数据是否具有代表性这个问题由于比较复杂,尽可能的在分析之前考虑清楚的同时,在分析过程中,一定要随时保持着质疑精神,每向前一步,都要重新考虑数据样本是否还具有代表性。
智能化
我们曾今在数据数组的分析中,一套7200万行的数据运行在sql2008r2的环境中,由于抽检数据的不完整型和过度相信自己的数据没有瑕疵,导致数据在5500万行至6500万行之间出现了数据的错位和解析的异常,整个数据在后期封包处理后才被发现,这就极大的造成了我们在商业定位和自身数据处理价值的困惑和麻烦。
数据智能化