01、编程/统计语言
R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…
数据挖掘在很大程度上依赖于编程,根据KD Nuggets的研究,R和Python是数据科学中最受欢迎的编程语言。
02、大数据处理框架
Hadoop,Storm,Samza,Spark,Flink
处理框架对系统中的数据进行计算,可以将其分为3类:仅批处理,仅流和混合。
03、操作系统:Linux
Linux是一种流行的操作系统,对于操作大型数据集而言,Linux更加稳定和高效。
04、数据库知识:关系数据库和非关系数据库
要管理和处理大型数据集,必须具有关系数据库的知识,例如SQL或Oracle,或非关系数据库,其主要类型为:列如Cassandra,HBase;文件:MongoDB,CouchDB;关键值:Redis,Dynamo。
05、基本统计知识
概率,概率分布,相关性,回归,线性代数,随机过程,相关,回归,线性代数,随机过程…
统计的基本知识对于数据挖掘者至关重要,它可以帮助您识别问题,获得更准确的结论,区分因果关系和相关性以及量化发现结果的确定性。
06、数据结构与算法
数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等。
精通数据结构和算法对于数据挖掘至关重要,它可以在处理大量数据时为您提供更具创造性和效率的算法解决方案。
07、机器学习/深度学习算法
机器学习算法可建立样本数据的数学模型,以进行预测或决策,而无需进行明确编程即可执行任务。深度学习是更广泛的机器学习方法家族的一部分。
08、自然语言处理
NLP被广泛用于分词,语法和语义分析,自动摘要和文本包含。对于需要处理大量文本的数据挖掘者来说,了解NLP算法是必不可少的技能。
09、项目经验
项目经验是您数据挖掘技能的最省力的证明。
10、沟通与表达技巧
数据挖掘者不仅处理数据,而且还负责向其他人,甚至是非技术受众,解释从数据中获取的结果和见解。应该能够以口头,书面和陈述的方式很好地解释数据结果.