进行数据挖掘所需的技巧是什么?
数据挖掘是指从大量数据中提取出有用信息的过程。
数据挖掘是从庞大的数据中挖掘有效信息的技术,正如这个词所描述的一样。它利用统计学和人工智能等分析方法,来发现数据之间的相关性和隐藏的模式等分析方法。
数据挖掘是数据科学领域中的重要技术。根据Glassdoor的「美国最佳50个工作」排行榜,数据挖掘在2016年至2018年期间被评为美国最佳工作的第一名。
另外,与2016年的1700个招聘信息相比,这两年内的招聘岗位数量增长了160%。我们预计,在未来几年里,对具备数据科学家和数据分析技能的人才的需求将持续增加。
本文将从数据挖掘的基本概念开始,介绍数据挖掘所需的技能。
计算机科学技能
1. 编程/统计语言: R、Python、C ++、Java、Matlab、SQL、SAS、Unix Shell/ awk / sed…
数据挖掘对编程有着很大的依赖,关于数据挖掘最适合的语言的疑问还没有定论。当然,更多取决于所处理的数据集。根据KD Nuggets的调查,R和Python是最受欢迎的数据科学编程语言。
更多资源:
学习哪种语言以进行数据科学 [Freecode Camp]
在R中进行数据挖掘算法 [Wikibooks]
最适合数据挖掘的Python模块 [KD Nuggets]
2. 大数据处理框架:Hadoop、Storm、Samza、Spark、Flink
Hadoop和Spark是目前为止被最广泛采用的框架。Hadoop是适合无时间限制的批处理工作负载的低成本选项,相比其他框架,实施成本较低。而Spark则提供适用于各种混合工作负载的选项,提供流式高速批处理和微批处理。
更多资源:
Hadoop、Storm、Samza、Spark、Flink:大数据框架的比较 [Digital Ocean]
用于数据挖掘的数据处理框架[Google Scholar]
3. 操作系统:Linux
Linux是一种受数据挖掘科学家喜欢的操作系统,它可以更稳定和高效地操作大规模数据集。了解Linux的常用命令,并能够将Spark分布式机器学习系统引入Linux将是一个优势。
为什么在数据科学和R领域中应该使用Linux操作系统的更多资源? [PATRICK SCHRATZ]
4. 数据库知识:关系型数据库和非关系型数据库。
要管理和处理大规模数据集,需要具备关于关系型数据库(如SQL或Oracle)或非关系型数据库的知识。非关系型数据库的主要类型包括:列式数据库,如Cassandra和HBase;文档型数据库,如MongoDB和CouchDB;键值型数据库,如Redis和Dynamo。
统计和算法技能
5. 基本统计知识:概率、概率分布、相关性、回归、线性代数、概率过程…
请回想一下数据挖掘的定义。我们已经知道数据挖掘不仅涉及编码和计算机科学,而且是多个领域之间的交集。统计学是数据挖掘专业人员必不可少的基础知识。通过统计学,我们可以特定问题,并得出更准确的结论,区分因果关系和相关关系,以及定量化发现的可靠性。
更多资源:
应该了解的数据科学统计学知识 [Quora]
用于数据挖掘的统计方法 [Research Gate]
6. 数据结构和算法
数据结构包括数组、链表、栈、队列、树结构、哈希表、集合等。常见的算法包括排序算法、搜索算法、动态规划、递归等。
如果你掌握了数据结构和算法,对于数据挖掘将非常有帮助。这有助于在处理大量数据时思考出更具创造力和高效的算法解决方案。
更多资源:
数据、结构和数据科学流程 [IBM Developer]
Coursera:数据结构与算法 [加利福尼亚大学圣地亚哥分校]
7. 机器学习/深度学习算法
这是数据挖掘中最重要的部分之一。机器学习算法可以构建样本数据的数学模型,用于预测或决策,而不需要明确地编程来执行任务。而深度学习是机器学习方法的一部分,覆盖了更广泛的领域。机器学习和数据挖掘通常采用相同的方法,并且有相当程度的重叠。
更多资源:
使用Python和R代码实现的机器学习算法的技巧 [Analytics Vidhya]
出色的机器学习框架、库和软件的策划列表(按语言分类)[Github josephmisiti]
自然语言处理
自然语言处理(NLP)是计算机科学和人工智能的一个子领域,它帮助计算机理解、解释和操作人类语言。NLP被广泛应用于词语分割、句法和语义分析、自动摘要以及文本含义等方面。对于需要处理大量文本的数据挖掘人员来说,了解NLP算法是必不可少的技能。
更多资源:
适用于数据科学家的10个NLP任务 [Analytics Vidhya]
优秀的机器学习框架、库和软件的搜集列表(按语言划分)[Github josephmisiti]
开源的NLP库:斯坦福NLP;Apache OpenNLP;自然语言工具包
其他
9. 项目经验
项目经验是最直接证明你的数据挖掘技能的方法。DataCamp的首席数据科学家David Robinson称:“对我来说,最有效的策略是从事公共项目。在我攻读博士学位的后半段,我开始撰写博客并积极参与开源开发。这些都帮助证明了我的数据科学技能。”
10. 沟通和演示技巧
数据挖掘专家不仅仅处理数据,还有责任向他人,甚至非技术人员如市场团队等解释从数据中获得的结果和洞察。因此,他们应该能够解释数据结果,并能够用口头、书面和演示文稿的方式有效地传达故事。