数据挖掘概论(一)——总述
洪雅丹
2024-03-13 10:48:33
图灵汇官网
数据挖掘及其应用
数据挖掘的定义
数据挖掘是从海量数据中提取出隐含的、以前未知且可能有用的知识的过程。
特征工程流程
特征工程主要包括以下几个步骤:构建特征、特征选择、特征转换以及特征自学习。
自然语言处理(NLP)流程
自然语言处理主要涉及以下步骤:
1. 英文文本处理包括词干提取,如将不同的词形还原为基本形式。
2. 中文文本处理包括分词及词性标注。
3. 关键词提取。
4. 将非结构化的文本数据转化为结构化数据。
决策树的应用
决策树主要分为两类:分类树和回归树。
数据挖掘的应用领域
数据挖掘可以解决多种问题,包括但不限于:
1. 自动化机器学习。
2. 应对类别不平衡问题。
3. 半监督学习。
4. 模型优化。
实际应用案例
信用风险预测
- 例如,通过分析发现80%的盗刷行为发生在用户的首笔交易金额低于1元时。进一步与专家合作验证这一发现。
- 解决措施:对于高风险账户,先进行冻结处理。当用户联系客服时,核实其身份后解除冻结。
零售业
政府部门
数据挖掘的发展历史
- 1960年代:主要集中在数据收集上,使用工具包括软盘、硬盘和磁带。
- 1980年代:进入数据查询阶段,SQL成为主流的数据查询语言。
- 1990年代:数据统计分析兴起,尤其是在线分析处理(OLAP),数据仓库技术得以广泛应用,能够快速统计并分析总体指标。
- 2000年代:进入数据分析和挖掘的新阶段,数据分析更加精细化,能够针对每个个体进行个性化分析。