---

2015/10/25

layout: post
title: "电商数据挖掘之关联算法(1)"
category: Reading Notes

tags: ["读文章", "电商", "数据挖掘", "推荐系统"]

{% include JB/setup %}

电商数据挖掘之关联算法(一)

所谓关联,反映的是一个事件和其他时间之间依赖或关联的知识。

如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。

简单地说,关联规则可以用这样的方式来表示:A -> B, 其中A被称为前提或者左部分(LHS)

支持度(support)

也就是数据集中包含某几个特定项的概率

比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%

置信度(confidence)

也就是数据集中已经出现A时,B发生的概率。

置信度的计算方式是:A与B同时出现的概率/A出现的概率

关联规则

关联规则的发现过程可分为如下两步:

  • 第一步是迭代识别所有的频繁项目集(Frequent Item Set),要求频繁项目集的支持度不低于用户设定的最低值
  • 第二步是从频繁项目集中构造置信度不低于用户设定的最低值的规则,产生关联规则。

Reference:

谭磊,http://www.tmtpost.com/74938.html