T3: Introducción a la Inteligencia de Negocios con Técnicas de la

Transcription

T3: Introducción a la Inteligencia de Negocios con Técnicas de la
Introducción a la Inteligencia de Negocios con
Técnicas de la Inteligencia Computacional
Richard Weber
Departamento de Ingeniería Industrial
Universidad de Chile
[email protected]
Contenido de la presentación
Introducción y Motivación
Inteligencia de Negocios: Definición y Vista General
Inteligencia Computacional: Las Principales Técnicas
Aplicaciones de Data Mining con Inteligencia Computacional
Herramientas de Data Mining
Conclusiones y Perspectivas
El Vértigo de la Inteligencia de Negocios
CRM: Customer
Relationship
Management
(Gestión de la
relación con el
cliente)
CMR: ???
Data
Warehouse /
Data Mart
Inteligencia de Negocios
(Business Intelligence)
Knowledge
Management
Balanced
Scorecard
Inteligencia
Artificial
OLAP:
Online
Analytical
Processing
Data
Mining:
Minería de
datos
KPI: Key
Performance
Indicators
KPI: Key Performance Indicators – Definición
KPIs, or key performance indicators help organizations achieve organizational
goals through the definition and measurement of progress. The key indicators are
agreed upon by an organization and are indicators which can be measured that will
reflect success factors. The KPIs selected must reflect the organization's goals, they
must be key to its success, and they must be measurable. Key performance
indicators usually are long-term considerations for an organization.
http://www.webopedia.com/TERM/K/KPI.html
Balanced Scorecard – Definición
Balanced Scorecard
The balanced scorecard is a strategic management system used to drive performance
and accountability throughout the organization.The scorecard balances traditional
performance measures with more forward-looking indicators in four key dimensions:
» Financial
» Integration/Operational Excellence
» Employees
» Customers
The Balanced Scorecard is an organizational framework for implementing and
managing strategy at all levels of an enterprise by linking objectives, initiatives, and
measures to an organization’s strategy. The scorecard provides an enterprise view of
an organization’s overall performance. It integrates financial measures with other
key performance indicators around customer perspectives, internal business
processes, and organizational growth, learning, and innovation.
http://www.leanadvisors.com/Lean/glossary/definition.cfm/Word/Balanced%20Scorecard.cfm
Inteligencia Artificial – Definición
Artificial Intelligence
The branch of computer science concerned with making computers behave like
humans. The term was coined in 1956 by John McCarthy at the Massachusetts
Institute of Technology. Artificial intelligence includes:
games playing: programming computers to play games such as chess and checkers
expert systems : programming computers to make decisions in real-life situations
(for example, some expert systems help doctors diagnose diseases based on
symptoms)
natural language : programming computers to understand natural human languages
neural networks : Systems that simulate intelligence by attempting to reproduce
the types of physical connections that occur in animal brains
robotics : programming computers to see and hear and react to other sensory stimuli
http://www.webopedia.com/TERM/a/artificial_intelligence.html
Knowledge Management – Definición
Knowledge Management is the explicit and systematic management of vital
knowledge - and its associated processes of creation, organization, diffusion, use
and exploitation.
Explicit - Surfacing assumptions; codifying that which is known
Systematic - Leaving things to serendipity will not achieve the benefits
Vital Knowledge - You need to focus; you don't have unlimited resources
Processes - Knowledge management is a set of activities with its own tools and
techniques
http://www.skyrme.com/resource/kmbasics.htm
CRM – Definición
CRM
Short for customer relationship management. CRM entails all aspects of interaction
a company has with its customer, whether it be sales or service related.
Computerization has changed the way companies are approaching their
CRM strategies because it has also changed consumer buying behavior. With each
new advance in technology, especially the proliferation of self-service channels like
the Web and WAP phones, more of the relationship is being managed electronically.
Organizations are therefore looking for ways to personalize online experiences
(a process also referred to as mass customization) through tools such as
help-desk software, e-mail organizers and Web development apps.
http://www.webopedia.com/TERM/C/CRM.html
Business Intelligence – Definición
Business Intelligence
The term Business Intelligence (BI) represents the tools and systems that play a
key role in the strategic planning process of the corporation. These systems allow
a company to gather, store, access and analyze corporate data to aid in
decision-making.
Generally these systems will illustrate business intelligence in the
areas of customer profiling, customer support, market research, market segmentation,
product profitability, statistical analysis, and inventory and distribution analysis
to name a few.
http://www.webopedia.com/TERM/B/Business_Intelligence.html
Minería de datos para la Inteligencia de Negocios: Motivación
Costos para guardar datos:
30.0
25.0
20.0
15.0
10.0
5.0
0.0
1990
1992
1994
1996
1998
2000
2002
Costos de un disco duro (US-$) / Capacidad (MB)
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
Minería de datos para la Inteligencia de Negocios: Motivación
Disponibilidad de datos:
16000
14000
12000
10000
8000
6000
4000
2000
0
1995 1996 1997 1998 1999 2000 2001 2002 2003
Capacidad de nuevos discos duros (PB)
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
Generación de datos
•The World Wide Web contains about 170 terabytes of information on its surface;
in volume this is seventeen times the size of the Library of Congress print collections.
•Instant messaging generates five billion messages a day (750GB),
or 274 Terabytes a year.
•Email generates about 400,000 terabytes of new information each year worldwide.
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
Código Barra
RFID: Radio Frequency Identification
………
Data Warehouse – Definición
Data Warehouse:
Abbreviated DW, a collection of data designed to support management decision
making.
Data warehouses contain a wide variety of data that present a coherent picture of
business conditions at a single point in time.
Development of a data warehouse includes development of systems to extract data
from operating systems plus installation of a warehouse database system that provides
managers flexible access to the data.
The term data warehousing generally refers to the combination of many different
databases across an entire enterprise. Contrast with data mart.
Fuente:
http://www.webopedia.com/TERM/D/data_warehouse.html
Arquitectura de un Data Warehouse
Datos
Información
Decisión
Herramientas
Datos
de Data Mining
operacionales
Información
Resumen
detallada
Datos
externos
Meta Datos
Herramienta
de OLAP
Fuente: Anahory, Murray (1997): Data Warehousing in the Real World.
OLAP – Definición
OLAP
Short for Online Analytical Processing, a category of software tools that provides
analysis of data stored in a database. OLAP tools enable users to analyze different
dimensions of multidimensional data. For example, it provides time series and trend
analysis views. OLAP often is used in data mining.
The chief component of OLAP is the OLAP server, which sits between a client and a
database management systems (DBMS). The OLAP server understands how data
is organized in the database and has special functions for analyzing the data.
There are OLAP servers available for nearly all the major database systems.
http://www.webopedia.com/TERM/O/OLAP.html
Navegación en un cubo OLAP
Drill down:
Producto
profundizar una
dimensión
P1
Tiempo
U1
Ubicación
Motivaciones para Almacenar Datos
Razones iniciales:
Potenciales:
En telecomunicación:
En telecomunicación:
Facturación de llamadas
Detección de fraude
En supermercados:
En supermercados:
Gestión del inventario
Asociación de ventas
En bancos:
En bancos:
Manejo de cuentas
Segmentación de clientes
En empresas de producción:
En empresas de producción
Control de procesos
Mantenimiento preventivo
Idea básica y potenciales de data mining
Empresas y Organizaciones tienen
gran cantidad de datos almacenados.
Los datos disponibles contienen
información importante.
La información está escondida en los datos.
Data mining puede encontrar información
nueva y potencialmente útil en los datos
Proceso de KDD
Knowledge Discovery in Databases
Transformación
Data Mining
Preprocesamiento
Selección
Datos
Patrones
Datos seleccionados
Datos preprocesados
Datos
transformados
Interpretación y
Evaluación
“KDD es el proceso no-trivial de identificar patrones
previamente desconocidos, válidos, nuevos, potencialmente
útiles y comprensibles dentro de los datos“
Potenciales de Data Mining - 1
Potenciales de Data Mining - 2
Aplicaciones de Data Mining
Customer Relationship Management
Segmentación de clientes
Database Marketing
Predicción de compra
Retención de clientes
Predicción de fuga
Detección de Fraude
Tarjetas de crédito
Uso de teléfonos (celulares)
Predicción de series de tiempo
Inteligencia Computacional:
Las principales técnicas
Redes neuronales
Lógica difusa
Algoritmos genéticos
Computational Intelligence
1943 Neural Networks (McCulloch, Pitts)
1965 Fuzzy Logic (Zadeh)
1974 GA (Schwefel)
1993 First IEEE Conference joining FL, NN and GA (USA)
1993 First EUFIT Conference (Europe)
1996 First Online Workshop on Soft Computing
2001 First International Workshop on Hybrid Intelligent Systems (HIS'01)
2002 First International NAISO Congress on Neuro Fuzzy Technologies
Métodos de Data Mining
Estadística
Agrupamiento (Clustering)
Análisis Discriminante
Redes Neuronales
Árboles de Decisión
Reglas de Asociación
Bayesian (Belief) Networks
Support Vector Machines (SVM)
………
Redes Neuronales
natural
artificial
Neurona
Conexiones con pesos
Neuronas Artificiales
sinapsis
Neuronas “Verdaderas”
Núcleo
Axon
Neuronas Artificiales
Dendritas
Cuerpo Celular
x1(t)
x2(t)
w2
y=f(a)
∑
a(t)
…
xn(t)
y
w1
wn
o(t+1)
w0
a
Perceptron (1962)
Generalización y formalización de las redes neuronales.
o1
o2
op
…
x1
x2
x3
…
…
xn
⎛ n
⎞
oi = f (ai ) = f ⎜ ∑ wik xk ⎟
⎝ k =0
⎠
i = 1, K , p
Perceptron la falla
La función XOR (exclusive or):
x2
x1
x2
y
0
0
1
0
1
0
0
1
1
1
1
0
1
0
0
Minsky, Papert (1969)
1
x1
Multilayer Perceptron (MLP)
La mayoría de las aplicaciones de redes neuronales están referidas a
MLP
⎛ n
⎛ n
⎞⎞
oi = f ⎜⎜ ∑ W j f ⎜ ∑ wik xk ⎟ ⎟⎟
⎝ k =0
⎠⎠
⎝ j =0
Es una función no lineal, de una combinación lineal de
funciones nolineales de funciones de combinaciones lineales de
los datos de entrada; => Clasificación y Regresión no lineal!!
2
3
f ( x) = G (∑ w G (∑ w ji xi + b j ) + b )
j =1
'
1j
'
1
i =1
Backpropagation un ejemplo
3
r=3
xp
w11
w12
G (∑ w ji xi + bi )
i =1
n=2
2
3
j =1
i =1
G (∑ w'1 j G (∑ w ji xi + bi ) + b j )
w21
w’11
w22
w’12
w13 w
23
s=1
op
yp
3
Δ p w1' j = ηG (∑ w ji xi + bi )δ p
i =1
Δ p w ji = η xiδ pj
2
3
i=1
j=1
δ p = ( yp −op )G' (∑w1'iG(∑wij xj +bj ) +bi' )
3
δ pj = G ( ∑ w ji xi + b j )δ p w '1 j
'
i =1
Base de lógica difusa
“Cliente joven”
μ (A )
Función de pertenencia
1
Variable lingüística
30
36
42
Edad
Agrupamiento con lógica difusa
x3
x15
x6
x2
x5
0
x12
x7
x8
x9
x4
1
x11
x14
1
0
0
0
^
Cluster Centres =
0
Grupos estrictos
.14
.94
.99
.14
.86
.06
.06
.86
.50
.94
.86
1
0
1
x13
.86
X
1
1
Butterfly
.97
0
1
x10
^
Cluster Centres =
x1
1
.14
.01
X
.03
.03
Grupo difuso 1
.01
.14
.50
.06
.06
Cluster Centres =^
X
.94
.14
.14
.86
.99
X
.97
.94
Cluster Centres =^
Grupo difuso 2
.86
Agrupamiento con Lógica Difusa
Algoritmo: Fuzzy c-means (FCM)
n objetos, c clases
ui,j = grado de pertenencia de objeto i a clase j
(i=1, ..., n; j=1, ..., c)
U = (ui,j)i,j
ui,j ∈[0,1]; ∑ui,j = 1; i = 1, ..., n
Función objetivo:
min ∑∑ (ui,j)m d2(xi, cj)
xi : objeto i; cj : centro de clase j;
d2(xi, cj): distancia entre xi y cj
m : parámetro difuso (1<m<∞)
Algoritmo: Fuzzy c-means (FCM)
1. Determina una matriz U con ui,j ∈[0,1];
2. Determina los centros de las clases:
c
∑u
i, j
j =1
n
∑
ui,
j
m
xi
i =1
n
cj =
∑
ui,
j
m
i =1
3. Actualiza los grados de pertenencia:
ui,j =
1
⎛ d ( x ,c ) ⎞
⎟⎟
∑ ⎜⎜
⎝ d ( x ,c ) ⎠
c
k =1
i
j
i
k
2
m −1
Uk = matriz en iteración k
4. Criterio para detener: ⏐⏐Uk+1 - Uk⏐⏐ < ε
=1
Genetic Algorithms
Description
→ Inspired by evolution (Darwin).
→ Represent possible solutions to a problem
→ Genetic algorithms generate a population of genes (possible
solutions) and make them evolve to obtain better genes (better
solutions).
→ Based on the principle of “Survival of the fittest”
Segmentación de Clientes
Clientes
Banco
?
Requerimientos
Producto 1
?
?
Producto n
?
?
Requerimientos
¿Qué producto para qué cliente?
Principales áreas de aplicación de
Web Usage Mining
Identifying web usage behavior
of bank customers
Sandro Araya1), Mariano Silva2), Richard Weber3)
1) BCI Bank, Santiago, Chile
2) webmining.cl, Santiago, Chile
3) Department of Industrial Engineering, Universidad de Chile, Santiago, Chile
Araya, S., Silva, M., Weber, R. (2004): A Methodology for Web Usage Mining and its Application to
Target Group Identification. Fuzzy Sets and Systems 148, No. 1, 139-152
BCI - Banco de Crédito e Inversiones (www.bci.cl)
Founded in 1937
Started Virtual Bank in 1996
10,000+ Internet transactions daily
Process of knowledge discovery in databases (KDD)
Interpretation
Evaluation
Data Mining
Transformation
Pre-processing
Selection
Patterns
pre-processed
data
Data
selected
data
transformed
data
Methodology of Web Mining
Combination of KDD process and
Web Traffic analysis
Log Files
Transformed
data
Sessions
Integrated
data
Clean
logs
Pattern
Rules
Clusters
Selection Preprocessing
Transformation
Data Mining
Interpretación
Current situation
Registed Visitors of
Virtual Bank
(Traditional)
Bank Customers
41,563 navigating customers
142,133 customers still not
visitors of the web site
Questions
Virtual bank
Traditional bank
•How do my navigating
customers behave?
•Are there segments of
“typical visitors”?
•Is it possible to identify
“heavy users”?
•Are there customers that
look like “heavy users”?
•How can I convert these “twins
of heavy users” to users of my web site?
Two step approach
Virtual bank
Traditional bank
•Clustering of navigating
customers
•Determine profile of
“heavy users”
•Search for (traditional) customers that have
a profile similar to that of “heavy users”
•=> Fuzzy Clustering
•Marketing campaign directed to these “twins
of heavy users”
•=> Neural Network
Results of Segmentation
Class
Age
(years)
Trx Web
N° of Cases
% Cases
Class L1
38
25
9130
22.0%
Class L2
29
26
4277
10.3%
Class M1
58
31
4599
11.1%
Class M2
47
32
11829
28.5%
Class H
34
141
11728
28.2%
41563
100.0%
TOTAL
Neural networks (Multilayer Perceptron)
connection with weights
Neuron
Input Layer
Hidden
Layer
Output Layer
DataEngine
Data
acquisition
Visualisation
∑
Data preprocessing
Graphical
Macro
Language
Fuzzy and
Neural
Modelling
DataEngine
ADL
www.dataengine.de
for (int i=0; i<=99; i++)
{
a[i]=0.0;
b[i]=0.0;
c[i]=0.0;
}
Identification of twins with Neural networks
Architecture of the Multilayer Perceptron:
Number of input neurons: 6,
corresponding to the attributes: age, gender, civil status, education,
income, and antiquity.
Number of neurons in the hidden layer: 12 (transfer function: sigmoid)
Number of output neurons: 5,
corresponding to the 5 classes of customers: H, L1, L2, M1 and M2.
Neural Network Results
Class
L1
L2
M1
M2
H
TOTAL
Selected Cases
32,602
25,216
35,805
18,608
29,902
142,133
% Cases
22.9%
17.7%
25.2%
13.1%
21.0%
100.0%
Marketing Campaign
Customers fromclass H
Other customers
Total
Received Did not receive
mailing
mailing
11,567
18,335
15,806
96,425
27,373
114,760
Total
29,902
112,231
142,133
Gains Chart
Percentage
of new
customers
Advanced selection
100%
Random selection
Percentage of
100%
total customers
Marketing Campaign
New visitors from class H
that received the mailing
Week
New visitors from class H (total)
New visitors from class H
that did not receive the mailing
13
737
256
993
14
153
264
417
15
114
212
326
16
101
204
305
Marketing Campaign
Results
New visitors from class H
that received the mailing
Semana
Week
Clientes
nuevos
New Visitors
13
14
15
16
TOTAL
737
153
114
101
1,105
Response rate Twins =
1.105
11.0567
= 10%
Marketing Campaign
Results
New visitors from class H
that did not receive the mailing
Semana
Week
13
14
15
16
TOTAL
Connection rate of twins of
heavy users without mailing
Clientes
New Visitorsnuevos
256
264
212
204
936
936
18.300
= 5%
Conclusion
”Natural connecting rate” ~ 1.050 new customers /month
~ 2% of web site users
Response rate after mailing to “twins of heavy users” = 10%
Natural connecting rate of “twins of heavy users”
(i.e. without receiving mailing)
= 5%
Sistema de Pronóstico de Ventas utilizando Redes Neuronales y su
Aplicación en la Cadena de Suministros de un Supermercado
Motivación del Problema
¿Qué productos
pido?
¿Cuánto pido?
Necesidad de pronóstico de ventas en el corto plazo
Motivación del Problema
Ventas ... De qué dependen?
30.000
•Ventas pasadas
25.000
•Precios
20.000
5.000
•Clima
•Venta de productos similares
Día
8
8
04
-1
99
30
-
8
04
-1
99
23
-
8
04
-1
99
16
-
8
04
-1
99
09
-
8
04
-1
99
02
-
8
03
-1
99
26
-
8
03
-1
99
19
-
8
12
-
03
-1
99
8
03
-1
99
05
-
8
02
-1
99
26
-
8
02
-1
99
19
-
8
02
-1
99
12
-
8
02
-1
99
05
-
8
01
-1
99
29
-
01
-1
99
22
-
8
01
-1
99
08
-
01
-1
99
01
-
8
0
8
•Festivos
10.000
01
-1
99
•Estacionalidad
15.000
15
-
Monto ($)
•Campañas Publicitarias
Motivación del Problema
¿Cómo administrar el inventario?
→ Muy poco
Quiebres de Venta. Clientes insatisfechos
→ Mucho
Costos de capital
Desarrollar mejores técnicas de pronóstico y de acuerdo a esto gestionar
nuestro inventario
→ Aplicaciones exitosas con Redes Neuronales (ICA Handlarna Suecia, Cadena
farmacéutica EE. UU.)
→ Existen las tecnologías y conocimientos
Alcances del Proyecto
Se acotará el ámbito de estudio a:
Local La Pintana: Supermercado Tradicional
con 4.500 m2
Un subconjunto de productos: 50 PLU’s más
vendidos en el local (representan el 23,18%
de las ventas)
Con datos desde el 12/09/2000 a 31/07/2001
Knowledge Discovery in Databases: KDD
4.Interpretación y
Evaluación
3.Data Mining
Knowledge
Conocimiento
2.Selección y
Preprocesamiento
p(x)=0.02
1.Consolidación
de los Datos
Patrones y Modelos
Warehouse
DW
Datos preparados
Datos Consolidados
Fuentes de Datos
1.Consolidación de los Datos
Datos de diferentes fuentes:
ORION
Unidades Vendidas en local La Pintana desde 01/07/00 al 31/07/01
para los 50 PLU’s más vendidos
AC Nielsen ==> Precios semanales de los productos en el local de estudio y la
competencia del micromercado (Santa Isabel, Ekono y Lider)
20
0
118389
1.Consolidación de los Datos:
Café 170 grs.
120
100
80
Verano
60
40
1
00
- 2 01
UL 0
- J - 2 01
16 JUN 20 1
- - 0
26 JUN -20 1
- Y 0
06 MA -20 1
- R 0
17 AP -20 1
- R 0
27 AP -20 1
- R 0
07 MA -20 1
- B 0
18 FE -20 1
- B 0
26 F E 20 0
- - 0
06 JAN -20 0
- C 0
17 DE -20 0
- C 0
28 DE -20 0
- V 0
08 NO -20 0
- T 0
1 8 OC - 2 0 0
- T 0
29 OC -20 0
- P 0
09 SE -20 0
- G 0
19 AU -20
- G 0
30 AU 200
- - 0
10 JUL 200
- 21 JUL
01
0
114464
1.Consolidación de los Datos:
Cerveza 1 Lt.
2000
Verano
1000
Año Nuevo
Navidad
18 Sept
01
20 1
L- 0
U 0
-J N-2 01
16 JU -20
1
2 6 JU N 2 0 0 1
- Y- 0
06 MA -20 1
- R 0
17 AP -20 1
0
27 APR -20
- R 01
07 A 0
-M B-2 01
18 FE -20
1
26 FEB 200 0
- - 0
06 JAN -20 0
- C 0
17 DE -20 0
- C 0
28 DE -20 0
- V 0
08 NO -20 0
- T 0
18 OC -20 0
- T 0
29 OC -20 0
- P 0
09 SE -20 0
0
19 AUG-20
- G 0
30 AU 200
- L- 0
1 0 JU 2 0 0
- 2 1 JU L
01
1.Consolidación de los Datos
Características del día. Variables binarias (0,1)
•
•
•
•
•
•
•
•
•
pago
:Días de pago de fin de mes.
quincena :Días de pago de quincena
prefest
:Días anteriores a feriados
feriado
:Días festivos
patrias
:Días de fiestas patrias
santa
:Días de semana santa
vacation :Días de vacaciones (Enero y Febrero)
verano
:Días de meses estivales (desde 01/10 al 31/03)
a_nuevo :1 de Enero. Único día del año donde los
supermercados no venden.
Knowledge Discovery in Databases: KDD
4.Interpretación y
Evaluación
3.Data Mining
Knowledge
Conocimiento
2.Selección y
Preprocesamiento
p(x)=0.02
1.Consolidación
de los Datos
Patrones y Modelos
Warehouse
DW
Datos preparados
Datos Consolidados
Fuentes de Datos
2.Selección y Preprocesamiento
“En la vida real los datos no están como
quisieramos”
De los 50 PLU’s originales hay 3 correspondientes
a promociones
De los 47 PLU’s restantes 9 presentan ausencia de
datos de más del 25% en la serie de tiempo
LIMPIEZA DE DATOS!!!
2.Preprocesamiento
Las ventas se escalaron entre 0 y 1
En base a los precios se crean las siguientes
variables:
PA(NºPLU)=precioPLU_Economax
PB( N º PLU ) =
precioPLU _ Economax
MAX ( precioPLU _ micromercado)
precioPLU _ Economax
PC ( N º PLU ) =
MIN ( precioPLU _ micromercado)
Estas variables también se reescalan entre 0 y 1
Knowledge Discovery in Databases: KDD
4.Interpretación y
Evaluación
3.Data Mining
Knowledge
Conocimiento
2.Selección y
Preprocesamiento
p(x)=0.02
1.Consolidación
de los Datos
Patrones y Modelos
Warehouse
DW
Datos preparados
Datos Consolidados
Fuentes de Datos
3.Data Mining: Enfoques de Solución
Modelos Ingenuos (enfoque actual)
Modelos Box Jenkins
SARIMAX (p,d,q) (sp,sd,sq) Y
Redes Neuronales
Perceptrón Multicapas (MLP)
Análisis de Series de Tiempo
Box, Jenkins (1976)
q
MA(q) (FIR)
Xt = ∑ bn * et − n =b1 et −1 + ... +b p et − q
n =1
AR(p) (IIR)
p
Xt = ∑ ai * xt −i + et
i =1
ARMA (p,q)
p
q
i =1
n =1
Xt = ∑ ai * xt −i + ∑ bn * et − n + et
Modelos Box Jenkins
Requisitos de ARMA
→ Al menos 50 observaciones
→ La serie debe ser estacionaria
Modelos Box Jenkins
Para convertir una serie no estacionaria en otra estacionaria se puede:
→ Aplicar transformaciones logarítmicas
→ Diferenciar la serie (Xt - Xt-1)
ARIMA(p,d,q) donde d es Nº de términos diferenciados
Seasonal ARIMA: SARIMA (p,d,q) (sp,sd,sq)
SARIMAX con X variables externas (regresores)
Modelos Box Jenkins
Time series transformation (from non-stationary to stationary) :
→ apply logarithmic transformations
→ differentiate the series (Xt - Xt-1)
700
600
500
400
X(t)
300
X(t+1)
200
X(t+1)-X(t)
100
0
0
-100
-200
20
40
60
80
100
120
140
160
Redes Neuronales
Modelos de conectividad
Resuelven problemas de:
→
→
→
→
→
→
Clasificación de patrones
Aproximación de funciones
Clustering
Optimización
Memoria asociativa
Predicción o pronóstico
n
yk = f (∑ wik xi )
i =0
Aplicaciones de Redes Neuronales
Clasificación:
→ Detección de Fraude
→ Predicción de Fuga de Clientes
→ Predicción de Compra de productos (marketing directo)
Regresión:
→ Estimación de riesgo de clientes (scoring)
→ Pronóstico de índices financieros y bursátiles (monedas, metales,
stock markets, bonos, etc.)
MLP para forecasting
Overfitting o Sobreajuste
Sobreajuste de la red a los datos del problema y no al problema en sí
Conjuntos de Entrenamiento y de Testeo
ARIMA v/s MLP
Modelo Estadístico
(ARIMA)
Modelo lineal: asume un
comportamiento de la serie a
priori
La modelación requiere que
la serie sea estacionaria
Requieren de conocimientos en
Estadística e interacción con el
usuario en la modelación
Redes Neuronales (MLP)
Modelo no lineal: más
grados de libertad para el
modelo
No impone requisitos
estadísticos a la serie de
tiempo a analizar
Requieren menor
interacción con el usuario
El modelo entrega conocimiento
e información en sus parámetros
Difícil lectura del modelo
(caja negra)
Bajo peligro de sobreajustar
el modelo
Fácil de sobreajustar el
modelo a los datos
Desempeño del pronóstico: medidas de error
Error Porcentual (Error porcentual absoluto medio)
1
N
∑
k
( y (k ) − yˆ (k ))
y (k )
Error Normalizado (Error cuadrático medio normalizado)
2
ˆ
(
(
)
−
(
))
y
k
y
k
∑
1
= 2
2
∑ ( y(k ) − y (k )) σ N
k
k
2
ˆ
(
(
)
−
(
))
y
k
y
k
∑
k
0
100595
Aplicación a PLU 100595
(Aceite Vegetal 1 Lt.)
400
300
200
100
N
O
M
56 E
TU
53 ED
W
50 U
TH
47 RI
F
44 A T
S
41 N
SU
39 ON
M
36 E
TU
33 ED
W
30 U
TH
27 RI
F
24 A T
S
21 N
SU
19 ON
M
16 E
TU
13 ED
W
10 U
TH
7 I
FR
T
SA
4
1
Date
Modelos Tradicionales y MLP
100595
ARIMA
Ingenuo
Ingenuo Estacional
Media Incondicional
100595
MLPtw21
MLPtw14
MLPtw7
MLPtw6
MLPtw5
MLPtw3
MLPtw1
MLPtw0
Conjunto de Entrenamiento
Error Porcentual Error Normalizado
36.21%
0.3301
44.28%
0.6972
64.67%
1.2212
59.98%
0.7759
Conjunto de Testeo
Error Porcentual Error Normalizado
40.49%
0.6090
56.83%
1.2481
45.75%
1.9217
48.54%
0.9689
Conjunto de Entrenamiento
Error Porcentual Error Normalizado
32.93%
0.4633
31.15%
0.3115
30.00%
0.3092
32.45%
0.3761
30.26%
0.3526
29.61%
0.3002
30.00%
0.3405
34.12%
0.4760
Conjunto de Testeo
Error Porcentual Error Normalizado
31.85%
0.4973
34.64%
0.5703
35.44%
0.5490
33.53%
0.5112
35.61%
0.5540
34.36%
0.5281
35.31%
0.5340
31.80%
0.6244
En Resumen...
Se realizaron pruebas con otros cinco productos, y se
obtuvo que:
•ARIMA mejora los pronósticos obtenidos por métodos
ingenuos
•Generalmente se obtienen mejores resultados con
Redes Neuronales (RN) que con ARIMA
•ARIMA entrega un modelo comprensible y buenos
resultados, pero con costos no despreciables
(requerimientos estadísticos, y de conocimientos del
usuario)
•RN obtienen los mejores resultados de forma más
automática, pero con modelo tipo “black box”
Sistema de Reposición Periódica
•Reposición cada P días, con tiempo de entrega de L días.
INVENTARIO OBJETIVO T
T=m’+zσ
•Con:
•m’: demanda promedio durante P+L días (del sistema de
pronóstico)
•Z σ: stock de seguridad (nivel de servicio*desviación
ventas)
Reposición de Inventarios
N ivel de I nv entari o Di ario PL U 100 595
8 00
7 00
6 00
Un id ade s
5 00
4 00
3 00
2 00
1 00
2 4/07 /0 1
1 0/07 /0 1
26/06 /0 1
12/06 /0 1
29/0 5/01
15 /05/01
01 /05/01
17 /04/01
0 3/04/01
2 0/03/0 1
0 6/03 /0 1
2 0/02 /0 1
06/02 /01
23/0 1/01
09/0 1/01
26/1 2/00
12 /12/00
28 /11/00
1 4/11/00
3 1/10/00
1 7/10/0 0
0 3/10 /0 0
19/09 /0 0
0
Días
N i ve l d e Inv entari o
Inv entario Obj eti vo
Quiebres de venta: 1% con 5 días de alcance en inventario
(Antes: 6% de quiebre con 30 días de alcance)
Aburto, L., Weber, R. (2006): Improved Supply Chain Management based on
Hybrid Demand Forecasts. Applied Soft Computing, Elsevier, in press
Redes neuronales:
Self-organizing feature maps de Kohonen
Kohonenmap
Kohonen feature
map
Aplicación:
Clustering
weight w
e1
e2 input vectors
3
1
2
N
.......
w1,1 w1,2 w1,M wN,1
wN,2 wN,M
.......
1
x1
Herramienta: DataEngine
x2
xM
2
M
Web Intelligence in a bank
www.tbanc.cl: first Chilean virtual bank
Written in Spanish.
217 static web pages.
Approximately eight million web log registers from the period January to
March, 2003.
Visitor browsing behavior
¿?
Visitor Behavior - Basic statistics
Only 16% of the visitors visit 10 or more pages and 18% less than 4.
The average number of visited pages is 6.
Finally, applying various filters, approximately 400,000 vectors were
identified.
Visitor browsing behavior
Three variables are considered: the web page path, its content and the
time spent when it is visited by a visitor.
The visitor behavior vector is defined and a similarity measure
between visitor session is introduced.
r
v = [( p1 , t1 )...( p n , t n )]
Where( pi , ti ) is a component that represents the
page content,
th
its path and percentage of time spent in the i page visited.
The vector maintains the page visit order.
Comparing browsing behavior
Then the similarity measure is:
L
r r
t kα t kβ
h
h 1
c
c
sm(α , β ) = dG ( pα , pβ ) L ∑ min( t β , t α )dp ( pα ,k , pβ ,k )
k =1
where
t kα
t kβ
k
k
min( t β , t α )
dp ( pαc ,k , pβc ,k )
k
k
is an indicator of visitor interest
is the page distance
and dG is a “graph distance”, i.e., how similar are the paths between two
sessions and dP is a “page distance” between the content of the visited
pages.
Vector space model
sw: special words array
swi
M = (mij ) = f ij (1 +
) * log( nQi )
TR
TR: Total special words
pi → (m1i ,..., mRi )
p j → (m1 j ,..., mRj )
R
dp ( pi , p j ) = cos θ =
∑ mki mkj
pi
k =1
R
∑
k =1
R
( mki )
2
∑
k =1
( mkj ) 2
θ
pj
Comparing sequences
S1= (1,2,6,5,8)
1
The sequence of a navigation can be
represented by a graph. Each
page is identified by an
identification number.
4
2
3
5
6
S2=(1,3,6,7)
7
8
G1 = {1 → 2,2 → 6,2 → 5,5 → 8}
G2 = {1 → 3,3 → 6,3 → 7}
E (G1 ) = {1,2,6,5,8}
E (G2 ) = {1,3,6,7}
dG (G1 , G2 ) = 2 ||||EE ((GG11 ))I+ EE ((GG22 )||)||
We need to know how similar or different
are both sequences!!
Applying neural networks for clustering
For example, Self Organizing Feature Maps.
Schematically, a SOFM is presented as a two-dimensional array in whose positions
the neurons are located.
Each neuron is constituted by an n-dimensional vector, whose components are the
synaptic weights.
The notion of neighborhood among the neurons provides diverse topologies.
In this case a thoroidal topology was used, which means that the neurons closest to
the ones of the superior edge, are located in the inferior and lateral edges.
Results by Neural Network
Neurons winner
frecuency
5
4
3
2
1
0
0
5
10
15
Neurons 20
25
axe ii
30
Neurons axis
0
5
25 30
20
10 15
Neurons
axe j
Neurons axis j
Results from Business point-of-view
Web site recommendations
Offline.
→Structure. Changes in the internal (in the same site) and external
(outside the site) links.
→Content. Mainly words to improve usefulness of the page for the visitor.
Online.
→Principally about the pages that the visitor would be interested in
visiting.
Conclusions
Based on our results we propose changes on the web site, e.g.:
→Direct links from cluster 2 to cluster 4 (as can be seen, both are
interested in Remote Services)
→Improved links inside each cluster
Future work: analysis of effectiveness of changes by e.g.:
→Increased average number of clicks in visitor sessions
→Increased total time a visitor spends on the web site
→Increased revenue.
Common Research with
The University of Tokyo
Velásquez, J. D., Yasuda, H., Aoki, T., Weber, R.,
(2003): Using the KDD Process to Support Web
Site Reconfigurations. The 2003 IEEE/WIC
International Conference on Web Intelligence,
October 13-16, 2003, Halifax, Canada, 511-515
Velásquez, J. D., Yasuda, H., Aoki, T., Weber, R.
(2004): A new similarity measure to understand the
visitor behavior in a web site. IEICE Transactions
on Information and Systems, Vol. E87-D, No. 2,
February, 389-396
Herramientas de Data Mining
Clementine
Darwin
DataEngine
Decisionhouse
IBM Intelligent Miner
KnowledgeSEEKER
SAS Enterprise Miner
.... .... ....
Más información: www.kdnuggets.com
Experiencias 1/2
•Tiempo
→ proyectos
necesitan más tiempo que estimado
•Calidad de los datos
– muy importante para lograr resultados válidos
•Cantidad de datos
– en general hay muchos datos disponible pero no siempre
para apoyar la toma de decisiones
(base de datos transaccional / bodegas de datos)
Experiencias 2/2
•“Mentor” del proyecto
→ Mentor
con alta posición en la jerarquía (proyectos de data
mining necesitan apoyo de varios expertos)
•Demostración del beneficio
– Fácil en el área de ventas / Difícil en segmentación de
mercados (por ejemplo)
•Mantenimiento del sistema instalado
Desarrollos Futuros
Data Mining Dinámico
Descripción de objetos:
valores actuales - trayectorias
Estructura de clases:
fija - variable con el tiempo
Conjunto de atributos:
fijo - variable con el tiempo
Call for Papers
Applied Soft Computing
(www.elsevier.com/locate/asoc)
Special Issue on
Soft Computing for Dynamic Data Mining
Data Mining Dinámico
Descripción de objetos: valores actuales - trayectorias
Atributo 2
Atributo 2
Atributo 1
Situación estática
Atributo 1
Situación dinámica
Joentgen, A., Mikenina, L., Weber, R., Zimmermann, H.-J. (1999): Dynamic Fuzzy Data Analysis Based on
Similarity Between Functions. Fuzzy Sets and Systems 105, No. 1, 81-90
Data Mining Dinámico
Estructura de clases:
Atributo 2
Atributo 1
Situación en tiempo t
fija - variable con el tiempo
Atributo 2
Atributo 1
Situación en tiempo t+1
Crespo, F., Weber, R. (2005): A Methodology for Dynamic Data Mining based on Fuzzy Clustering.
Fuzzy Sets and Systems 150, No. 2, 267-284
Conclusiones y Perspectivas
Combinaciones posibles con otras tecnologías:
Internet
Agentes
Web Mining
Data
Warehouse
Otros formatos
(Imágenes, Sonidos, ...)
Data Mining
Gestión de Conocimiento
(Knowledge Management)
Conclusiones y Perspectivas
Crecimiento de datos disponibles
Altos beneficios de data mining en empresas
Necesidades:
Conocimiento de los métodos
Uso de herramientas estándar
Experiencia con aplicaciones
Más información
Portal de “Knowledge Discovery”:
www.kdnuggets.com
Portal de Inteligencia de Negocios:
www.businessintelligence.com