Minería Datos SQL Server 2012

Views:
 
Category: Entertainment
     
 

Presentation Description

No description available.

Comments

Presentation Transcript

PowerPoint Presentation:

# SQLSat254

PowerPoint Presentation:

Ing. Eduardo Castro, PhD Servidor MVP Microsoft SQL ecastro@simsasys.com http://www.youtube.com/eduardocastrom Comunidad de Windows Costa Rica Minería de Datos con SQL Server 2012 utilizando Excel y PowerPivot

Patrocinadores / Sponsors:

Patrocinadores / Sponsors GOLD SILVER BRONCE Personal/ Swag

Bienvenidos:

Bienvenidos Ing. Eduardo Castro, PhD Eduardo Castro http://ecastrom.blogspot.com @ Edocastro

Canal en YouTube:

Canal en YouTube http:// www.youtube.com / eduardocastrom

Agenda:

Agenda Fundamentos Demostración Recursos

Definiciones:

Definiciones Frase Objetivo "La minería de datos" Toma de decisiones "Machine Learning" Determinar el algoritmo de mejor desempeño

Análisis predictivo:

Análisis predictivo ¿Qué porcentaje de las aplicaciones analíticas utilizará las capacidades predictivas en 2014? a. b. d. c. -Gartner Business Intelligence Summit 2012 10% 30% 67.8% 50%

Análisis predictivo:

Análisis predictivo ¿Qué porcentaje de las aplicaciones analíticas utilizará las capacidades predictivas en 2014? a. b. d. c. -Gartner Business Intelligence Summit 2012 10% 30% 67.8% 50%

¿Por qué el resurgimiento en el análisis predictivo? :

¿Por qué el resurgimiento en el análisis predictivo? 1 . 2 . 4. 3. Más datos, los modelos más precisos. Poder de procesamiento . c ás barato Nuevas tecnologías. El aumento de la concienciación y demanda de los clientes.

¿Qué es el análisis predictivo?:

¿Qué es el análisis predictivo? El análisis de datos con técnicas matemáticas de estadística, minería de datos y aprendizaje automático. Se utiliza para descubrir patrones ocultos, que da una ventaja competitiva.

¿Qué es el análisis predictivo?:

¿Qué es el análisis predictivo? Análisis de diagnóstico El análisis predictivo Análisis prescriptivo Lo que pasó y por qué? Se utiliza para la segmentación de clientes. Diagnosticar con técnicas de agrupamiento o clasificación. ¿Qué pasará en el futuro? Previsión y propensión a comprar. Predecir con series de tiempo, redes neurales, regresión, etc ¿Cuál es la mejor acción a tomar ? Optimización de la cartera. La programación lineal, simulación de Monte Carlo, o la teoría de juegos.

Escenarios comunes de clientes por análisis predictivo:

Escenarios comunes de clientes por análisis predictivo El pronóstico del tiempo Clasificación de crédito Publicidad dirigida Investigación en ciencias de la vida La detección del fraude Predicción de los brotes de enfermedades Análisis de redes sociales El análisis

El análisis predictivo y flujo de trabajo: proceso genérico :

El análisis predictivo y flujo de trabajo: proceso genérico Definir el problema de negocio. 1 Recoger y preparar los datos. 2 Entrenar y modelo de prueba. 3 Implementación del modelo. 4 Supervisar el rendimiento del modelo. 5

El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito:

El análisis predictivo ejemplo de flujo de trabajo : tarjetas de crédito Un banco utiliza un sistema de puntuación de crédito cada día para emitir nuevos préstamos o monitorear el desempeño de los préstamos existentes. Para ser competitivo, el banco necesita para adquirir agresivamente nuevos clientes, pero limitar el riesgo de impago . 1. Problema empresarial 2a) identificar y adquirir datos. Datos de crédito del Banco. Los datos del historial de pago de la oficina de crédito. Los datos demográficos de terceros. 2b), la forma, los datos pre-proceso de limpieza. Hacer frente a los valores extremos y valores perdidos. Preparar las variables continuas y categóricas . 2. Recolección y preparación de datos 3a) Crear modelo de selección. Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. 3b) Entrenamiento y modelo de prueba. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. 3. Desarrollo del modelo 5) Scorecard de Monitoreo Monitorear continuamente el rendimiento del cuadro de mando de los nuevos clientes. Revisar el modelo una vez que comienza bajo rendimiento. 5. Monitoreo 4) Despliegue del Scorecard . Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco. 4. Implementación del modelo

El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito:

El análisis predictivo ejemplo de flujo de trabajo : tarjetas de crédito Un banco utiliza un sistema de puntuación de crédito cada día para emitir nuevos préstamos o monitorear el desempeño de los préstamos existentes. Para ser competitivo, el banco necesita para adquirir agresivamente nuevos clientes, pero limitar el riesgo de impago . 1. Problema empresarial 2a) identificar y adquirir datos. Datos de crédito del Banco. Los datos del historial de pago de la oficina de crédito. Los datos demográficos de terceros. 2b), la forma, los datos pre-proceso de limpieza. Hacer frente a los valores extremos y valores perdidos. Preparar las variables continuas y categóricas . 2. Recolección y preparación de datos 3a) Crear modelo de selección. Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. 3b) Entrenamiento y modelo de prueba. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. 3. Desarrollo del modelo 5) Scorecard de Monitoreo Monitorear continuamente el rendimiento del cuadro de mando de los nuevos clientes. Revisar el modelo una vez que comienza bajo rendimiento. 5. Monitoreo 4) Despliegue del Scorecard . Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco. 4. Implementación del modelo

El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito:

El análisis predictivo ejemplo de flujo de trabajo : tarjetas de crédito Un banco utiliza un sistema de puntuación de crédito cada día para emitir nuevos préstamos o monitorear el desempeño de los préstamos existentes. Para ser competitivo, el banco necesita para adquirir agresivamente nuevos clientes, pero limitar el riesgo de impago . 1. Problema empresarial 2a) identificar y adquirir datos. Datos de crédito del Banco. Los datos del historial de pago de la oficina de crédito. Los datos demográficos de terceros. 2b), la forma, los datos pre-proceso de limpieza. Hacer frente a los valores extremos y valores perdidos. Preparar las variables continuas y categóricas . 2. Recolección y preparación de datos 3a) Crear modelo de selección. Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. 3b) Entrenamiento y modelo de prueba. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. 3. Desarrollo del modelo 5) Scorecard de Monitoreo Monitorear continuamente el rendimiento del cuadro de mando de los nuevos clientes. Revisar el modelo una vez que comienza bajo rendimiento. 5. Monitoreo 4) Despliegue del Scorecard . Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco. 4. Implementación del modelo

El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito:

El análisis predictivo ejemplo de flujo de trabajo : tarjetas de crédito Un banco utiliza un sistema de puntuación de crédito cada día para emitir nuevos préstamos o monitorear el desempeño de los préstamos existentes. Para ser competitivo, el banco necesita para adquirir agresivamente nuevos clientes, pero limitar el riesgo de impago . 1. Problema empresarial 2a) identificar y adquirir datos. Datos de crédito del Banco. Los datos del historial de pago de la oficina de crédito. Los datos demográficos de terceros. 2b), la forma, los datos pre-proceso de limpieza. Hacer frente a los valores extremos y valores perdidos. Preparar las variables continuas y categóricas . 2. Recolección y preparación de datos 3a) Crear modelo de selección. Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. 3b) Entrenamiento y modelo de prueba. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. 3. Desarrollo del modelo 5) Scorecard de Monitoreo Monitorear continuamente el rendimiento del cuadro de mando de los nuevos clientes. Revisar el modelo una vez que comienza bajo rendimiento. 5. Monitoreo 4) Despliegue del Scorecard. Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco. 4. Implementación del modelo

El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito:

El análisis predictivo ejemplo de flujo de trabajo : tarjetas de crédito Un banco utiliza un sistema de puntuación de crédito cada día para emitir nuevos préstamos o monitorear el desempeño de los préstamos existentes. Para ser competitivo, el banco necesita para adquirir agresivamente nuevos clientes, pero limitar el riesgo de impago . 1. Problema empresarial 2a) identificar y adquirir datos. Datos de crédito del Banco. Los datos del historial de pago de la oficina de crédito. Los datos demográficos de terceros. 2b), la forma, los datos pre-proceso de limpieza. Hacer frente a los valores extremos y valores perdidos. Preparar las variables continuas y categóricas . 2. Recolección y preparación de datos 3a) Crear modelo de selección. Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. 3b) Entrenamiento y modelo de prueba. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. 3. Desarrollo del modelo 5) Scorecard de Monitoreo Monitorear continuamente el rendimiento del cuadro de mando de los nuevos clientes. Revisar el modelo una vez que comienza bajo rendimiento. 5. Monitoreo 4) Despliegue del Scorecard. Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco. 4. Implementación del modelo

Herramientas de análisis predictivo de Microsoft:

Herramientas de análisis predictivo de Microsoft Biblioteca de algoritmos de minería de datos para el diagnóstico, análisis predictivo, clustering, series de tiempo, redes neuronales, etc Se puede integrar en el ciclo de vida completo de datos de ETL, cubos OLAP, o KPI en paneles. Programable y extensible a través de DMX. La minería de datos con la conocida herramienta de Microsoft Excel. Simplicidad y facilidad de uso-puede crear potentes modelos predictivos sin conocimientos de minería de datos de profundidad . Herramienta de minería de datos en SQL Server Analysis Services. Minería de datos para Excel.

Solución de problemas empresariales reales con herramientas de análisis predictivo de Microsoft: el problema:

Solución de problemas empresariales reales con herramientas de análisis predictivo de Microsoft: el problema 1 2 Identificar los clientes más probables para el producto X. ¿Qué clientes debemos apuntar a vender el Producto X y por qué? Análisis Ganancia / pérdida: que los clientes perdimos que deberíamos haber ganado? ¿Perdimos los clientes que son muy similares a los que ganamos?

Solución de problemas empresariales reales con herramientas de análisis predictivo de Microsoft: la solución:

Solución de problemas empresariales reales con herramientas de análisis predictivo de Microsoft: la solución Modelos de árboles de decisión y algoritmos Naïve Bayes. Los datos de entrada recogidos de varias fuentes: Almacenes de datos. Estadísticas de los. Utiliza herramientas de minería de datos en SSAS, la minería de datos para Excel y Data Explorer. Los árboles de decisión y Naïve Bayes ofrecen niveles similares de exactitud. Ambos modelos identifican las variables más influyentes para dirigirse a los clientes. 1 La identificación de los clientes más probable para el producto X.

Modelos de orientación al cliente: árboles de decisión:

Modelos de orientación al cliente: árboles de decisión Todo Socio subsegmento no = "'- St% Ufwysjw " Socio subsegmento = "'- St% Ufwysjw " Competidor 4 = 0 Categoría del programa de licencia = "categoría del programa de licencia" Competidor 4 no = 0 Licencia del programa categoría no = licencia " categoría de programas " Licencia del programa categoría no = licencia " categoría de programas Nombre Subsidiario no = "Australia" Nombre vertical no = "Servicios de TI" Competidor 7 no = 1 Categoría del programa de licencia = "categoría del programa de licencia Nombre Subsidiario = "Australia" Nombre Vertical = "Servicios de TI" Competidor 7 = 1 Nombre Subsidiario no = "Australia" Nombre del grupo de socios "grupo 1" = PNB per casquillo del cubo No = "medium" El gasto público en Educación> = 7.483 Nombre Subsidiario = "Australia" Nombre del grupo de socios no "grupo 1" = PNB per casquillo del cubo = "Medium" Educación gasto público <7,483 Tipo no = "infraestructura básica ..." carga de trabajo primaria Tipo de participación socio No = "(sin pareja)" Tipo de participación socio = "(Sin pareja)" Tipo de carga de trabajo primaria = "infraestructura básica ..." Competidor 1 = 0 Competidor 1 no = 0 Educación gasto público <6,225 El gasto público en Educación> = 6.225 Población de 14 0 <20.662 Población de 14 0 > = 20.662 Nombre del grupo de socios "grupo 2" = Nombre del grupo de socios no "grupo 2" =

Modelos de orientación al cliente: resultados:

Modelos de orientación al cliente: resultados Ambos árboles de decisión y Naïve Bayes superan modelo estimación aleatoria. Población total% Población objetivo (sí)% Datos de gráfico de elevación para la estructura de minería de extracción: V Oportunidad Conf. V2. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 20% 30% 40% 50% 60% 70% 80% 90% 100%

Solución # 2: Análisis de victorias / derrotas:

Solución # 2: Análisis de victorias / derrotas Construir modelo de segmentación de clientes con el algoritmo de clustering. Los datos de entrada recogidos de varias fuentes: Almacenes de datos Bases de datos transaccionales Utiliza herramientas de minería de datos en SSAS, la minería de datos para Excel y Data Explorer. Modelo de clústeres identificó nueve segmentos de clientes a partir de los datos. 2 Análisis ganancia / pérdida: que clientes perdimos que deberíamos haber ganado?

Modelo de segmentación del cliente con la agrupación:

Modelo de segmentación del cliente con la agrupación Grupo 8 Grupo 3 Grupo 9 Grupo 6 Grupo 2 Grupo 1 Grupo 7 Grupo 5 Grupo 4 Seis de los grupos presentaron una elevada propensión a comprar (grupos 1, 2, 3, 6, 8, y 9). Modelo mostró segmentos con un perfil similar pero diferentes resultados de compra (por ejemplo, Grupo 3 y Grupo 4). Grupo 3 tiene un 51% de probabilidad de comprar frente a sólo el 16% para el Grupo 4!

Modelo de segmentación del cliente Entender por qué algunos clientes no compran productos X:

Modelo de segmentación del cliente Entender por qué algunos clientes no compran productos X Está claro que la presencia de los socios o competidores influye la propensión del cliente a comprar!

SQL Server Data Mining:

SQL Server Data Mining Servicio, no aplicación SQL Server Análisis Services (SSAS) Múltiples interfaces: SQL Server Data Tools (SSDT) ​​SQL Server Management Studio (SSMS) PowerShell

SQL Analysis Services Algoritmos de minería:

SQL Analysis Services Algoritmos de minería Algoritmos de clasificación Árboles de decisión de Microsoft Microsoft Neural Network Microsoft Naive Bayes Algoritmos de regresión Serie temporal de Microsoft Regresión lineal de Microsoft Microsoft regresión logística Algoritmos de segmentación o agrupación Microsoft Clustering Algoritmos de asociación Microsoft Asociación Algoritmos de análisis de la secuencia Microsoft clústeres de secuencia

Minería de datos para Excel:

Minería de datos para Excel Construido para Office 2010: 32-bit o 64-bit Add-In Requiere Analysis Services SQL Server 2012 Data Mining Enterprise o Inteligencia de Negocios o Revelador

Minería de datos para Excel:

Minería de datos para Excel Minería de datos cliente para Excel Construir, validar y gestionar los modelos de datos Examinar y modelos de minería de datos de consulta Herramientas de tabla de análisis para Excel Lleve a cabo una serie de análisis de mesa No se requieren conocimientos de la minería de datos

PowerPivot para Excel:

PowerPivot para Excel Características Libros de Excel Aprovecha la memoria: Procesamiento rápido Carga los grandes conjuntos de datos (especialmente de 64 bits) Analytics a través DAX Aprovecha los procesadores Multi-Core

PowerPivot http://www.microsoft.com / en-us / bi / powerpivot.aspx :

PowerPivot http://www.microsoft.com / en-us / bi / powerpivot.aspx

Los datos de demostración:

Los datos de demostración Contoso Retail conjunto de datos de demostración http:// www.microsoft.com/en-us/download/details.aspx?id=18279 De Windows Azure Marketplace https://datamarket.azure.com /

DEMOSTRACIÓN:

DEMOSTRACIÓN

Errores comunes en el análisis predictivo:

Errores comunes en el análisis predictivo Sesgo de muestra Exceso de ajuste del modelo Pobre interpretación Tamaño de muestra insuficiente. Muestra de datos representativos. Su modelo puede funcionar muy bien en los datos de entrenamiento, pero mal en nuevos conjuntos de datos! Confundir correlación con causalidad. Precisión y exactitud confuso. La significancia estadística.

Resumen:

Resumen Análisis predictivo Herramientas de minería de datos de Microsoft Demostración La resolución de problemas de negocios reales Herramientas de minería de datos de SQL Server Analysis Services. Minería de datos para Excel. Orientación al cliente con la segmentación y la predicción.

Cómo empezar:

Cómo empezar Excel Data Mining Add-In (gratuito) http://www.microsoft.com/en-us/download/details.aspx?id=29061 PowerPivot (Free ) http:// www.microsoft.com / en-us / bi / powerpivot.aspx Windows 7 http:// windows.microsoft.com/en-US/windows/shop/windows-7 SQL Server 2012 http:// www.microsoft.com / sqlserver / es / es / default.aspx Microsoft Office http://office.microsoft.com/en-us /

Conclusión:

Conclusión SQL Server Analysis Services proporciona la minería de datos de nivel empresarial para Excel 2010 con PowerPivot

PowerPoint Presentation:

GRACIAS!!

authorStream Live Help