电商新媒体与智库平台
当前位置:100EC>互联网研究>电商书籍推荐:《大数据架构和算法实现之路:电商系统的技术实战》
电商书籍推荐:《大数据架构和算法实现之路:电商系统的技术实战》
发布时间:2017年08月11日 10:40:14

(电子商务研究中心讯)

大数据架构和算法实现之路:电商系统的技术实战  》

  作者简介

  机器学习和大数据挖掘领域的技术专家和管理者。在上海交通大学获得计算机科学与工程博士学位,先后在微软亚洲研究院,eBay中国研发中心,1号店和飞牛网工作。“微软学者奖”获得者,IBM中国首届“ExtremeBlue天才孵化计划”成员。有超过10年的学术创新和实际研发的经验,成功孵化了10多项关键算法,发表了20多篇国际学术论文,拥有10多项国际专利及申请。目前是《计算机工程》杂志的特邀审稿专家,参与撰写的互联网图书《玩转电商》已经于2014年出版。

  目  录

  推荐序

  前言

  引子1

  第一篇支持高效的运营

  第1章方案设计和技术选型:分类5

  1.1分类的基本概念6

  1.2分类任务的处理流程7

  1.3算法:朴素贝叶斯和K最近邻8

  1.3.1朴素贝叶斯8

  1.3.2K最近邻9

  1.4分类效果评估10

  1.5相关软件:R和Mahout 12

  1.5.1R简介12

  1.5.2Mahout简介13

  1.5.3Hadoop简介14

  1.6案例实践17

  1.6.1实验环境设置17

  1.6.2中文分词18

  1.6.3使用R进行朴素贝叶斯分类22

  1.6.4使用R进行K最近邻分类37

  1.6.5单机环境使用Mahout运行朴素贝叶斯分类39

  1.6.6多机环境使用Mahout运行朴素贝叶斯分类47

  1.7更多的思考58

  第2章方案设计和技术选型:聚类60

  2.1聚类的基本概念60

  2.2算法:K均值和层次型聚类61

  2.2.1K均值聚类61

  2.2.2层次型聚类62

  2.3聚类的效果评估64

  2.4案例实践66

  2.4.1使用R进行K均值聚类66

  2.4.2使用Mahout进行K均值聚类69

  第3章方案设计和技术选型:因变量连续的回归分析74

  3.1线性回归的基本概念74

  3.2案例实践76

  3.2.1实验环境设置76

  3.2.2R中数据的标准化78

  3.2.3使用R的线性回归分析81

  第二篇为顾客发现喜欢的商品:

  基础篇

  第4章方案设计和技术选型:搜索94

  4.1搜索引擎的基本概念94

  4.1.1相关性95

  4.1.2及时性97

  4.2搜索引擎的评估100

  4.3为什么不是数据库103

  4.4系统框架104

  4.4.1离线预处理104

  4.4.2在线查询107

  4.5常见的搜索引擎实现108

  4.5.1Lucene简介108

  4.5.2Solr简介113

  4.5.3Elasticsearch简介120

  4.6案例实践123

  4.6.1实验环境设置123

  4.6.2基于Solr的实现123

  4.6.3基于Elasticsearch的实现154

  4.6.4统一的搜索API 175

  第三篇为顾客发现喜欢的商品:高级篇

  第5章方案设计和技术选型:NoSQL和搜索的整合195

  5.1问题分析195

  5.2HBase简介196

  5.3结合HBase和搜索引擎203

  5.4案例实践204

  5.4.1实验环境设置204

  5.4.2HBase的部署205

  5.4.3HBase和搜索引擎的集成211

  第6章方案设计和技术选型:查询分类和搜索的整合219

  6.1问题分析219

  6.2结合分类器和搜索引擎219

  6.3案例实践225

  6.3.1实验环境设置225

  6.3.2构建查询分类器226

  6.3.3定制化的搜索排序229

  6.3.4整合查询分类和定制化排序236

  第7章方案设计和技术选型:个性化搜索245

  7.1问题分析245

  7.2结合用户画像和搜索引擎245

  7.3案例实践249

  7.3.1用户画像的读取250

  7.3.2个性化搜索引擎253

  7.3.3结果对比260

  第8章方案设计和技术选型:搜索分片267

  8.1问题分析267

  8.2利用搜索的分片机制269

  8.3案例实践271

  8.3.1Solr路由的实现271

  8.3.2Elasticsearch路由的实现278

  第9章方案设计和技术选型:搜索提示283

  9.1问题分析283

  9.2案例实践:基础方案284

  9.2.1Solr搜索建议和拼写纠错的实现284

  9.2.2Elasticsearch搜索建议和拼写纠错的实现286

  9.3改进方案291

  9.4案例实践:改进方案294

  第10章方案设计和技术选型:推荐303

  10.1推荐系统的基本概念305

  10.2推荐的核心要素306

  10.2.1系统角色306

  10.2.2相似度307

  10.2.3相似度传播框架307

  10.3推荐系统的分类307

  10.4混合模型311

  10.5系统架构312

  10.6Mahout中的推荐算法313

  10.7电商常见的推荐系统方案314

  10.7.1电商常见的推荐系统方案314

  10.7.2相似度的计算317

  10.7.3协同过滤319

  10.7.4结果的查询320

  10.8案例实践321

  10.8.1基于内容特征的推荐321

  10.8.2基于行为特征的推荐341

  第四篇获取数据,跟踪效果

  第11章方案设计和技术选型:行为跟踪369

  11.1基本概念370

  11.1.1网站的核心框架370

  11.1.2行为数据的类型371

  11.1.3行为数据的模式372

  11.1.4设计理念374

  11.2使用谷歌分析375

  11.3自行设计之Flume、HDFS和Hive的整合378

  11.3.1数据的收集——Flume简介378

  11.3.2数据的存储——Hadoop HDFS回顾382

  11.3.3批量数据分析——Hive简介383

  11.3.4Flume、HDFS和Hive的整合方案386

  11.4自行设计之Flume、Kafka和Storm的整合386

  11.4.1实时性数据分析之Kafka简介386

  11.4.2实时性数据分析之Storm简介388

  11.4.3Flume、Kafka和Storm的整合方案390

  11.5案例实践391

  11.5.1数据模式的设计392

  11.5.2实验环境设置392

  11.5.3谷歌分析实战394

  11.5.4自主设计实战之Flume、HDFS和Hive的整合401

  11.5.5自主设计实战之Flume、Kafka和Storm的整合410

  11.6更多的思考424

  后记425

  中国电商图书馆围绕电商、互联网金融、O2O三大主题,不定期发布最新最热的各类电商书籍:包括移动电商、网络零售、网络支付、P2P、众筹、淘宝网店、物流仓储、电商营销等,为读者购买电商类图书提供专业的推荐与参考,是全国最大的电商图书入口平台。    

  中国电子商务研究中心“互联网+”智库系列丛书已出版《互联网+:跨界与融合》、《互联网+:产业风口》、《互联网+:普惠金融》、《互联网+:海外案例》、《Uber:开启“共享经济”时代》。中心本着“开放共赢”的理念,欢迎各大图书出版商、图书类电商的推荐与合作,敬请关注www.100ec.cn/zt/dsts/。(编选:中国电子商务研究中心)

今年以来,中国电商企业掀起上市第二波热潮,如美团点评、齐家网、宝宝树、拼多多、找钢网、同程艺龙、沪江教育、小狗电器、什么值得买、中粮我买网等都已提交IPO申请。在此背景下,7月10日,国内知名电商智库电子商务研究中心发布了《2017-2018年度中国电商上市公司数据报告》(全文下载:www.100ec.cn/zt/sspjbg)。对电商上市公司财务数据进行分析,电商各领域上市公司包括:(1)B2B电商:生意宝、焦点科技、上海钢联、欧浦智网、慧聪集团、科通芯城、卓尔集团、冠福股份;(2)零售电商:阿里巴巴、京东、唯品会、苏宁易购、寺库、聚美优品、国美零售、南极电商、宝尊电商、御家汇、有赞、优信集团、小米集团。(3)生活服务电商:携程网、途牛、58同城、一嗨租车、无忧英语、前程无忧、搜房网、阿里影业、阿里健康、乐居、平安好医生;(4)跨境电商:跨境通、广博股份、天泽信息、华鼎股份、浔兴股份、山鼎设计、联络互动、新维国际控股、兰亭集势;(5)电商物流:顺丰控股、圆通速递、申通快递、韵达股份、德邦股份、中通快递、百世。

【相关阅读】
股票名称/代码
$/总资产
$/营收
$/净利润
  • 阿里巴巴BABA.US
  • 1092亿
  • 385亿
  • 94.5亿
  • 京东JD.US
  • 282.6亿
  • 557.4亿
  • 7.7亿
  • 唯品会VIPS.US
  • 583.2亿
  • 112.2亿
  • 0.4亿
  • 宝尊电商BZUN.US
  • 4.60亿
  • 6.40亿
  • 0.3亿
  • 聚美优品JMEI.US
  • 7.60亿
  • 8.90亿
  • -0.06亿
  • 寺库SECO.US
  • 3.60亿
  • 5.80亿
  • 0.03亿