MongoDB 数据建模
一、基本原则:
优先内嵌,其次引用 ---- 主子压缩成1个表
1:1、 1:n 强关联聚合(主子) 子数量不是特别多时直接用内嵌文档
m:n 使用reference ,关联表, 更新等要保证事务性
二、模型例子
1、电商建模: https://blog.csdn.net/wanght89/article/details/77197400
product和分类
{
slug:"wheel-barrow-9092",
sku:"9092",
name:"Extra Large Wheel Barrow",
description:"Heavy duty wheel barrow",
details:{
weight:47,
weight_unite:"1bs",
model_num:40392882,
manufacturer:"Acme",
color:"Green"
},
total_review:4,
average_review:4.5,
pricing:
{
retail:589700,
sale:489700
},
price_history:[
{
retail:529700,
sale:429700,
start:new Date(2010,4,1),
end:new Date(2010,4,8)
},
{
retail:529700,
sale:529700,
start:new Date(2010,4,9),
end:new Date(2010,4,16)
}
],
cateory_ids:[
new ObjectId("59884ee3b53fab2a8024b6ae"),
new ObjectId("59884ee3b53fab2a8024b6af")
],
main_cate_id:new ObjectId("59884ee3b53fab2a8024b6b1"),
tags:["tools","gardening","soil"]
}
order 订单
{
_id:new ObjectId("6a5b1476238d3b4dd5000001"),
user_id:new ObjectId("4a5b1476238d3b4dd5000001"),
state:"CART",
line_items:[{
_id:new ObjectId("4a5b1472134d3b4dd5000921"),
sku:"9092",
name:"Extra Large Wheel Barrow",
quantity:1,
pricing:{
retail:5897,
sale:4897,
}
},
{
_id:new ObjectId("4a5b1472134d3b4dd5000922"),
sku:"10027",
name:"Rubberized Work Glove,Block",
quantity:2,
pricing:{
retail:1499,
sale:1299,
}
}
],
shipping_address:{
street:"588 5th Street",
city:"Brooklyn",
state:"NY",
zip:11215
},
sub_total:6196
}
用户
{
_id:new ObjectId("4a5b1476238d3b4dd5000001"),
email:"kylebanker@gl.com",
first_name:"Kyle",
last_name:"Banker",
hashed_password:"bd1cfa194c3a603e7186780824b04419",
address:[
{ name:"home",
street:"588 5th Street",
city:"Brooklyn",
state:"NY",
zip:10010
},
{
name:"work",
street:"1 E.23rd Street",
city:"New York",
state:"NY",
zip:10010
}
],
payment_methods:[{
name:"VISA",
last_four:2127,
crypted:"43f6baldfda6b8106dc7",
expiration_date:new Date(2014,4)
}
]
}
评论
{
_id:new ObjectId("4c4b1476238d3b4dd5000041"),
product_id:new ObjectId("59884b76b53fab2a8024b6ad"),
date:new Date(2010,5,7),
title:"Amazing",
text:"Has a squeaky wheel,but still a darn good wheel barrow",
rating:4,
user_id:new ObjectId("4a5b1476238d3b4dd5000001"),
user_name:"dgreenthumb",
helpful_votes:3,
voter_ids:[
new ObjectId("59884b76b53fab2a8024b600"),
new ObjectId("59884b76b53fab2a8024b601"),
new ObjectId("59884b76b53fab2a8024b602")
}
}
购物车 = items
2、博客:https://www.qikegu.com/docs/3277
1>user
2>article= comments+ tags + categorys + user
3、社交
关注: m:n 都比较大时,使用单独的关联表
朋友圈: 每个人存储1份url 使用bucket可以控制数组的大小
iot数据采集:可以采用分桶的方式提高性能(每一个小时的聚合到一个文档里,并做好聚合) 异构的优势
4、电影统计
actor
movie = reviews + 。。。
三、书籍和资料
https://www.lagou.com/lgeduarticle/28746.html
设计模式范式
https://cloud.tencent.com/developer/article/1405900
A Complete Methodology of Data Modeling for MongoDB
Advanced Schema Design Patterns, Daniel Coupal
<MongoDB应用设计模式>
四、常见问题,建模范式(访问模式需求,决定架构设计)
1、多态 每个document字段都不同,
适合场景:单一视图、内容管理、移动应用、产品目录
2、属性模式(Attribute Pattern)-- 把固定的列,变成kv的动态列
UserDefinedField https://martinfowler.com/bliki/UserDefinedField.html
动态属性子表或者固定的冗余列(分散到每个单据,集中有个配置的地方)
问题:部分文档有公共的属性,或者只关注部分属性
电影在多个国家有多个发行日期,怎么查询发行日期?
方案:统一到1个数组字段,里面obj是kv的结构
{
title: "Star Wars",
director: "George Lucas",
...
release_US: ISODate("1977-05-20T01:00:00+01:00"),
release_France: ISODate("1977-10-19T01:00:00+01:00"),
release_Italy: ISODate("1977-10-20T01:00:00+01:00"),
release_UK: ISODate("1977-12-27T01:00:00+01:00"),
...
}
{
title: "Star Wars",
director: "George Lucas",
...
releases: [
{
location: "USA",
date: ISODate("1977-05-20T01:00:00+01:00")
},
{
location: "France",
date: ISODate("1977-10-19T01:00:00+01:00")
},
{
location: "Italy",
date: ISODate("1977-10-20T01:00:00+01:00")
},
{
location: "UK",
date: ISODate("1977-12-27T01:00:00+01:00")
},
...
],
...
}
索引:{ "releases.location": 1, "releases.date": 1}
"specs": [
{ k: "volume", v: "500", u: "ml" },
{ k: "volume", v: "12", u: "ounces" }
]
{"specks.k": 1, "specs.v": 1, "specs.u": 1}
3、桶模式 定时分组+预先统计,减少索引带来的内存消耗
{
sensor_id: 12345,
timestamp: ISODate("2019-01-31T10:00:00.000Z"),
temperature: 40
}
{
sensor_id: 12345,
timestamp: ISODate("2019-01-31T10:01:00.000Z"),
temperature: 40
}
{
sensor_id: 12345,
timestamp: ISODate("2019-01-31T10:02:00.000Z"),
temperature: 41
}
{
sensor_id: 12345,
// 每个小时统计1次
start_date: ISODate("2019-01-31T10:00:00.000Z"),
end_date: ISODate("2019-01-31T10:59:59.000Z"),
measurements: [
{
timestamp: ISODate("2019-01-31T10:00:00.000Z"),
temperature: 40
},
{
timestamp: ISODate("2019-01-31T10:01:00.000Z"),
temperature: 40
},
...
{
timestamp: ISODate("2019-01-31T10:42:00.000Z"),
temperature: 42
}
],
transaction_count: 42,
sum_temperature: 2413
}
4、例外模式(Outlier)
问题:突然增长很多数据,比如:影评、书籍畅销榜、社交好友关系
添加个 "has_extras": "true",标记是否有非常多的数组元素,有的话去外部关联
{
"_id": ObjectID("507f191e810c19729de860ea"),
"title": "Harry Potter, the Next Chapter",
"author": "J.K. Rowling",
...,
"customers_purchased": ["user00", "user01", "user02", ..., "user999"],
"has_extras": "true"
}
5、计算模式 Computed Pattern
问题:
总收入、观看人数等聚合运算非常耗费性能,可以在后台计算。
方案:
每个子项目插入或更新时直接计算汇总的结果,同时记录时间戳表示上次更新的时间,适合写少读多
例子:iot时序数据、产品分类、大屏应用(single view applications)
6、The Subset Pattern 缩减内存使用
内存缓存提高性能,但是内存不足时怎么办? 加内存、做shard分片
场景:商品的评论,电影的演员 (大量非热点数据不应该放入内存)
方案:把全部存储到product,变成product存储热数据,comment存储历史数据 (需要join一次)
7、Extended Reference Pattern
场景:需要join多个表,来表达非热点数据
方案:不是纯粹的外键关联,而是把常用的字段直接关联复制进来
缺点:数据重复
8、近似模式 The Approximation Pattern
场景:不需要非常准确(具有统计意义就可以),但是需要足够快。比如一个城市的常驻人口数量。
方案:不是每行数据都进行更新,每100行,或每一段时间更新一次
9、The Tree Pattern 树形结构
关系模型:parent_id 或children(list)
MongoDB:后代同时维护 ancestors:[]和 parent
10、 Preallocation Pattern 预分配
使所有数据的数据结构是一致的,哪怕初始的时候是空的,后面再去填充
例子:电影院/酒店的每日订阅情况,4月的工作日有哪些(结构一致会使得算法简单了很多)
11、Document Versioning Pattern 文档版本 ---- 添加version字段
不仅是读最新数据,也需要读历史的版本信息。
前提:版本个数不多,需要多版本的文档也不多,大部分还是使用最新版本的数据
适合于强监管的行业,比如金融、医疗、法律、保险
场景:保险主体和附属条款
current:
{
version:19,
items:[]
}
history: 所有的历史版本
{
version:1,
items:[]
},
{
version:2,
items:[]
},
简单说:每次修改后,生成新版本,把老版本那一行拷贝到历史库。需要使用历史数据时,从历史库里进行查询
12、The Schema Versioning Pattern 结构多版本
添加 schema_version 字段,表示新的数据库模式,可以实现不强制升迁数据库的情况下,升级程序。或者同时有多个版本的存储结构
customer
{
"_id": "<ObjectId>",
"name": "Anakin Skywalker",
"home": "503-555-0000",
"work": "503-555-0010"
}
{
"_id": "<ObjectId>",
"schema_version": "2",
"name": "Anakin Skywalker (Retired)",
"contact_method": [
{ "work": "503-555-0210" },
{ "mobile": "503-555-0220" },
{ "twitter": "@anakinskywalker" },
{ "skype": "AlwaysWithYou" }
]
}
五、其他
https://blog.csdn.net/Real_Myth/article/details/51781099
设计模式策略
1、节点读写分离
2、事务
db.queue.insert( { _id : 123,
message : { },
locked : false,
tlocked : ISODate(),
try : 0 });
var timerange = date.Now() - TIMECONSTANT;
var doc = db.queue.findAndModify( { $or : [ { locked : false }, { locked : true, tlocked : {
$lt : timerange } } ], { $set : { locked : true, tlocked : date.Now(), $inc : { try : 1 } } }
);
//do some processing
db.queue.update( { _id : 123, try : doc.try }, { } );
3、path存储全路径
4、用嵌套避免join
https://mongoing.com/mongodb-advanced-pattern-design
文档最大16M。一个数组太大会严重影响性能
方法论:
数据量
场景
模型:做合适的内嵌
设计模式识别
树形结构:
1、关联 parent
2、存储children数组
3、关联 parent 和所有祖先
4、带有 编码结构的path
钱和时间的数据类型 https://docs.mongodb.com/manual/tutorial/model-time-data/
数据模型需要处理的问题:
实现 泛化
关联 1、聚合; 参照 2、组合; 主子
相关推荐
RDBMS到MongoDB迁移白皮书 -涵盖了将数据从RDBMS移至MongoDB时的最佳实践和注意事项 MongoDB现代化记分卡 -使用它来确定哪些现有的旧版...完整的数据建模方法 -此演示文稿将指导您完成MongoDB支持的多种数据模型
问答 API入门要让 Node 服务器在本地运行: 克隆这个 repo npm install安装所有必需的依赖项创建 MongoDb 集群并获取连接 MongoDb URI 在./config/env下的config.env设置环境...JWT - 用于将 MongoDB 数据建模和映射
Mongoose是一个MongoDB对象建模工具,旨在满足对建模应用程序数据的更好方法的需求。 它旨在在异步环境中工作,提供了一种简单,直接的对象建模方法,从而跳过了编写MongoDB验证,转换和业务逻辑样板的繁琐任务。 ...
用于将MongoDB数据建模和映射到javascript -node.js的HTTP请求记录器中间件 status-与HTTP状态代码进行交互的实用程序。 对象模式描述语言和JavaScript对象的验证器。 -CORS是一个node.js程序包,用于提供可用于...
它提供了一系列测试题,涵盖了MongoDB的基本概念、数据建模、查询语言、索引优化等方面的内容。通过阅读测试题并解答其中的问题,同学们可以加深对MongoDB的理解,夯实知识基础,并为期末考试做好准备。 其他说明:...
"MongDB数据库操作和面试专题及答案"是一份涵盖MongoDB数据库操作技术和面试准备内容的资源,旨在帮助学习者深入理解MongoDB...5. **数据建模**:了解MongoDB的数据建模方法,包括文档设计、嵌入式文档、引用等技术。
用于将MongoDB数据建模和映射到javascript 用于处理Mongoose中的唯一验证错误。 Mongoose仅在文档级别处理验证,因此集合中的唯一索引将在驱动程序级别引发异常。 mongoose-unique-validator插件通过将错误格式...
用于将MongoDB数据建模和映射到javascript 用于处理Mongoose中的唯一验证错误。 Mongoose仅在文档级别处理验证,因此整个集合中的唯一索引将在驱动程序级别引发异常。 mongoose-unique-validator插件通过将错误...
用于将MongoDB数据建模和映射到javascript 用于处理Mongoose中的唯一验证错误。 Mongoose仅在文档级别处理验证,因此整个集合中的唯一索引将在驱动程序级别引发异常。 mongoose-unique-validator插件可以
用于将MongoDB数据建模和映射到javascript 用于处理Mongoose中的唯一验证错误。 Mongoose仅在文档级别处理验证,因此整个集合中的唯一索引将在驱动程序级别引发异常。 mongoose-unique-validator插件通过将错
模型的论文 "A relational model of data for large shared data banks",这使得数据建模和应用程序编程 更加简单。 通过应用实践证明,关系模型是非常适合于客户服务器编程,远远超出预期的利益,今天它是结构化数 ...
一对多关系建模的三种基础方案 当你设计一个MongoDB数据库结构,你需要先问自己一个在使用关系型数据库时不会考虑的问题:这个关系中集合的大小是什么样的规模?你需要意识到一对很少,一对许多,一对非常多,这些...
API 使用 Mongoose ODM 连接到 MongoDB,以进行原理图应用程序数据建模。 我们将使用来自平台的远程数据库,并使用 Mongoose ODM 连接到该数据库。 使用此 API 处理 CRUD API 将使用标准的 http URL,即。 并且请求...
爬虫和数据分析结合在一起可以帮助我们从互联网上获取数据,并对这些数据进行挖掘、清洗和分析,从而发现有价值的信息或见解... - 可以应用机器学习算法进行数据建模和预测,如分类、聚类、回归分析等。 5. ...... -
僧 简洁的数据建模,操作和验证库。 开箱即用地支持MongoDB。 可以用于任何其他数据库(甚至没有数据库)。安装$ pip安装和尚依存关系Monk已针对以下Python版本进行了测试: CPython 2.6、2.7、3.2、3.5 PyPy 2.0 可...
使用MongoDB和Mongoose创建地图服务器在此代码模式中,我们将使用MongoDB和...特色技术 :一个JavaScript框架,用作MongoDB对象建模工具。 :一个开放源代码JavaScript运行时环境,用于执行服务器端JavaScript代码。 :
mongoDB是一个基于分布式文件存储的数据库,由 C++ 语言编写,旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。它介于关系数据库和非关系数据库之间,被认为是非关系数据库当中功能最丰富,最像关系数据库的...
Mongoose 提供了一种直接的、基于模式的解决方案来建模您的应用程序数据,并包括开箱即用的内置类型转换、验证、查询构建、业务逻辑挂钩等。 使用 cURL 测试 API 如果您想在客户端应用程序中使用 API 之前对其进行...
数据建模工具:内置的数据建模工具可以帮助用户快速创建数据库模型,并支持将模型同步到数据库中。 智能 SQL 编辑器:Navicat 的 SQL 编辑器支持语法高亮、自动完成和代码片段等功能,可以大大提高编写 SQL 语句的...
传统的数据库设计是如何...关系型数据库设计时,实体和实体之间一对多的关系时,此时需要将数据拆分为多张表,然后通过主外键进行联系,如果是实体和实体之间是多对多关系,此时则需要额外建立第三张表。MongoDB 则有所