冷热数据的判断主要基于两个标准
在互联网上,许多业务不均匀地访问数据,而是呈现出相对的数据访问倾向(skewed workloads),相对hotspot会出现,所以有必要研究冷热数据。根据数据使用的频率,数据可分为热数据、温度数据和冷数据。热数据是在一段时间内访问的更多数据,它们在下一段时间内访问的可能性也很大。
冷热数据的判断主要基于两个标准:
(1)、访问频率。 也就是说,我们在一段时间内访问的数据越多,我们通常就越把它当作hot data。这个标准很符合我们之前的定义,也很容易理解。
(2)、及时性访问。 也就是说,访问的数据越接近当前时间点,我们也可以在某种程度上将其视为hot data。由于大多数应用程序场景都有局部的时间和空间(特别是在计算机领域),因此接下来访问当前访问数据的可能性相对较大。
以上是基本的判断标准,一些具体的应用算法大多根据上述两个标准划分冷热数据。
请先 登录后发表评论 ~