后缀数组 - 扫盲篇

一、后缀的定义

后缀数组,做为后缀树的替代品,可以解决很多棘手的字符串处理问题。

长度为n的String[0, 1...n-1]

定义后缀Suffix(i)=sub_string[i...n-1]。

例如字符串aabaaaab,Suffix[1] = abaaaab,Suffix[7]=b。

考虑到空间问题,以及C系列语言中,Suffix[i]非常好求得(&str[i]即可)。一般不会保存Suffix[i]这个数组。

二、后缀数组sa和逆运算数组ran[......]

继续阅读

蓄水池算法

问题描述

要求从N个元素中随机的抽取k个元素,其中N无法确定(N是个流,可能无穷大)。

这种应用的场景一般是数据流的情况下,由于数据只能被读取一次,而且数据量很大,并不能全部保存,因此数据量N是无法在抽样开始时确定的;但又要保持随机性,于是有了这个问题。所以搜索网站有时候会问这样的问题。

这里的核心问题就是“随机”,怎么才能是随机的抽取元素呢?我们设想,买彩票的时候,由于所有彩票的中奖概率都是一样的,所以我们才是“随机的”买彩票。那么要使抽取数据也随机,必须使每一个数据被抽样出[......]

继续阅读

数据结构重读 - 键树、字典树

键树,又称数字查找树(Digital Search Trees)是一棵度>=2的树,每个结点只含有组成关键字的符号。

键树有两种存储结构:

1、树的孩子-兄弟链表来表示键树。

每个Node有三个域:first指向第一棵子树的根指针;next指向右兄弟;info(可选的)记录附加数据。如下图:

查找过程是,从根结点出发,顺着first查找,如果相等,继续下一个first。否则沿着next查找。直到到了空指针为止。此时若仍未完成key的匹配,查找不成功。[......]

继续阅读

数据结构重读 - B树、B-树、B+树、B*树

本文是转载的,《B树、B-树、B+树、B*树》
B树
即二叉搜索树:

1.所有非叶子结点至多拥有两个儿子(Left和Right);

2.所有结点存储一个关键字;

3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树;

如:

B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;

否则,如果查询关键字比结点关键字小,就进入左儿子;如果比结点关键字大,就进入右儿子;如果左儿子或右儿子的指针为空,则报告找不到相应的关键字[......]

继续阅读

数据结构重读 - 平衡二叉树(AVL树)

大二那会根本没蹋下心来看,觉得天书一般,连旋转都没搞明白。

今天仔细看了书,发现真的一点不难啊,鄙视自己……

首先是概念:

平衡二叉树是为了解决前面二叉排序树不均衡的问题,而加入了一种平衡机制。所以,平衡二叉树是一种特殊的二叉排序树(BST)

AVL树查找的平均和最差复杂度都是O(logn) !!!(BST的最坏是O(n))

AVL树的插入复杂度是O(logn)。

平衡二叉树(简称AVL树):对任意一个结点,它的左子树和又子树都是平衡二叉树(左子树都小于结点[......]

继续阅读