黑毛到白毛的攻城獅之路

Software entities (class, modules, functions, etc.) should be open for extension, but closed for modification.
- Bertrand Meyer

Junior programmers create simple solutions to simple problems. Senior programmers create complex solutions to complex problems. Great programmers find simple solutions to complex problems.
- Charles Connell

註1：本部落格的範例程式碼在 2015 年以前的文章中，大多是以全型空白做縮排。如需服用，請自行用文字編輯器的取代功能把全型空白取代成半型空白。
註2：本部落格的內容授權請參閱部落格底部的授權宣告。

顯示具有 Yahoo 標籤的文章。顯示所有文章

2019年7月28日星期日

Vespa 的資料與索引型態

Vespa 裡面支援了許多資料型態（data type），包括 int、long、byte、double、boolean、string、struct（物件）、collection（例如 array、weighted set）等等，可以參考官方文件 [1]，這些資料型態最主要的影響在於存放時所消耗的空間大小。而關於使用時的使用模式，則主要是來自於設定的索引型態（index type）來決定。

索引型態

索引型態主要分為 attribute 和 index 兩種。概略來說，可以直接把它們看成是「存放在記憶體」和「存放在硬碟」的差別。在 Vespa 的設計裡，好像基本上會假定字串以外的型態都放在 attribute 比較好的樣子，因為如果要以資料欄位作為像是排序的依據的話，資料欄位必須要是 attribute index 才行。

attribute

attribute 的欄位都會被存放在記憶體裡，意味著其實如果可以的話，最好不要把長度無法預測的資料欄位設定為 attribute，因為這樣會導致身為稀缺資源的記憶體被大量耗用在存放這些字串。不過實際運作時，因為 OS 會有虛擬記憶體的概念，因此不一定會真的完全保證 attribute 的欄位就一定是被放在記憶體上，如果想要確保這件事，首先就得確保 OS 不會使用到虛擬記憶體。

設定為 attribute 的欄位，就能夠執行以下的這些操作：

grouping
sorting
word-match search
numerical search
prefix search
ranking functions
document summaries
document reference

在對 attribute 的欄位做搜尋的時候，原則上 Vespa 只會做線性搜尋，只是因為搜尋時是對記憶體內的資料做，所以一般狀況下效率不會太差。但當有必要的時候，對 attribute 欄位設定 fast-search 可能是蠻重要的事情，這會讓 Vespa 對該欄位建立 B-tree 索引，就像在 RDBMS 上對欄位建索引一樣。到這裡，某種程度上可以感覺到 Vespa 對這種基本型態的處理其實算是比較粗糙的，效能很大程度是直接依賴「資料放在記憶體上」的這件事。所以如果沒有要做什麼比較複雜的排序或計算之類的話，基本資料的儲存並不是 Vespa 的強項，把資料放在 RDBMS 裡可能可以獲得相差不遠的效率但大幅下降的維運成本。

index

index 的欄位是存放在硬碟中的 [2-3]，代表資料被定義為 index 的話，儲存成本相較於 attribute 會比較低，但同時存取速度也會比較慢。index 欄位只能用在字串上（這又突顯了 Vespa 對於基本型態的處理比較粗糙的事實），除了存放位置以外，index 跟 attribute 最大的不同就是 index 的欄位都會做 normalization 和 tokenization [3]。換言之，index 主要（唯一？）的使用情境是在於做各種字串處理或者字串搜尋。

Search Definition 的定義

在 Search Definition 上定義資料的索引型態時，attribute 和 index 並非是只能設定其中一個，其實可以同時設定兩個，只是同時設定時有個有點有趣的小細節。因為索引型態是透過 pipe 連接起來的，pipe 連接的意思就是會依序執行，所以它的結果會很像是使用 Java 8 的 stream API 那樣。舉例來說，如果我對某個欄位設定 indexing: index | attribute，這表示的是這個欄位的資料會先進行 index，在這個過程中會被 tokenize 等等，接著被 tokenized 的資料再送去 attribute 做索引！換言之，在一般狀況下如果我們想要同時設定 attribute 跟 index，通常我們應該會想設定 indexing: attribute | index，而不太會是反過來放的狀況。同時，當我們設定 indexing: attribute | index 時，Vespa 的搜尋會去搜尋 index 而不會搜尋 attribute [4]。（不過這樣的話那幹麻要支援同時寫 attribute 和 index 呀….？）

參考資料

2019年5月14日星期二

Vespa 的設定檔用途

Yahoo 的 Vespa 大數據系統 [1]，是 Yahoo 開源的系統，主要功能可以想像是 Elasticsearch 的對照。不過在基本使用上，Vespa 跟 Elasticsearch 稍微有點不太一樣的概念。首先 Vespa 包含了整個環境佈署的程序，也就是在討論「設定 Vespa」時，其實是在討論如何在環境中開啟一組 Vespa 的叢集，並且「Vespa 叢集」在 Vespa 的概念當中是被稱為 Application。換言之，在 Vespa 的世界裡，它是假設了我們要先有一整群 IaaS 的伺服器在等待 Vespa 的 Application 被佈署上去，或者說等待將 IaaS 環境中的節點被分配來安裝 Vespa。等到 Vespa Application 成功被佈署了，之後才會開始討論如何操作 Vespa。

要佈署 Vespa 需要指派一些設定檔，簡單紀錄一下其中一些設定檔的用途。其中因為整個 Vespa 佈署的設定除了要定義資料的 schema、叢集的設定以外，還需要 pom.xml 的搭配，所以通常直接開一個 Java 專案專門用來做 Vespa 佈署設定，會比較自然一點點。

Application Package

Application Package [2] 一般指的是 /src/main/application 這個資料夾，資料夾內的東西基本上都是用來指定要如何進行 Vespa 佈署的。

services.xml [3]：叢集的配置檔。命名上感覺是說要在這裡定義要佈署的 Vespa 服務是要用來提供什麼服務的，不過具體而言就是在指定一個 Vespa 叢集，例如要用幾個節點建置叢集、叢集的節點當中哪些節點用來存放哪個資料、資料是否需要 replication 等等的。其中，會需要指定哪個資料放在哪個節點，是因為 Vespa 的佈署包含了 nginx，因此這個設定同時會指派 nginx 做資料的路由。
searchdefinitions/*.sd [4]：定義在 Vespa 當中存放的資料的 schema。schema 的主要用途是告訴 Vespa 該用什麼方法來處理資料，例如該建立什麼樣的索引、該把什麼欄位放在記憶體中等等。

參考資料

2019年4月30日星期二

Athenz 基本運作概念與相關名詞

在 Athenz 權限系統中，有幾個比較重要的基本概念和名詞，簡單記錄一下。不過在那之前，因為 Athenz 的結構幾乎跟 AWS IAM 一樣，所以可以先討論一下 AWS IAM 的運作方式 [1]，再回來看 Athenz 對應的概念。而且其實我覺得 AWS 的文件整體來說寫得比較好 XD。

2019年4月28日星期日

Athenz 的授權流程

Athenz 是 Yahoo 開源的權限系統 [1]，基於 X.509 Certificate 的架構來提供權限認證的功能。運作上跟 AWS IAM 蠻類似的，是以 Role 為基礎，透過指定某個 Role 對某個 Resource 允許或拒絕某些 Action 來達成授權行為。

訂閱：文章 (Atom)

2019年7月28日 星期日

Vespa 的資料與索引型態

索引型態

attribute

index

Search Definition 的定義

參考資料

2019年5月14日 星期二

Vespa 的設定檔用途

Application Package

參考資料

2019年4月30日 星期二

Athenz 基本運作概念與相關名詞

2019年4月28日 星期日

Athenz 的授權流程

2019年7月28日星期日

2019年5月14日星期二

2019年4月30日星期二

2019年4月28日星期日