ElasticSearch查詢第二篇：文檔更新

發(fā)布時間：2017年03月24日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除

ElasticSearch是性能優(yōu)化的分布式全文搜索引擎，存儲數(shù)據(jù)的載體是文檔（Document），它的優(yōu)勢在于搜索速度快和支持聚合操作，在更新文檔時，基本上能夠達(dá)到實(shí)時搜索。ElasticSearch引擎總是按照文檔標(biāo)識來更新數(shù)據(jù)，并發(fā)控制是通過順序的版本ID（version）實(shí)現(xiàn)的，控制寫-寫、寫-讀沖突，實(shí)現(xiàn)數(shù)據(jù)弱一致性。

在ElasticSearch引擎中，索引定義了文檔的邏輯存儲，索引是由段（Segment）組成的，段不是實(shí)時更新的，這意味著，在建立索引時，一個段寫入磁盤后，就不再被更新。被刪除文檔的信息存儲在一個單獨(dú)的文件中，在搜索數(shù)據(jù)時，ElasticSearch首先從段中查詢，再從查詢結(jié)果中過濾被刪除的文檔，這意味著，段中存儲”未被刪除文檔“的密度降低。多個段可以通過段合并（Segment Merge）操作把“已刪除”的文檔將從段中物理刪除，將未刪除的文檔合并成一個新段，新段中沒有”已刪除文檔“，因此，段合并操作能夠提高索引的查找速度，但段合并是IO密集型的，需要消耗大量的IO操作。

一旦數(shù)據(jù)存儲在倒排索引中，就不能被修改，因此，更新文檔是一項(xiàng)復(fù)雜的任務(wù)。在內(nèi)部，ElasticSearch引擎必須首先獲取文檔(從_source屬性中獲得數(shù)據(jù))，刪除舊的文檔，更新_source屬性，然后重新索引該文檔，使之可被搜索到，就是說，文檔更新的流程，實(shí)際上是先標(biāo)記文檔被刪除，后插入新的文檔，最后將新文檔編入索引。

數(shù)據(jù)的更新，主要是通過_update端點(diǎn)，編寫內(nèi)嵌腳本（inline script）來實(shí)現(xiàn)。默認(rèn)的腳本語言是Groovy，Groovy是內(nèi)置的腳本語言，不需要安裝，默認(rèn)是禁用的，在未啟用動態(tài)腳本的結(jié)點(diǎn)上執(zhí)行腳本更新，ElasticSearch引擎將會拋出異常消息：

scripts of type [inline], operation [update] and lang [groovy] are disabled

要啟用腳本更新，必須修改每個節(jié)點(diǎn)（node）的全局配置文件 config/elasticsearch.yml，添加配置選項(xiàng)：

script.inline: truescript.indexed: true

一，編入索引(Index Data)

索引API用于將一個類型化的JSON結(jié)構(gòu)添加到一個索引中，或者更新索引中的一個文檔，使之能夠被搜索到。

1，使用文檔標(biāo)識編入索引

在把文檔編入索引時，如果在API中顯式提供文檔的標(biāo)識（_id），那么ElasticSearch引擎使用Upsert（更新或增加）方式更新索引，這意味著，如果索引中已經(jīng)存在相同ID的文檔，那么ElasticSearch更新該文檔（實(shí)際上是先刪除，后添加）；如果索引中不存在相同ID的文檔，那么把文檔添加索引中。

PUT host:port/twitter/tweet/1 -d 
{    "user" :
        
		
        		網(wǎng)友評論
     		
				
			
			
			
		
		
		
    	
    	
        	
        		更多精彩分享
        		
        			
        		
        			
	        		
	        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

ElasticSearch查詢 第二篇：文檔更新

網(wǎng)友評論

更多精彩分享

ElasticSearch查詢第二篇：文檔更新