淺顯的議論網頁搜索排序中的投票板型

  前些天讀了一本《選舉的厄境》,那裡面有一章,從美國的選舉制度提起,紹介美國選舉制度的不充足,而後針對其不充足,提出種種改善,不過每種改善都有其各自的問題,那裡面的變動很有趣兒。

  先說美國選舉制度,美國的總統選舉是一種贏者通吃的形式,每個州依據其人口若乾,有幾十或幾百的州票,州裡的人對總統候選人施行選舉,在某個州取得票最多的那一個候選人,取得這個州全部的州票,而後計數全部候選人的州票若乾,取得最多州票的候選人獲勝。

  這麼制度的問題是顯然的,譬如假如只有兩個州,A州5私人,而B州4私人,州票也作別是5和4,假如某候選人X在A州以3:2獲勝,另一個候選人Y在B州以4:0獲勝,這麼顯然候選人Y在全國范圍內取得了6張票,而候選人X只有在A州的3張票,不過因為贏者通吃,X取得了A周的所有5張州票,Y只取得了B周的4張州票,在全國只有1/3人民大眾支持的X居然取得了選舉的勝利。

  這麼的事情狀況在2000年美國總統選舉中就顯露出來過,小布什的州票領先於戈爾,不過在全國人民大眾中計數支持戈爾的人次卻是大於小布什的,當然戈爾輸給小布什還有另一個端由,這處按下不表。

  假如放在算法領域,可以看出這處的問題在於,為了計數最後結果R(最適應的總統挑選出的人),找到達一個特點標志A(每私人民大眾的投票),而表決最後結果R的,卻不是特點標志A,而是由特點標志A推導出來的特點標志B(州票),在特點標志A向特點標志B的推導過程中,信息遺失了(每個洲的支持百分率不同)。

  贏者通吃這種制度的具體歷史端由先不說,有興致的朋友可以去看原著。解決這種問題的最直接方案就是從贏者通吃成為直選,也就是一人一票,直接計數票數,不過這麼也會碰到一系列問題。

  在談那一系列問題之前,先把要解決的問題抽象一下子:

  有n個候選人,每個選民對這n個候選人投票,最後在n個候選人入選出最合宜、最合乎人民共同的意願、也合乎思維規律的那一個人。

  方案1:一票制,人人一票,選出自個兒最喜歡的候選人,對最後結果施行計數,得票最多的那一個人當選。

  這麼做的問題是會造成筆者定義的一種鷸蚌困難的局面,舉例說,假如有ABC三個候選人,那裡面BC政見比較大致相似,支持B的人也比較支持C,與之相反亦然,在全國人民中,喜歡BC的人居多,A的政見和BC相反,支持A的人在全國人民中佔少量。這麼造成的後果就是,BC取得的票會比較散布,而A取得的票比較集中因此取得勝利,假如BC中有1人不加入選舉,票便會集中到B還是C獨自一個人的手中,因此使大多數選民的支持者當選。面前按下不表的戈爾敗績的另一個端由,就是有人覺得有跟戈爾政見大致相似的耐德的參加,他散布了局部戈爾的選票。

  可以對此問題有所改善的方案叫做二選制。

  方案2:二選制,人人一票,假如無人取得大於50百分之百的支持,則將得票無上的兩個候選人拿出來,再施行一輪選舉,得票多的人獲勝。

  法國總統選舉是這樣的的二選制,但就是這樣辦法只能改善鷸蚌困難的局面,而不可以徹底解決,2002年的法國總統大選就顯露出來了大致相似的事情狀況,當初支持左派政見的人民大眾較多,不過在二選制下,最後的前兩名卻是一個右派和一個極右派。顯露出來這種事情狀況的端由是當年有16個總統候選人,且大多數是持左派政見者,這麼就造成左派的票極度散布。

  方案3:n選制,人人一票,假如無人取得大於50百分之百的支持,則去掉支持最少的候選人,再施行一輪投票,若依然無人取得大於50百分之百的支持,再去掉得票最少的候選人,一直到有人民代表大會於50百分之百支持截止。

  2001年奥委會表決北京為2008年奥林匹克運動會主辦城市的時刻,就是用的這麼的制度,在第1輪投票裡大阪已經過時,北京在第二輪就取得了半數以上的支持,因此當選。

  n選制的問題在於不實用,若是奥委會這種只有幾百私人投票的事情狀況還可以運用,假如大致相似面前法國總統選舉,有16個候選人,舉國上下最多有可能施行15次投票,成本太高。

  方案4:立刻復選制,每私人民大眾對候選人施行排序,假如某個候選人取得了50百分之百以上的首選,則直接取得勝利,否則淘汰票數最低的候選人,況且把票數最低候選人的得票中的第二候選人拿出來,分給對應的候選人,假如有人取得50百分之百以上,則當選,否則再淘汰一位最低的,況且把他票分給裡邊排序無上的且未已經過時的候選人,這麼往復。

  愛爾蘭總統選舉和倫敦市長選舉認為合適而使用的是大致相似的方案,此方案也有問題,試著想想這麼場景:選民共10人,半中腰派候選人是3人的首選,左派和右派的候選人作別是4人的首選,當然左派選民最討人厭右派候選人,而右派選民也最討人厭左派候選人,而左派右派的人民大眾各佔一半中腰派候選人倒是都可以接納,無論是即可復選制仍然n選制,半中腰派候選人都會在第1輪已經過時。而半中腰派候選人則是總和人民大眾都可以接納的人,也最能調和各派之間矛盾,最配合得當。

  這個方案的實質問題是,固然每個選民可以對候選人排序,不過在第1輪的時刻卻只思索問題了第1選,沒有思索問題選民的二、三選。

  方案5:上行復選制,跟方案4大致相似,只然而第1輪淘汰的不是支持最少,而是不贊成最多的候選人(取得最多末選票的候選人)

  再看中面提到的事情狀況,半中腰派候選人因為不是不論什麼人的末選,所以第1輪淘汰的是左派還是右派,再第二輪選舉中,半中腰派的候選人就可以獲勝了。

  方案5也得法案5的問題,思索問題這麼一種事情狀況,只有兩個候選人AB參加評選,選民9人,那裡面6人喜歡A而討人厭B,3人喜歡B而討人厭A,不管依照之前的哪種形式,都會是A獲勝。不過如今又多了兩個候選人C和D,喜歡B的3人壽,都是把A列在最終一個候選的,而喜歡A的6人的末選,卻是BCD各2票,這麼,在第1輪選舉中,A就因為取得了最多的末選票已經過時了,而經過專心的建構例子,足以使B最後當選。僅只因為CD參加評選還是不參加評選,A和B之間的輸贏關系就發生了大局勢惡化。

  實際運用此方案的例子無幾,只有在公元前507年的雅典有大致相似的方案,不是讓人民大眾投支持票,而是投不贊成票,把不贊成最多的人投出局。

  方案6:多賽制,人民大眾對候選人排序,而後候選人之間兩兩pk,計數每一張選票上看候選人A在候選人B面前仍然B在A面前,這麼找到獲勝場次最多的候選人來博得選舉。

  這麼的問題是有可能造成循環輸贏,如ABC三個候選人,有3私人民大眾,投票作別是ABC,BCA,CAB,可以看出AB之間A獲勝兩次,A>B;BC之間B獲勝兩次,B>C,AC之間C獲勝兩次,C>A,這麼就構成了一個A>B>C的循環。這個是不是有些像足球聯賽的記分制啊,假如積分相同,足球競賽中可以再看淨勝球、進球、輸贏關系等,不過筆者並沒有在這個方面施行展開,而是紹介了另一種形式:博達制。

  方案7:博達制,人民大眾對候選人排序,如果有n個候選人,首位的候選人得n分,第二位得n-1分,以資類推,而後計數每個候選人的總分,取得最多分的獲勝。

  有人對博達制的斥責是:有可能有選民會利用這種形式施行作弊(投策略票),最支持B的候選人壓根兒心目中的排序是B>A>C,不過因為相對A,它們仍然更喜歡B,因為這個,為了把B拉上來,就得把A拉下去,它們的投票就成為了B>C>A。博達對此斥責的回答是:我的制度只適合使用於誠實的投票者。

  而這本書的筆者卻覺得博達制的策略票問題沒那末嚴重,假如沒有辦法正確預先推測人民共同的意願和非常准確扼制策略票的投法,可能由於用力氣過猛,不惟把A拉下來了,反倒讓C取得的支持票增加,這麼就要得最支持B的那一些人的策略票反倒要得它們最可惡的C當選了,當年在IMDB上就發生過大致相似一幕:

  電影《蝙蝠俠6》放映後,蝙蝠俠的粉絲們感到這部片太酷了,於是就想把蝙蝠俠6投成IMDB首位,於是它們發瘋的給蝙蝠俠6打高分,而同時,也紛紛的給當初的IMDB第1《教父》投低分,造成的最後結果就是用力氣過猛,教父成為了第三名,原來的第二肖申克的救贖(TSR)成為了第二(原來的第二是排在教父後面,新的第二是排在蝙蝠俠6後面),然後來,隨著發瘋粉絲的殷勤減退,理性的意見佔領了上風,蝙蝠俠6的得分漸漸減退,跌到達第一0。而教父仍然在肖申克的救贖後面,許久沒有回去了。

  博達制是否有其它問題呢?

  以上只是對這本書第一4章的一個筆記,也僅只針對多候選人單官位問題施行了商議,書的後面還會對多候選人多官位的事情狀況接著研究討論,也就是依據每私人對候選人的排序,來表決最後的候選人排序。

  回到搜索引擎網站領域來,如高明的計策略的變遷會給我們一點啟發,先看看之前抽象出來的問題:

  有n個候選人,每個選民對這n個候選人投票,最後在n個候選人入選出最合宜、最合乎人民共同的意願、也合乎思維規律的那一個人。

  這很像搜索引擎網站在解決的問題:

  系統裡有n個網頁,有m個特點標志(頁面品質、頁面內部實質意義浩博度、頁面超鏈、文本有關性等)對n個網頁有不一樣的打分,怎麼樣依據這些個特點標志的投票,選出最適應放在首位的網頁呢?

  從選舉的例子中,我們可以獲得的幾個啟發:

  1. 預設算法時,要防止顯露出來贏者通吃帶來的信息遺失問題。

  2. 不要由於某幾個特點標志優異,就把某個網頁排到最前,還是由於某幾個特點標志尤其差,就把某個網頁遺棄。

  3. 最合宜放在第一位的網頁不盡然是在每個特點標志上都最好,而應當是能夠兼顧全部特點標志,綜合表達最好的那一個。

  4. 搜索引擎網站運用者對搜索最後結果的點擊行徑,可以看成是對搜索最後結果施行的投票,這麼的投票信息的運用形式,也要注意思索問題是否會帶來選舉過程中顯露出來的種種不符合理。

  以上提到的種種選舉方案,僅只是對多候選人單官位的的事情狀況施行商議,而搜索引擎網站面臨的問題,則更大致相似於多候選人排序的事情狀況,也即:

  系統裡有n個網頁,有m個特點標志(頁面品質、頁面內部實質意義浩博度、頁面超鏈、文本有關性等)對n個網頁有不一樣的打分,怎麼樣依據這些個特點標志的投票,表決n個網頁的順著次序?

  而這個多候選人排序問題,是有一個沒可能的人民有參與國事的權利的理論的,該理論的大意是,合理的人民有參與國事的權利應當滿意3個條件:

  1. 假如選民都覺得A比B好,那末最後最後結果應當也是A比B好

  2. 沒有獨自裁斷者,也即,不存在這麼獨自一個人,不管另外的人怎麼排序,最後最後結果的排序都和這私人的排序完全一樣

  3. 無關因素獨立性,也即,在首次投票完成後,A排在B面前,如今施行第二次投票,假如全部人都沒有變更自個兒投票中A和B的相對順著次序,那seo最後最後結果應當也是A在B面前

  而通清點數目學的證實,可以得出論斷:假如某種選舉形式滿意條件1和3,則定然不滿意足2,也即定然存在獨自裁斷者,這個問題的證實,可以參照這篇博客:http://roba.rushcj.com/?p=509

  依據沒可能的人民有參與國事的權利理論,和搜索引擎網站接合起來看,仿佛好象搜索引擎網站很難給出一個合理的網頁排序,不過搜索引擎網站和投票又仿佛好象有所不一樣,有兩個角度可以破解

  1. 覺得條件3過於強,需求弱化。

  2. 或許在網頁排序問題上,實在存在這麼一個獨自裁斷特點標志,這個獨自裁斷特點標志從到現在為止看來,最適應的應當就是用戶滿足度了,依照用戶的滿足程度來排序網頁,就是最合理的網頁排序。怎麼樣權衡用戶滿足度呢?這就是我們一直在盡力盡量的。

  by liangaili