JasperCK Coding Lab: 3月 2014

2014年3月31日星期一

[git]本機端與Github連結

git的認證是採用ssh金鑰進行，
要將本機端和Github做連結，得生出一組ssh金鑰才行，
把public key交給Github，private key留本機端，
等兩邊連結時金鑰配對成功，就可進行資料互換，金鑰如何設定，很簡單

Step 1. 先確認本機端是否已存在ssh key
-->打開terminal

cd ~/.ssh
ls -al
# 將.ssh資料夾內所有檔案列出來(含屬性與隱藏檔)

檢查是否有id_rsa.pub和id_dsa.pub 2個檔案，
理論上沒有，所以現在才要做生金鑰的工作啊（茶，

Step 2. 生金鑰

ssh-keygen -t rsa -C "your_email@example.com"
# 產生一組新的ssh金鑰，並以提供的email做標記

使用default settings所以按Enter繼續

Step 3. 輸入一組passphrase
看個人需求要不要設定，官網是建議設定一組好的passphrase嚕!

Step 4. 產生成功並將金鑰交給ssh-agent保管
出現此訊息代表成功!

接著，將金鑰交給ssh-agent保管，

ssh-add ~/.ssh/id_rsa

Step 5. 複製public key交給Github
打開~/.ssh/id_rsa.pub，不要新增或空格或空行，全選複製，
登入Github，進入account seetings，

左列選SSH keys，
點Add SSH key，進入後新增key title名稱，並在key欄位貼上剛複製過來的public key，
最後點選Add key完成交public key給Github

Step 6.驗證金鑰設定

ssh -T git@github.com
# 遠端至Github

別擔心這訊息，正常現象，type "yes"繼續，

到此代表金鑰成功設定了!

Ref.

Generating SSH Keys

2014年3月30日星期日

[git]Git的使用

設定用戶名，依此類推

git config --global user.name [XXX XXX]

查看git setting

git config --list

查看help

git help

加入追蹤

git add [filename]

刪除檔案(-f 強制刪除)

git rm -f [filename]

保留檔案，僅從staging area移除

git rm --cached [filename]

要開始用Git要先建立一個Repository(簡稱repo)，
有2種方法可以取得repo，一種是將現有的專案導入Git，另一種是從其它伺服器複製(clone)一份已存在的Git儲存庫，
第1種方法，只要切換到專案目錄並執行:

git init

這個命令就會建立名為 .git 的子目錄，這個目錄會包含一個Git儲存庫架構必要的所有檔案，
第2種方法，配合想取得現有的Git repo的網址然後使用 git clone，
(下載某Git repo, NAME可加可不加，是個人是否要更改名稱)

git clone [url] [new folder NAME]

在某個Repository檢查目前 Git 的狀態
-->On branch master: 表示正在名為 master 的 branch 上

git status

查看追蹤中有修改的code
經過git add 變成了 Changes to commit，這個狀態叫做 "stage" ，修改過但還沒使用 git add 的檔案稱為 unstage
git add . 可以一次把修改過或新增加的檔案都丟進stage狀態-->但很容易不小心加入一些不必要的檔案，所以不建議這麼做，手動將要加入的檔案git add丟入stage才是最好的方法!

git diff

把某檔案從staging area改回到unstaging(檔案內容不變)

git reset HEAD [filename]

git commit
#commit時盡量清楚的表達該次commit的內容，以後看才不會霧煞煞，同事或接手的人才不會有如閱讀天書
使用 -m 可不開editor, 快速提交

git -m "message"

git commit -a -m 'commit -message'

修改上一次的 commit 訊息

git commit --amend

查看過去 commit 的紀錄 git log
output所有log

git log

output所有log(較簡潔)

git log --pretty=oneline

git log --pretty=format:"%h : %an : %ar : %s"

最後這 2週的 log

git log --since="2 weeks ago"

output 最後2筆

git log -p -2

整理一下，平常coding和用git的過程
出現修改動機-->修改檔案-->丟進stage( git add )-->提交( git commit )-->繼續...
有些檔案不希望加入版本控制的追蹤，可以將他們加入 .gitignore 中讓 Git 忽略他們
vim .gitignore: 打開 .gitignore
增修設定.gitignore檔(可參考https://github.com/github/gitignore)

Ref.

Git Video Tutorial

好麻煩部落格

2014年3月20日星期四

[C/C++]二維陣列的傳遞

我們都知道，
C語言是以陣列第一個元素的位址當成是陣列的位址(也就是說-->陣列名稱本身就是存放陣列位址的變數)，
在c裡，陣列傳遞是採用傳址呼叫(call by address or call by pointer)，
因為在呼叫函數傳遞參數時,無法將整個陣列傳遞(因為陣列可能很大),因此傳的是陣列開頭的位址，
okay,複習一下參數傳遞的觀念，
分為傳值(call by value)、傳址(call by address)、傳參考(call by reference)3種，
1.傳值call by value
當函數被呼叫時，將主程式的變數"複製"一份給副函數，主程式的變數跟副程式複製來的變數互相獨立，並且有各自獨立的記憶體空間，
假設main()呼叫函式funcB(p, q)，則funcB中的p和q是把main()傳入的參數「複製」一份，
funcB()對p, q所做的任何運算都不會影響到main()中的p和q，因為funcB()執行完後，不會把複製的p, q丟回給main()。
寫成code:

void swap( int i, int j );
int main()
{
 int i=5, j=10;
 printf("before swap:i=%d(add=%p) j=%d(add=%p)\n",i,&i,j,&j);
 printf("swap()work\n");
 swap(i,j);
 printf("i j in main():i=%d(add=%p) j=%d(add=%p)\n",i,&i,j,&j);
 return 0;
}

void swap( int i, int j )
{
 int temp;
 temp = i;
 i = j;
 j = temp;
 printf("i j in swap():i=%d(add=%p) j=%d(add=%p)\n",i,&i,j,&j);
}

可以看到output中，main()和swap()裡的i和j是獨立的(記憶體位址也不同)，
而經過swap進行變數互換後，也沒影響到main()裡原本的變數值，

當換成傳遞陣列時，可以看到結果不一樣了，

void timesTwo( int arr[] );
int main()
{
 int arr[3]={1,3,5};
 for(int i=0; i<3; i++)
 printf("before swap:arr[%d]=%d(add=%p)\n",i,arr[i],&arr[i]);
 printf("arr[] add=%p\n",arr);
 printf("swap()work\n");
 timesTwo(arr);
 for(int i=0; i<3; i++)
 {
  arr[i] = arr[i]*2;
  printf("arr[] in main():arr[%d]=%d(add=%p)\n",i,arr[i],&arr[i]);
 }
 printf("arr[] add =%p\n",arr);
 return 0;
}

void timesTwo( int arr[] )
{
 for(int i=0; i<3; i++)
 {
  arr[i] = arr[i]*2;
  printf("arr[] in swap():arr[%d]=%d(add=%p)\n",i,arr[i],&arr[i]);
 }
 printf("arr[] add =%p\n",arr);
}

證實了開頭所說，C是以陣列第一個元素的位址當陣列的位址，且採用傳址(call by address)方式，
呼叫副函式timesTwo()後，函數所做的改變，直接改變main()裡array的值，這就是傳址(call by address)，

傳址同樣可以用在一般變數，只要加上pointer即可，這方法可以讓函數直接改變原本變數值，也省去複製的步驟和記憶體空間，

void swap( int *i, int *j );
int main()
{
 int i = 5, j = 10;
 int *pt1 = &i;
 int *pt2 = &j;
 printf("before swap:\ni=%d(add=%p)\tj=%d(add=%p)\npt1=%d(add=%p)\tpt2=%d(add=%p)\n\n",i,&i,j,&j,*pt1,pt1,*pt2,pt2);
 printf("swap()work\n");
 swap(pt1, pt2);
 printf("i j pt in main():\ni=%d(add=%p)\tj=%d(add=%p)\npt1=%d(add=%p)\tpt2=%d(add=%p)\n\n",i,&i,j,&j,*pt1,pt1,*pt2,pt2);
 return 0;
}

void swap( int *i, int *j )
{
 int temp;
 temp = *i;
 *i = *j;
 *j = temp;
 printf("i j pt in swap():\ni=%d(add=%p)\tj=%d(add=%p)\n\n",*i,i,*j,j);
}

swap()呼叫前後，main()的i j跟swap裡i j用的都是同一塊記憶體，經過swap後，也因此i j直接互換的結果直接改變在main()裡，
這也是為什麼call by address又叫call by pointer，然後本質上他也是call by value的關係了!

當寫到2維陣列(或多維陣列)時，赫然發現事情已經不是如上所想的簡單了，
首先，這樣的陣列傳遞已經無法通過compile了，因為Compiler不知如何翻譯...待會會解釋why，

void timesTwo( int arr[][] );
int main()
{
 int arr2[2][4]={ 1,3,5,7,2,4,6,8 };
 ...
}

如果這樣寫就可以通過compile，但把維度寫死一點都不彈性，未來要傳不同維度array給函數，不就哭了，

void timesTwo( int arr[2][4] ) {};

所以要換成這樣的寫法較佳，

void timesTwo( int arr[][4] ) {};

或這樣，

void timesThree( int (*arr)[4] ) {};

結果都是一樣，並且成功傳給function顯示，

2維陣列的行和列，其實是我們為了清楚理解陣列元素排列而想像出來的，實際上在記憶體配置並非如此，而是以線性模式配置，
不管幾維陣列，都是分配成一塊連續的記憶體空間去處理陣列，
如int arr2[2][4]陣列會分配成2*4*sizeof(int)大小記憶體區塊（如圖），依此類推，

如果要走訪2維陣列的話，要把它對應成一維來處理，
假設陣列int arr2[2][4]={ {1,3,5,7},{2,4,6,8} }，
我們要存取arr2[p][q]的值，從記憶體觀點，我們要從arr2[p]的開頭後走q個單位到達arr2[p][q]．
所以可以如此表示：arr2[p][q]=p*4+q

code可以這樣寫

void arrFour(int *arr, int rol, int col)
{
 for(int i=0 ; i<rol ; i++) {
  for(int j=0 ; j<col ; j++) {
   arr[i*col+j] = arr[i*col+j]*2;
   printf("array[%d][%d] in arrFour()= %d, address=%p\n", i, j, arr[i*col+j], &arr[i*col+j]);
  }
 }
 printf( "address of array arr2 in arrFour()=%p\n", arr );
}

成功更改array每一個元素，可以看到arrFour執行前後，main()和function裡所使用的記憶體位置都是同一塊，改變也直接作用在原本array的value上，
這樣的寫法也增加了使用上的彈性，不用在宣告函數時寫死，
這也解答了為何 void timesTwo( int arr[][] ) 這樣寫無法compile了，因為compile無從計算起位置．

2014年3月14日星期五

[SAS] macro的使用

Macro又名巨集，是非常實用的SAS coding技巧，
當你需要執行某程序，並且反覆執行它時，
最簡單的就是copy-paste..copy-paste..copy-paste..copy-paste這段程序，
ex.
假設手中有2005-2010 4筆資料(a2005 - a2008)，想知道各年中y_05跟x的OR值等統計資訊，

*直覺懶人法;
proc logistic data=a2005;
  model y1(event="1") = x1;
run;
proc logistic data=a2005;
  model y2(event="1") = x2;
run;
proc logistic data=a2006;
  model y1(event="1") = x1;
run;
proc logistic data=a2006;
  model y2(event="1") = x2;
run;
...
...
...
proc logistic data=a2008;
  model y2(event="1") = x2;
run;

但是，我們都知道這是很笨也很沒效率的作法，也不符合優雅coding的理念，
所以macro是有學起來的必要性的，
如果引進macro寫法會變成怎樣呢，

OPTION NOSYMBOLGEN MPRINT;
%MACRO logiMc(year, y_vb, x_vb);
  proc logistic data=a&year;
    model &y_vb(event="1") = &x_vb;
  run;
%MEND logiMc;

%logiMc(2005,y1,x1)
  %logiMc(2005,y2,x2)
    %logiMc(2006,y1,x1)
      %logiMc(2006,y2,x2)
        %logiMc(2007,x1,y1)
          %logiMc(2007,x2,y2)
            %logiMc(2008,x1,y1)
              %logiMc(2008,x2,y2)

MACRO實際改寫出來的logistic程式碼只有4行(%MACRO和%MEND中間包的code)，
原始寫法大約24行左右，節省了20行!
要不要學呢?! 當然看個人: )
其實macro不難，只是多了%和&符號而已，和一些參數設定的概念，
解釋如下：
由&開頭的變項稱為"巨集變項"，
在要重複執行程序以外的指令程序，開頭要加上%，姑且稱作"巨集程序"，

OPTIONS NOSYMBOLGEN MPRINT;      *在log檢視巨集和變數內容;
%MACRO logiMc(year, y_vb, x_vb);  *%MACRO-->宣告巨集的開頭，以及巨集名稱為logiMc，巨集接收3個參數year, y_vb, x_vb;
  proc logistic data=a&year;  *此處往下3行就是要重複執行的程序所在;
    model &y_vb(event="1") = &x_vb;  *由&開頭的巨集變項，會不斷被下方設定的巨集變數組代換，達到重複執行的目的;
  run;
%MEND logiMc;                    *%MEND-->宣告巨集的結尾;

/***巨集會來此處抓取設定好的巨集變數組，在程式區不斷做代換;**/
%logiMc(2005,y1,x1)			
  %logiMc(2005,y2,x2)
    %logiMc(2006,y1,x1)
      %logiMc(2006,y2,x2)
        %logiMc(2007,x1,y1)
          %logiMc(2007,x2,y2)
            %logiMc(2008,x1,y1)
              %logiMc(2008,x2,y2)

了解macro的精神後，就可以自由配合do, while, if-then, cat, 或甚至把多樣程序包到一個macro裡面，
for example:
先利用暫存檔作條件判斷
-->做retain 資料處理
-->再依條件output我要的檔案
//此處無需了解變數是什麼，只需了解怎麼編寫這樣的macro

OPTIONS NOSYMBOLGEN MPRINT; 
%MACRO test(o_y, o_y1, m_flag);
  %IF &m_flag=1 %THEN %DO;
    DATA WORK.in7; set WORK.in6;
        if season=&o_y & mdy(12,1,&o_y) <= indate < mdy(2,28,&o_y1) then output;
      run;

    DATA WORK.in8; set WORK.in7;
      by id;
        retain flu&o_y 0;
        flu&o_y = flu&o_y+1;
        if first.id then flu&o_y = 1;
    run;

    DATA in&o_y; set WORK.in8;
      by id;
        if last.id then output;
        keep id flu&o_y;
    run;
%END;
%MEND subset;
  %subset(2004,2005,1)
    %subset(2005,2006,1)
      %subset(2006,2007,1)

這邊會發現我多加了一條"%IF &m_flag=1 %THEN %DO;"和一個新參數"m_flag"，
其實他的用意很簡單，就是"開關"的功用，
利用"如果m_flag=1(打開)就執行此組巨集變數"的概念，可以快速開關某組變數要不要跑巨集，
//進階寫法
當變數太多時，可能碰到設定巨集變數組麻煩的情況，
這時候可以配合do來達到更簡潔的寫法，
ex.

*記得，巨集語法開頭要加%;
%MACRO box( xStart, xEnd );
  %do xValue = &xStart %to &xEnd;
    proc surveylogistic data=aa;
      model y = &xValue * &xValue;
    run;
  %end;
%MEND box;
%box( 1, 16 )

Like this ! 歡迎提供補充和建議! : )

訂閱：意見 (Atom)

2014年3月31日 星期一