前回,「大学の学部/学科名が短いほど偏差値は高いのか」という検証記事を書いたところ,こちらが割と好評で1000PVに達しました。まだ読んでない方は是非ご覧ください。
この記事に関してツイッターで「これって学術ジャーナルの名前の長さとジャーナルのスコア(impact factorとか)にも当てはまるんじゃね?」という旨のコメントを頂きました。
確かに,NatureやScienceなどを筆頭に短い名前のジャーナルはスコアが高い一方で,最近できたばかりのスコアの低い雑誌は長いタイトルのものが多い気がします。
今回はこのアイデアをお借りして,「ジャーナル名の長さとスコアの関係」をジャーナルの分野を考慮に入れながら検証していこうと思います。
検証データ
検証のデータとして,SCImago Journal Rank (SJR)というスコアを用います。こちらのスコア,なんとウェブから全ジャーナル分のデータがcsvで取得可能となっています(嬉しい)。
本当はジャーナルのスコアとして最も有名なimpact factorを用いたかったのですが,データが手に入りませんでした。ただ,今回用いるSJRは,指標として欠陥の多いimpact factorの代替指標として作成されたものらしいので,良しとします。
データの前処理
分野ごとにスコアの分布やジャーナル名の長さの傾向が異なる可能性があるので,ちゃんと分野の変数を作りました。前処理は以下のステップです:
- ジャーナルのTypeを"journal"のみに指定
- 生データから,学会proceedingsや本シリーズ?など純粋なjournalではないものを除去
- ジャーナルの分野を表す変数(文字列)が汚いので綺麗にする
- あるジャーナルが複数の分野に当てはまる場合,分野を表す変数には"Chamistry; Mechanical Engineering"みたいな感じで入っているので,文字列を分解する
- 1つのジャーナルが2つの分野に属してる場合,2つの別のジャーナルとして扱う
- ジャーナルのタイトルの単語数をカウントし,それをジャーナル名の長さとする
- コロンやカンマなどの単語はカウントしない
加工したデータからランダムに100ジャーナル抽出したのがこちらです。
Title | Categories | SJR | num_words | Country | SJR Best Quartile |
---|---|---|---|---|---|
Professions and Professionalism | Education | 331 | 3 | Norway | Q3 |
Magyar Sebeszet | Medicine (miscellaneous) | 105 | 2 | Hungary | Q4 |
Papers on Global Change IGBP | Geophysics | 105 | 5 | Germany | Q4 |
Pharmacogenetics and Genomics | Genetics (clinical) | 808 | 3 | United States | Q3 |
Trends in Ecology and Evolution | Ecology, Evolution, Behavior and Systematics | 7816 | 5 | Netherlands | Q1 |
最後の変数であるSJR Best Quartileは,スコア(SJR)の四分位点です。つまり,全てのジャーナルを,スコア(SJR)が高い→低い順に並べた時に,最初の25%がQ1, 次の25%がQ2といった感じです。
分野別のジャーナル数
完成したデータは全部で,55160ジャーナル,分野は309種類です。分野別にジャーナルの数を見ると,圧倒的に医学系[Medicine(miscellaneous)]のジャーナルが多いことがわかります(下図)。
全部の分野に目を通すのも大変なので,ここからは最もジャーナル数の多い Medicine(miscellaneous) のみに着目して,ジャーナル名の長さとスコアの関係を見ていきます。
医学系ジャーナルでの検証
回帰分析と差の検定の2種類の分析を行ってみます。
回帰分析
Medicineのジャーナルのみを用いて,「ジャーナル名の単語数」と「対数化したスコア(SJR)」間の相関係数を計算し,単回帰分析を行いました。スコアは分布が偏っていたので,対数化しました。
結果は下の図です。相関係数と回帰係数から,負の関連が認められます。また,回帰係数から「ジャーナル名の単語数が1つ増えると,スコアが5.9%低い」と解釈できます。(対数化すると,回帰係数が変化率と解釈できるため)
スコアクラス間の平均単語数の比較
次に,スコアのクラスを表すSJR Best Quartileを用いて,4つのクラス(Q1~Q4)間のジャーナル名の単語数の平均値の差を見ていきます(Bonferroni補正によるウィルコクソン順位和検定)。結果は以下の通りです。
Q1(超良い)とQ4(超悪い)に注目すると,その差は1.37なので,「とてもスコアの高いジャーナルは,とてもスコアの低いジャーナルに比べて,ジャーナル名が平均で1.37単語少ない」と解釈できます。
終わりに
医学系ジャーナルにおける,ジャーナル名とジャーナルのスコアの関係について統計的に調べました。結果としては,「ジャーナル名が長いほど,ジャーナルのスコアが低い」という関連を確認することができました。
ジャーナルの名前が長いほど,研究分野がより細かくなり,その分引用されづらくなり,結果としてジャーナルのスコアが低くなるということが推測できます。
今回は医学系だけ用いたのですが,データが簡単に手に入るので,皆さんも他の分野で検証してみてはいかがでしょうか。
Rのコード (生データの前処理)
library(dplyr) library(stringr) library(tidyr) library(magrittr) data <- read_csv("scimagojr 2018.csv") # Pick up only "Journal" data %<>% filter(Type == "journal", !is.na(SJR)) # Break Category variable into several variables data %<>% mutate(Categories = str_split(Categories, "; ")) %>% unnest(Categories) %>% mutate(Categories = str_remove_all(Categories, " \\(Q\\d\\)")) # Count number of character in title stop_words <- c(",", "-", ":", "/", "\\[") data %>% mutate(word = str_split(Title, " ")) %>% unnest(word) %>% filter(!(word %in% stop_words)) %>% group_by(Title, Categories, SJR, `SJR Best Quartile`, Country) %>% summarise(num_words = n()) %>% ungroup() %>% arrange(Categories) %>% select(Title, Categories, SJR, num_words, Country, `SJR Best Quartile`) -> SJR_data