人気ブログ記事のタイトルの決め方を参考にする

人気ブログの記事の研究とpythonによる形態素解析の勉強を兼ねて、よく読まれている記事のタイトルにどういう単語、キーワードがよく使われているか調べました。
あまり厳密にやっているわけではないので参考までに見ていただければと思います。
調査方法
集計対象
記事が人気かどうかを計るにはページビューを見るのが妥当だと思うのですが、各記事のPVを基準にランキングなどを公表しているサイトは見つけられませんでした。
ということで、私もお世話にはてなブログが公表している「はてなブログランキング」のデータを使うことにしました。
ブクマ数ランキング カテゴリーの記事一覧 - 週刊はてなブログ
はてなブログランキングとは
「はてなブログランキング」とは、はてなブログで公開されている記事をブックマーク数でランキングした順位です。(はてなブログMediaとはてなの公式ブログはランキングの対象外となっているようです。)
毎週更新されており、該当する週に最初のブックマークがついた記事が対象になります。
著者の分かる通常のブログは30位まで、はてな匿名ダイアリーは10位までのランキングが公開されています。
集計範囲
集計した範囲は2017年9月の第4週から2018年8月の第4週までの約1年分。
2017年末に「年間総合はてなブックマーク数ランキング トップ100」が公表されているので、それも合わせて対象としました。
記事数は2,000超ありました。
ランキングに同じ記事が複数回登場している場合もありそうでしたが、重複を除くのが面倒だったのでそのままカウントしています。
複数回登場しているものはそれだけ人気ということで2重にカウントしても大きな問題はないだろうと…。
解析手法
解析手法も説明しておきます。
ざっくり言うと、全ての記事のタイトルを「Janome」という解析エンジンを使って形態素解析し、それを集計するという方法をとりました。
形態素解析とは
文章を意味を持つ最小限の単位に分解して、それぞれの品詞を判別する解析方法のこと。 最小限の単位に分解されたものを形態素と言います。
実例を見てもらうほうがわかりやすいと思うので、「すもももももももものうち」という文章を形態素解析してみます。
結果はこちら。これを見ればなんとなく何をやってるかはわかりますよね。
| 表層形 | 品詞 | 活用型 |
|---|---|---|
| すもも | 名詞 | 一般 |
| も | 助詞 | 係助詞 |
| もも | 名詞 | 一般 |
| も | 助詞 | 係助詞 |
| もも | 名詞 | 一般 |
| の | 助詞 | 連体化 |
| うち | 名詞 | 非自立 |
Janomeとは
上で紹介した形態素解析をPythonというプログラミング言語を使って実現可能にするのがJanome です。形態素解析のライブラリという位置づけになります。
今回の集計方法
今回は形態素の中から名詞だけを抽出して出現回数をカウントしました。
「すももも~」の例で言うと「すもも」とか「もも」は集計対象にするけれど、助詞の「も」や「の」などは対象外にするというということです。
名詞だけではなく動詞もおもしろそうだったのですが、数が多くなりすぎるので今回は省略しました。
最終的に集計した結果を出現回数の多い順に並べてランキングを作成しています。
結果の概要
対象になった記事の数(タイトルの数)と抽出された名詞の種類数は下記の通り。
| 記事タイトル数 | 2,053 |
| キーワード数(名詞の種類数) | 4,760 |
名詞だけでも約4,700もあるという結果です。
多くのキーワードは出現回数1~2回なので、5回以上出現するものだけをカウントすると542個になります。
それでもまだランキングとしては多過ぎます。さらに絞り込んで10回以上のものだけにすると約200くらいまで数が減るのでこのデータのみを見ていきたいと思います。
カッコや…(3点リーダー)など記号、数字も名詞としてカウントされていたのですが、あまり意味の無いデータなので除外しています。
ランキングと考察
出現回数10~30あたりは同順位のものキーワードが多く、○○位タイみたいなデータが並んでしまうので、ランキングを見てもあまり意味がありません。
下位のものについては出現回数ごとに見ていくことにします。
先に書いておきたいのですが、実は上位ほどあまりおもしろみのないデータになります。 トップ10あたりだと「話」「的」「年」など、出現回数が多くて当たり前だよなぁ…というような名詞がほとんどになるからです。
また、あくまでPythonとJanomeの勉強がてら分析しただけなので、考察といってもあまり深いものではありません。感想程度のコメントのみを書いているだけなのですがご容赦いただければと…。
出現回数10~11回
| キーワード | 出現回数 |
|---|---|
| 日本人 | 10 |
| 広告 | 10 |
| 個 | 10 |
| 知能 | 10 |
| 失敗 | 10 |
| 以上 | 10 |
| 筋 | 10 |
| 論 | 10 |
| 数 | 10 |
| 世代 | 10 |
| 最新 | 10 |
| 人工 | 10 |
| マンガ | 10 |
| 分析 | 10 |
| 代 | 10 |
| 最近 | 10 |
| 分 | 10 |
| 説明 | 10 |
| 株式会社 | 10 |
| ベスト | 10 |
| 家族 | 10 |
| みたい | 10 |
| 炎上 | 10 |
| 教育 | 10 |
| 嫌い | 10 |
| 簡単 | 11 |
| 入門 | 11 |
| 年間 | 11 |
| 日本語 | 11 |
| 結果 | 11 |
| 東京 | 11 |
| 最強 | 11 |
| 理解 | 11 |
| 後 | 11 |
| オススメ | 11 |
| 子供 | 11 |
| 通貨 | 11 |
| セクハラ | 11 |
| オタク | 11 |
| 管理 | 11 |
| 仮想 | 11 |
他人の不幸は蜜の味ということで「炎上」「失敗」ネタは読まれやすいんでしょうね。
「広告」というのもランクインしています。普段目にする広告に対する意見や、広告業界とメディアに関する話題も注目されやすいということでしょうか。
「人工」と「知能」はバラバラになっていますが、これは人工知能という形で使われています。AIについての記事も人気ということですね。
「仮想」と「通貨」も分かれていますが、仮想通貨のことです。今はかなりトーンダウンしていますが、少し前までブログに限らず多くのメディアでかなりの盛り上がりを見せていたテーマです。
「簡単」「入門」というキーワードを使った初心者向けに何かを解説する記事はブログの鉄板ですよね。
「セクハラ」「オタク」あたりは時事ネタでもなく、解説記事などでよく使われる単語でもないので、単純に読まれやすいキーワードということかと思います。
「最強」「おすすめ」は商品紹介、サービス紹介記事では定番ワードです。
出現回数12~13回
| キーワード | 出現回数 |
|---|---|
| 編 | 12 |
| 全て | 12 |
| ツール | 12 |
| IT | 12 |
| 差別 | 12 |
| 個人 | 12 |
| 女 | 12 |
| 力 | 12 |
| 頭 | 12 |
| 労働 | 12 |
| 発言 | 12 |
| どこ | 13 |
| みんな | 13 |
| 無料 | 13 |
| 批判 | 13 |
| 英語 | 13 |
| 対策 | 13 |
| あなた | 13 |
| システム | 13 |
| 営業 | 13 |
| 僕 | 13 |
| 子ども | 13 |
| 13 | |
| 感想 | 13 |
| 絶対 | 13 |
| 大学 | 13 |
| 人生 | 13 |
「全て」。これは「全て解説します」、「○○な全ての人へ」みたいな文脈で使われています。記事の対象者を広げたり、網羅性を訴えることできるので、読者が増えやすいということかと。
「IT」「ツール」もランクイン。ITツールについての情報はWebで集めるという人が多いと思います。私もその手の情報はまずはインターネットで収集します。
「英語」はブログ記事では人気のあるテーマという認識でしたが、今回の結果でもそれが裏付けられました。
「子ども」。これも一定の読者を獲得しやすいテーマです。私もそうですが、子どもを持っている親はついつい読んでしまいます。
「営業」。これは意外なキーワードでした。使われている文脈を確認しないと正確なことは言えませんが、元営業マンが体験を元に語るというパターンか、営業という仕事自体についての記事かどちらかだと思います。そういうのってブログ記事で需要あるんですかね…。
「批判」「対策」「感想」。このあたりもまあよく使われるワードですよね。
出現回数14~15回
| キーワード | 出現回数 |
|---|---|
| 系 | 14 |
| 解説 | 14 |
| プログラミング | 14 |
| コード | 14 |
| 料理 | 14 |
| 障害 | 14 |
| 考察 | 14 |
| 話題 | 14 |
| そう | 14 |
| アプリ | 14 |
| 退職 | 14 |
| 公開 | 14 |
| 意味 | 14 |
| 彼女 | 14 |
| 冊 | 14 |
| 数学 | 14 |
| 企業 | 15 |
| 削除 | 15 |
| レビュー | 15 |
| 給食 | 15 |
| 法 | 15 |
| 俺 | 15 |
| マン | 15 |
| 環境 | 15 |
「プログラミング」「コード」は上でランクインしていた「IT」「ツール」と同じ理由で上位に入っていると思われます。このあたりの需要は固いですね。
「退職」このキーワードが入っていると自分も読んでしまいます。エンジニアの方はいわゆる「退職エントリー」を書かれることが多いようです。
「レビュー」「考察」このへんは言わずもがなですね。鉄板の切り口かと。
「給食」??これは何でしょうか?ちょっと想像しづらいですね。子育て系の記事でしょうか…。
出現回数16~19回
このへんからTOP100くらいです。
| キーワード | 出現回数 |
|---|---|
| 今 | 16 |
| アニメ | 16 |
| 必要 | 16 |
| 書 | 16 |
| 事件 | 16 |
| とき | 16 |
| 上 | 17 |
| 初心者 | 17 |
| 記事 | 18 |
| 会 | 18 |
| 情報 | 18 |
| 最高 | 18 |
| これ | 18 |
| 時間 | 18 |
| 転職 | 18 |
| 前 | 19 |
| たち | 19 |
| 歳 | 19 |
| サービス | 19 |
| 社会 | 19 |
| サイト | 19 |
「初心者」向けの記事は基本的に重宝されますし、「最高」というワードも商品やサービスを紹介する記事を目立たせるための常套句です。
「転職」も上位に入ってきました。さきほど「退職」もランクインしていましたが、転職を考えている人、転職に関する情報を集めている人が多いので、他人がどのように転職したかが気になるということかと思います。
出現回数20~27回
だんだん書くことがなくなってきたのでまとめて見ていきます。
| キーワード | 出現回数 |
|---|---|
| 誰 | 20 |
| 時 | 20 |
| 男 | 21 |
| ネット | 21 |
| Web | 21 |
| 結婚 | 21 |
| 世界 | 22 |
| Python | 22 |
| 家 | 22 |
| 自分 | 22 |
| 人間 | 22 |
| 時代 | 23 |
| 版 | 23 |
| 円 | 23 |
| 漫画 | 23 |
| 件 | 23 |
| 紹介 | 24 |
| 私 | 24 |
| おすすめ | 24 |
| データ | 25 |
| ゲーム | 25 |
| 性 | 25 |
| 勉強 | 25 |
| 万 | 26 |
| 日 | 26 |
| まとめ | 26 |
| よう | 26 |
| 映画 | 26 |
| 女性 | 27 |
| 会社 | 27 |
| 中 | 27 |
| 氏 | 27 |
「結婚」このテーマはいい意味でも悪い意味でも鉄板でしょうね。今の時代、多分ネガティブな内容のほうが多いんでしょうが…。
「python」がランクインしてきました。解析手法のところで紹介しましたが、この記事で実施している分析もpythonを使っています。プログラミング初心者でも始めやすく、使える範囲が広い言語なので人気なんだと思います。
出現回数16~19回のところで「アニメ」が出ていましたが、さらに上位に「漫画」が入ってきました。やはりこの2ジャンルの記事は強いですね。
「男」「性」「女性」もランクイン。性別に関する記事も注目を集めやすいようです。
TOP30(出現回数28回~170回)
このあたりから、ようやくまともなランキング形式にすることができます。
TOP30は下記のようになりました!
| 順位 | キーワード | 出現回数 |
|---|---|---|
| 28 | 機械 | 28 |
| 28 | 好き | 28 |
| 28 | 追記 | 28 |
| 25 | もの | 29 |
| 25 | 2018 | 29 |
| 25 | 仕事 | 29 |
| 23 | 技術 | 30 |
| 23 | 2017 | 30 |
| 21 | ブログ | 33 |
| 21 | 方法 | 33 |
| 20 | 学習 | 34 |
| 18 | 問題 | 35 |
| 18 | 開発 | 35 |
| 17 | 方 | 37 |
| 16 | 本 | 38 |
| 15 | 化 | 41 |
| 14 | さん | 42 |
| 13 | 選 | 43 |
| 12 | 何 | 46 |
| 10 | 者 | 48 |
| 10 | エンジニア | 48 |
| 9 | ため | 50 |
| 8 | 理由 | 53 |
| 7 | 的 | 57 |
| 6 | 日本 | 65 |
| 5 | 年 | 87 |
| 4 | 話 | 105 |
| 3 | こと | 136 |
| 2 | 人 | 141 |
| 1 | の | 170 |
はえある第1位は「の」でした! この結果はつまらないですね…。
TOP10あたりの最上位層は上位に来てあたりまえの単語というか、あまり意味をなさないものがほとんどです。
下位のほうを見て行きましょう。
「機械」と「学習」は別々に出ていますが、これは機械学習(マシンラーニング)のことですね。けっこうディープな技術系の話なのに上位に来るのはちょっと驚きです。「エンジニア」も入っていますしIT系のネタはやはりWebと親和性が高いということでしょうか。
「ブログ」。ようやく出てきました。ブログを書いている人はやはりブログ運営についての記事を読んでしまいます。この記事のタイトルにもキーワードとして入れています。
以上が今回の結果でした。
まとめ
とりあえずやってみたというレベルの粗い分析なので、改善できるところが多々ありますが、こうやって日本語を解析できるのはおもしろいです。
タイトル付けや記事執筆の参考になるといいのですが。