人気ブログ記事のタイトルの決め方を参考にする

Contents

人気ブログの記事の研究とpythonによる形態素解析の勉強を兼ねて、よく読まれている記事のタイトルにどういう単語、キーワードがよく使われているか調べました。

あまり厳密にやっているわけではないので参考までに見ていただければと思います。

記事が人気かどうかを計るにはページビューを見るのが妥当だと思うのですが、各記事のPVを基準にランキングなどを公表しているサイトは見つけられませんでした。

ということで、私もお世話にはてなブログが公表している「はてなブログランキング」のデータを使うことにしました。

ブクマ数ランキング カテゴリーの記事一覧 - 週刊はてなブログ

「はてなブログランキング」とは、はてなブログで公開されている記事をブックマーク数でランキングした順位です。(はてなブログMediaとはてなの公式ブログはランキングの対象外となっているようです。)

毎週更新されており、該当する週に最初のブックマークがついた記事が対象になります。

著者の分かる通常のブログは30位まで、はてな匿名ダイアリーは10位までのランキングが公開されています。

集計した範囲は2017年9月の第4週から2018年8月の第4週までの約1年分。

2017年末に「年間総合はてなブックマーク数ランキング トップ100」が公表されているので、それも合わせて対象としました。

記事数は2,000超ありました。

ランキングに同じ記事が複数回登場している場合もありそうでしたが、重複を除くのが面倒だったのでそのままカウントしています。

複数回登場しているものはそれだけ人気ということで2重にカウントしても大きな問題はないだろうと…。

解析手法も説明しておきます。

ざっくり言うと、全ての記事のタイトルを「Janome」という解析エンジンを使って形態素解析し、それを集計するという方法をとりました。

文章を意味を持つ最小限の単位に分解して、それぞれの品詞を判別する解析方法のこと。 最小限の単位に分解されたものを形態素と言います。

実例を見てもらうほうがわかりやすいと思うので、「すもももももももものうち」という文章を形態素解析してみます。

結果はこちら。これを見ればなんとなく何をやってるかはわかりますよね。

表層形品詞活用型
すもも名詞一般
助詞係助詞
もも名詞一般
助詞係助詞
もも名詞一般
助詞連体化
うち名詞非自立

上で紹介した形態素解析をPythonというプログラミング言語を使って実現可能にするのがJanome です。形態素解析のライブラリという位置づけになります。

今回は形態素の中から名詞だけを抽出して出現回数をカウントしました。

「すももも~」の例で言うと「すもも」とか「もも」は集計対象にするけれど、助詞の「も」や「の」などは対象外にするというということです。

名詞だけではなく動詞もおもしろそうだったのですが、数が多くなりすぎるので今回は省略しました。

最終的に集計した結果を出現回数の多い順に並べてランキングを作成しています。

対象になった記事の数(タイトルの数)と抽出された名詞の種類数は下記の通り。

記事タイトル数2,053
キーワード数(名詞の種類数)4,760

名詞だけでも約4,700もあるという結果です。

多くのキーワードは出現回数1~2回なので、5回以上出現するものだけをカウントすると542個になります。

それでもまだランキングとしては多過ぎます。さらに絞り込んで10回以上のものだけにすると約200くらいまで数が減るのでこのデータのみを見ていきたいと思います。

カッコや…(3点リーダー)など記号、数字も名詞としてカウントされていたのですが、あまり意味の無いデータなので除外しています。

出現回数10~30あたりは同順位のものキーワードが多く、○○位タイみたいなデータが並んでしまうので、ランキングを見てもあまり意味がありません。

下位のものについては出現回数ごとに見ていくことにします。

先に書いておきたいのですが、実は上位ほどあまりおもしろみのないデータになります。 トップ10あたりだと「話」「的」「年」など、出現回数が多くて当たり前だよなぁ…というような名詞がほとんどになるからです。

また、あくまでPythonとJanomeの勉強がてら分析しただけなので、考察といってもあまり深いものではありません。感想程度のコメントのみを書いているだけなのですがご容赦いただければと…。

キーワード出現回数
日本人10
広告10
10
知能10
失敗10
以上10
10
10
10
世代10
最新10
人工10
マンガ10
分析10
10
最近10
10
説明10
株式会社10
ベスト10
家族10
みたい10
炎上10
教育10
嫌い10
簡単11
入門11
年間11
日本語11
結果11
東京11
最強11
理解11
11
オススメ11
子供11
通貨11
セクハラ11
オタク11
管理11
仮想11

他人の不幸は蜜の味ということで「炎上」「失敗」ネタは読まれやすいんでしょうね。

「広告」というのもランクインしています。普段目にする広告に対する意見や、広告業界とメディアに関する話題も注目されやすいということでしょうか。

「人工」と「知能」はバラバラになっていますが、これは人工知能という形で使われています。AIについての記事も人気ということですね。

「仮想」と「通貨」も分かれていますが、仮想通貨のことです。今はかなりトーンダウンしていますが、少し前までブログに限らず多くのメディアでかなりの盛り上がりを見せていたテーマです。

「簡単」「入門」というキーワードを使った初心者向けに何かを解説する記事はブログの鉄板ですよね。

「セクハラ」「オタク」あたりは時事ネタでもなく、解説記事などでよく使われる単語でもないので、単純に読まれやすいキーワードということかと思います。

「最強」「おすすめ」は商品紹介、サービス紹介記事では定番ワードです。

キーワード出現回数
12
全て12
ツール12
IT12
差別12
個人12
12
12
12
労働12
発言12
どこ13
みんな13
無料13
批判13
英語13
対策13
あなた13
システム13
営業13
13
子ども13
Google13
感想13
絶対13
大学13
人生13

「全て」。これは「全て解説します」、「○○な全ての人へ」みたいな文脈で使われています。記事の対象者を広げたり、網羅性を訴えることできるので、読者が増えやすいということかと。

「IT」「ツール」もランクイン。ITツールについての情報はWebで集めるという人が多いと思います。私もその手の情報はまずはインターネットで収集します。

「英語」はブログ記事では人気のあるテーマという認識でしたが、今回の結果でもそれが裏付けられました。

「子ども」。これも一定の読者を獲得しやすいテーマです。私もそうですが、子どもを持っている親はついつい読んでしまいます。

「営業」。これは意外なキーワードでした。使われている文脈を確認しないと正確なことは言えませんが、元営業マンが体験を元に語るというパターンか、営業という仕事自体についての記事かどちらかだと思います。そういうのってブログ記事で需要あるんですかね…。

「批判」「対策」「感想」。このあたりもまあよく使われるワードですよね。

キーワード出現回数
14
解説14
プログラミング14
コード14
料理14
障害14
考察14
話題14
そう14
アプリ14
退職14
公開14
意味14
彼女14
14
数学14
企業15
削除15
レビュー15
給食15
15
15
マン15
環境15

「プログラミング」「コード」は上でランクインしていた「IT」「ツール」と同じ理由で上位に入っていると思われます。このあたりの需要は固いですね。

「退職」このキーワードが入っていると自分も読んでしまいます。エンジニアの方はいわゆる「退職エントリー」を書かれることが多いようです。

「レビュー」「考察」このへんは言わずもがなですね。鉄板の切り口かと。

「給食」??これは何でしょうか?ちょっと想像しづらいですね。子育て系の記事でしょうか…。

このへんからTOP100くらいです。

キーワード出現回数
16
アニメ16
必要16
16
事件16
とき16
17
初心者17
記事18
18
情報18
最高18
これ18
時間18
転職18
19
たち19
19
サービス19
社会19
サイト19

「初心者」向けの記事は基本的に重宝されますし、「最高」というワードも商品やサービスを紹介する記事を目立たせるための常套句です。

「転職」も上位に入ってきました。さきほど「退職」もランクインしていましたが、転職を考えている人、転職に関する情報を集めている人が多いので、他人がどのように転職したかが気になるということかと思います。

だんだん書くことがなくなってきたのでまとめて見ていきます。

キーワード出現回数
20
20
21
ネット21
Web21
結婚21
世界22
Python22
22
自分22
人間22
時代23
23
23
漫画23
23
紹介24
24
おすすめ24
データ25
ゲーム25
25
勉強25
26
26
まとめ26
よう26
映画26
女性27
会社27
27
27

「結婚」このテーマはいい意味でも悪い意味でも鉄板でしょうね。今の時代、多分ネガティブな内容のほうが多いんでしょうが…。

「python」がランクインしてきました。解析手法のところで紹介しましたが、この記事で実施している分析もpythonを使っています。プログラミング初心者でも始めやすく、使える範囲が広い言語なので人気なんだと思います。

出現回数16~19回のところで「アニメ」が出ていましたが、さらに上位に「漫画」が入ってきました。やはりこの2ジャンルの記事は強いですね。

「男」「性」「女性」もランクイン。性別に関する記事も注目を集めやすいようです。

このあたりから、ようやくまともなランキング形式にすることができます。

TOP30は下記のようになりました!

順位キーワード出現回数
28機械28
28好き28
28追記28
25もの29
25201829
25仕事29
23技術30
23201730
21ブログ33
21方法33
20学習34
18問題35
18開発35
1737
1638
1541
14さん42
1343
1246
1048
10エンジニア48
9ため50
8理由53
757
6日本65
587
4105
3こと136
2141
1170

はえある第1位は「の」でした! この結果はつまらないですね…。

TOP10あたりの最上位層は上位に来てあたりまえの単語というか、あまり意味をなさないものがほとんどです。

下位のほうを見て行きましょう。

「機械」と「学習」は別々に出ていますが、これは機械学習(マシンラーニング)のことですね。けっこうディープな技術系の話なのに上位に来るのはちょっと驚きです。「エンジニア」も入っていますしIT系のネタはやはりWebと親和性が高いということでしょうか。

「ブログ」。ようやく出てきました。ブログを書いている人はやはりブログ運営についての記事を読んでしまいます。この記事のタイトルにもキーワードとして入れています。

以上が今回の結果でした。

とりあえずやってみたというレベルの粗い分析なので、改善できるところが多々ありますが、こうやって日本語を解析できるのはおもしろいです。

タイトル付けや記事執筆の参考になるといいのですが。