276万件の求人情報を基にしたHR領域の「単語ベクトル」を公開

HR領域の「単語ベクトル」を公開
HR領域の「単語ベクトル」を公開【拡大】

  • 単語ベクトルのデータセット例

 株式会社ビズリーチ(所在地:東京都渋谷区/代表取締役社長:南 壮一郎 以下、ビズリーチ)は、ビズリーチAI室で利用しているHR領域に適した「単語ベクトル」を公開し、データセットの提供を開始します。

画像1: https://www.atpress.ne.jp/releases/151860/img_151860_1.png
このたび公開するのは、2018年1月に、求人検索エンジン「スタンバイ」*1に掲載されていた、約276万件の求人情報(延べ約10億単語)から獲得した、「単語ベクトル」と呼ばれる言語研究用のデータです。公開する単語ベクトルは、求人情報に含まれる単語について、周辺の単語群との傾向を機械学習の技術を使って学習し、その特徴をword2vec*2と呼ばれる手法で数値化(ベクトル化)したものです。単語の特徴が数値化されることで自然言語処理の精度が向上し、さまざまな目的に利用できるようになります。

単語ベクトルのデータセットは、100次元、200次元の2種類を提供し、以下URLよりダウンロードしていただけます。

ダウンロードURL:https://github.com/bizreach/ai/tree/master/word2vec


画像2: https://www.atpress.ne.jp/releases/151860/img_151860_2.png

 *1 求人検索エンジン「スタンバイ」について
「スタンバイ」は、正社員、アルバイト・パート、派遣社員など、国内の全業種・全職種・全雇用形態を対象に、職種・業種などの「キーワード」や「勤務地」を指定し、複数の求人情報サイト、企業サイト、ハローワーク等の500万件以上の求人を一括で検索できるサービスです。全雇用形態を対象にしているため、自分に合った仕事を効率的に探せます。
参照URL:https://jp.stanby.com/

*2 word2vecとは
word2vecは、トマス・ミコロフ氏らが提案した、単語をベクトル化して表現する定量化手法で、各単語を200次元程度の空間内におけるベクトルとして表現します。今後、意味解析、文書分類、機械翻訳など、さまざまな分野での応用が期待されています。

■株式会社ビズリーチ AI室 マネージャー 菅谷 信介 コメント
HRテクノロジー領域でサービスを展開する当社では、各サービスを横断して機械学習やAIについて研究をする「AI室」を設けています。ビズリーチでは、HR領域における求人票、職務経歴書など、情報をテキスト化、データ化したものが多く扱われています。今までの機械では、文字列は理解できても、その「意味」までは理解できていませんでした。しかし、AIや機械学習の爆発的な進化により、真の意味で人と情報を適切にマッチングできる時代が到来しつつあります。
HRテクノロジーの領域で自然言語処理を研究するうえで、単語ベクトルは不可欠なものです。このたび、HR領域における単語ベクトルを公開することで、他の研究者からフィードバックをいただき、HRテクノロジー領域における研究を加速させていきたいと考えています。

 ■株式会社ビズリーチ AI室について
ビズリーチは、2016年からAI室を設けています。AI室の役割は、機械学習、データマイニングの最先端を追求する研究開発を土台とし、これらの技術を事業に生かせる形で用意していくことです。事業会社である以上、利益を創出しながらも、新たな技術を用いた挑戦の中核を担っています。また、AI室からはApacheコミッターが2人誕生しています。

 ■株式会社ビズリーチについて
「インターネットの力で、世の中の選択肢と可能性を広げていく」をミッションとし、2009年4月より、人材領域を中心としたインターネットサービスを運営するHRテック・ベンチャー。東京本社のほか、大阪、名古屋、福岡、シンガポールに拠点を持ち、従業員数は1,030名(2018年3月時点)。即戦力人材と企業をつなぐ転職サイト「ビズリーチ」や、若手社員のためのレコメンド型転職サイト「キャリアトレック」、AI技術を活用した戦略人事クラウド「HRMOS(ハーモス)」、求人検索エンジン「スタンバイ」、事業承継M&Aプラットフォーム「ビズリーチ・サクシード」などを展開。
参照URL:https://www.bizreach.co.jp/