[フレーム]
3,407 views

サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)

Hadoop / Spark Conference Japan 2016 (2016年02月08日) ライトニングトーク発表資料 しかくサポートメンバは見た! Hadoopバグワースト10 鯵坂 明(NTTデータ) イベントページ http://hadoop.apache.jp/hcj2016-program/

Embed presentation

5 / 15
5Copyright © 2016 NTT DATA Corporation  対象: 2.8.0以前 (現在のリリースバージョン全て)  詳細:  Hiveでは、クエリの先頭(コメント含む)を使って最大50文字になる ようジョブ名を自動生成する  JobHistoryのファイル名には、URLエンコードされたジョブ名が含 まれる  ジョブ名にマルチバイト文字が含まれる場合、URLエンコードされ ることでファイル名がOSの制限(255文字)を超える  確認: JT/MRAppMasterログ 2. MapReduceのJobHistoryFileが作成できない 20XX-XX-XX XX:XX:XX,XXX ERROR org.apache.hadoop.mapred.JobHistory: Failed creating job history log file for job job_201510291126_147769 java.io.FileNotFoundException: /var/log/hadoop-0.20- mapreduce/history/job_2015XXXXXXXX_XXXXXX_XXXXXXXXXX_XXXXXXX_XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX- XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX (ファイル名が長すぎます) at java.io.FileOutputStream.open(Native Method)
7 / 15
7Copyright © 2016 NTT DATA Corporation  対象: 2.1.0-beta以前の2系  詳細:  pipeline recovery時にDNがdeadlockする可能性がある  NNとheartbeat通信できなくなり、HDFSクラスタから切り離される  確認: DNのスタックトレース  明にdeadlockと表示されないことに注意 3. DataNodeがdeadlockする "DataXceiver for client DFSClient_NONMAPREDUCE_1090577789_1 at /XXX.XXX.XXX.XXX:48891 [Receiving block BP-195048853-127.0.0.1- 1351858280084:blk_170845781886878002_707423606]" daemon prio=10 tid=0x0000000042d34800 nid=0x5282 in Object.wait() [0x00007efed39b5000] java.lang.Thread.State: WAITING (on object monitor) at java.lang.Object.wait(Native Method) at java.lang.Thread.join(Thread.java:1186) - locked <0x0000000761939bf8> (a org.apache.hadoop.util.Daemon) at java.lang.Thread.join(Thread.java:1239) at org.apache.hadoop.hdfs.server.datanode.ReplicaInPipeline.stopWriter(ReplicaInPipeline.java:157) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.recoverRbw(FsDatasetImpl.java:706) - locked <0x0000000750413dd0> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl) "DataXceiver for client DFSClient_NONMAPREDUCE_591891114_1 at /XXX.XXX.XXX.XXX:48889 [Receiving block BP-195048853-127.0.0.1- 1351858280084:blk_-1426412348578625507_707423594]" daemon prio=10 tid=0x000000004190c000 nid=0x527c waiting for monitor entry [0x00007efed49c5000] java.lang.Thread.State: BLOCKED (on object monitor) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.recoverRbw(FsDatasetImpl.java:692) - waiting to lock <0x0000000750413dd0> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl)
9 / 15
9Copyright © 2016 NTT DATA Corporation  対象: 2.3.0以前  詳細:  append APIを実行すると、ブロックの世代が新しくなる  このタイミングでover replicatedの状態になると、excess blockと して新しいブロックが消されることがある  運悪く新しいブロックが全て消されると、残った古いblockが corrupt扱い → missing block  確認:  auditログから、appendを実行していたかどうか確認する  詳細を見るには、NNとDNログを追いかけるしかない  対策:  HDFS append APIをなるべく使わない (hflush/hsyncがある)  特に、close直後のappendを避ける - close直後はover replicatedになりやすい (HDFS-1172)  関連: HDFS-5438 4. HDFSでMissingBlockが発生する
10 / 15
10Copyright © 2016 NTT DATA Corporation  対象: 2.7.0以前  詳細:  HDFSのチェックポイント処理中にタイムアウトした場合、転送途 中のfsimageが消されずに残る - NN/SNNのディスク容量が圧迫される  確認: NN/SNNのfsimage保存領域に、名前に".ckpt"を含むファ イルがある  対策: 手動で中間ファイルを消す  関連: HDFS-7373 5. HDFSのcheckpoint失敗時に転送途中のfsimageが消えない # ls -l /data/hdfs1/dfs/name/current/ -rw-r--r-- 1 hdfs hadoop 915 6月 11 19:03 2014 edits_0000000005216326417-0000000005216326429 -rw-r--r-- 1 hdfs hadoop 2538168320 6月 11 18:31 2014 fsimage.ckpt_0000000005216326414 -rw-r--r-- 1 hdfs hadoop 3251730168 6月 11 18:37 2014 fsimage_0000000005216326416 -rw-r--r-- 1 hdfs hadoop 62 6月 11 18:37 2014 fsimage_0000000005216326416.md5
11 / 15
11Copyright © 2016 NTT DATA Corporation  対象: 2.6.4/2.7.2より前の2系  詳細: 1. Excess Blockが発生 (replication数を変化させるなどで) 2. NNが該当ブロックを消去するようDNに依頼 3. DNが該当ブロックを消去して、NNにIncrementalBlockReportを 送り、NNがそれを処理する前に該当ブロックを含むファイル自体 が消去される 4. ExcessBlocksメトリクスとそのブロックを管理している Map(excessReplicateMap)がリセットされない  メモリリーク  確認: fsckを実行したときのover-replicated blockの値と、メト リクスExcessBlocksの値がずれている  対策: NameNodeをF/Oもしくは再起動する  関連: HDFS-6945 6. メトリクスExcessBlocksの値が正しくない
12 / 15
12Copyright © 2016 NTT DATA Corporation  対象: 2.7.0, 2.7.1  詳細:  ContainerMetricsの取得時にdeadlockすることがある  Metricsが取得できない (そのためWebUIも見れない)  ただしジョブは動作している  確認: NMのスタックトレース 7. NodeManager WebUIにアクセスできない Found one Java-level deadlock: ============================= "1193752357@qtp-907815246-22238": waiting to lock monitor 0x0000000005e20a18 (object 0x00000000f6afa048, a org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainerMetrics), which is held by "2107307914@qtp-907815246-19994" "2107307914@qtp-907815246-19994": waiting to lock monitor 0x0000000001a000a8 (object 0x00000000d4f1e1f8, a org.apache.hadoop.metrics2.impl.MetricsSystemImpl), which is held by "Timer for 'NodeManager' metrics system" "Timer for 'NodeManager' metrics system": waiting to lock monitor 0x00000000027ade88 (object 0x00000000f6582df0, a org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainerMetrics), which is held by "1530638165@qtp-907815246-19992" "1530638165@qtp-907815246-19992": waiting to lock monitor 0x0000000001a000a8 (object 0x00000000d4f1e1f8, a org.apache.hadoop.metrics2.impl.MetricsSystemImpl), which is held by "Timer for 'NodeManager' metrics system"
Copyright © 2016 NTT DATA Corporation 2016年2月8日 NTTデータ 鯵坂 明 サポートメンバは見た! Hadoopバグワースト10 Hadoop Conference Japan 2016 ライトニングトーク
Copyright © 2016 NTT DATA Corporation 2016年2月8日 NTTデータ 鯵坂 明 サポートメンバは見た! Hadoopバグワースト7 10 Hadoop Conference Japan 2016 ライトニングトーク
3Copyright © 2016 NTT DATA Corporation  過去5年にわたるNTTデータのHadoopサポートサービスにおい て、問題になったHadoopのバグをおおよそ時系列順に紹介  対象バージョン  詳細  確認方法  "バージョンアップ以外の"対策  関連するJIRAの番号 - https://issues.apache.org/jira/browse/<JIRAの番号>  新しいバージョンではほぼ全てfixされている  略称一覧  NN(NameNode), DN(DataNode), SNN(SecondaryNameNode), NM(NodeManager), JT(JobTracker) まえがき
4Copyright © 2016 NTT DATA Corporation  対象: 2.0.3-alpha以前  詳細:  HDFSのファイル名に🐱(U+1F4131)のような、UTF-8において4バ イトで表現される文字が含まれる場合、チェックポイント処理に失 敗し続け、editsが肥大化する  NNを再起動できなくなる  確認:  Edits viewerで多バイト文字が含まれるファイルを探す  対策: ファイル名に多バイト文字を避ける  HiveのDynamic Partitionで、テーブルの中身からHDFSのファイル 名が自動生成される場合に注意  関連: HADOOP-9103 1. UTF-8の4バイト文字が正しくデコードできない
5Copyright © 2016 NTT DATA Corporation  対象: 2.8.0以前 (現在のリリースバージョン全て)  詳細:  Hiveでは、クエリの先頭(コメント含む)を使って最大50文字になる ようジョブ名を自動生成する  JobHistoryのファイル名には、URLエンコードされたジョブ名が含 まれる  ジョブ名にマルチバイト文字が含まれる場合、URLエンコードされ ることでファイル名がOSの制限(255文字)を超える  確認: JT/MRAppMasterログ 2. MapReduceのJobHistoryFileが作成できない 20XX-XX-XX XX:XX:XX,XXX ERROR org.apache.hadoop.mapred.JobHistory: Failed creating job history log file for job job_201510291126_147769 java.io.FileNotFoundException: /var/log/hadoop-0.20- mapreduce/history/job_2015XXXXXXXX_XXXXXX_XXXXXXXXXX_XXXXXXX_XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX- XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX (ファイル名が長すぎます) at java.io.FileOutputStream.open(Native Method)
6Copyright © 2016 NTT DATA Corporation  対策:  Hiveクエリの先頭(コメント含む)にマルチバイト文字(ひらがなカタ カナ漢字)を使わない  Hiveのプロパティ "hive.jobname.length" をデフォルトの50より 小さい値にする  関連: MAPREDUCE-6616 2. MapReduceのJobHistoryFileが作成できない
7Copyright © 2016 NTT DATA Corporation  対象: 2.1.0-beta以前の2系  詳細:  pipeline recovery時にDNがdeadlockする可能性がある  NNとheartbeat通信できなくなり、HDFSクラスタから切り離される  確認: DNのスタックトレース  明にdeadlockと表示されないことに注意 3. DataNodeがdeadlockする "DataXceiver for client DFSClient_NONMAPREDUCE_1090577789_1 at /XXX.XXX.XXX.XXX:48891 [Receiving block BP-195048853-127.0.0.1- 1351858280084:blk_170845781886878002_707423606]" daemon prio=10 tid=0x0000000042d34800 nid=0x5282 in Object.wait() [0x00007efed39b5000] java.lang.Thread.State: WAITING (on object monitor) at java.lang.Object.wait(Native Method) at java.lang.Thread.join(Thread.java:1186) - locked <0x0000000761939bf8> (a org.apache.hadoop.util.Daemon) at java.lang.Thread.join(Thread.java:1239) at org.apache.hadoop.hdfs.server.datanode.ReplicaInPipeline.stopWriter(ReplicaInPipeline.java:157) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.recoverRbw(FsDatasetImpl.java:706) - locked <0x0000000750413dd0> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl) "DataXceiver for client DFSClient_NONMAPREDUCE_591891114_1 at /XXX.XXX.XXX.XXX:48889 [Receiving block BP-195048853-127.0.0.1- 1351858280084:blk_-1426412348578625507_707423594]" daemon prio=10 tid=0x000000004190c000 nid=0x527c waiting for monitor entry [0x00007efed49c5000] java.lang.Thread.State: BLOCKED (on object monitor) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.recoverRbw(FsDatasetImpl.java:692) - waiting to lock <0x0000000750413dd0> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl)
8Copyright © 2016 NTT DATA Corporation  対策:  Deadlockが発生したDNを再起動する  関連: HDFS-4851, HDFS-5016  Cloudera blog: http://www.cloudera.co.jp/blog/understanding-hdfs- recovery-processes-part-2-ja.html 3. DataNodeがdeadlockする
9Copyright © 2016 NTT DATA Corporation  対象: 2.3.0以前  詳細:  append APIを実行すると、ブロックの世代が新しくなる  このタイミングでover replicatedの状態になると、excess blockと して新しいブロックが消されることがある  運悪く新しいブロックが全て消されると、残った古いblockが corrupt扱い → missing block  確認:  auditログから、appendを実行していたかどうか確認する  詳細を見るには、NNとDNログを追いかけるしかない  対策:  HDFS append APIをなるべく使わない (hflush/hsyncがある)  特に、close直後のappendを避ける - close直後はover replicatedになりやすい (HDFS-1172)  関連: HDFS-5438 4. HDFSでMissingBlockが発生する
10Copyright © 2016 NTT DATA Corporation  対象: 2.7.0以前  詳細:  HDFSのチェックポイント処理中にタイムアウトした場合、転送途 中のfsimageが消されずに残る - NN/SNNのディスク容量が圧迫される  確認: NN/SNNのfsimage保存領域に、名前に".ckpt"を含むファ イルがある  対策: 手動で中間ファイルを消す  関連: HDFS-7373 5. HDFSのcheckpoint失敗時に転送途中のfsimageが消えない # ls -l /data/hdfs1/dfs/name/current/ -rw-r--r-- 1 hdfs hadoop 915 6月 11 19:03 2014 edits_0000000005216326417-0000000005216326429 -rw-r--r-- 1 hdfs hadoop 2538168320 6月 11 18:31 2014 fsimage.ckpt_0000000005216326414 -rw-r--r-- 1 hdfs hadoop 3251730168 6月 11 18:37 2014 fsimage_0000000005216326416 -rw-r--r-- 1 hdfs hadoop 62 6月 11 18:37 2014 fsimage_0000000005216326416.md5
11Copyright © 2016 NTT DATA Corporation  対象: 2.6.4/2.7.2より前の2系  詳細: 1. Excess Blockが発生 (replication数を変化させるなどで) 2. NNが該当ブロックを消去するようDNに依頼 3. DNが該当ブロックを消去して、NNにIncrementalBlockReportを 送り、NNがそれを処理する前に該当ブロックを含むファイル自体 が消去される 4. ExcessBlocksメトリクスとそのブロックを管理している Map(excessReplicateMap)がリセットされない  メモリリーク  確認: fsckを実行したときのover-replicated blockの値と、メト リクスExcessBlocksの値がずれている  対策: NameNodeをF/Oもしくは再起動する  関連: HDFS-6945 6. メトリクスExcessBlocksの値が正しくない
12Copyright © 2016 NTT DATA Corporation  対象: 2.7.0, 2.7.1  詳細:  ContainerMetricsの取得時にdeadlockすることがある  Metricsが取得できない (そのためWebUIも見れない)  ただしジョブは動作している  確認: NMのスタックトレース 7. NodeManager WebUIにアクセスできない Found one Java-level deadlock: ============================= "1193752357@qtp-907815246-22238": waiting to lock monitor 0x0000000005e20a18 (object 0x00000000f6afa048, a org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainerMetrics), which is held by "2107307914@qtp-907815246-19994" "2107307914@qtp-907815246-19994": waiting to lock monitor 0x0000000001a000a8 (object 0x00000000d4f1e1f8, a org.apache.hadoop.metrics2.impl.MetricsSystemImpl), which is held by "Timer for 'NodeManager' metrics system" "Timer for 'NodeManager' metrics system": waiting to lock monitor 0x00000000027ade88 (object 0x00000000f6582df0, a org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainerMetrics), which is held by "1530638165@qtp-907815246-19992" "1530638165@qtp-907815246-19992": waiting to lock monitor 0x0000000001a000a8 (object 0x00000000d4f1e1f8, a org.apache.hadoop.metrics2.impl.MetricsSystemImpl), which is held by "Timer for 'NodeManager' metrics system"
13Copyright © 2016 NTT DATA Corporation  対策: ContainerMetricsを利用しない  "yarn.nodemanager.container-metrics.enable"をfalseにする  関連: YARN-3619, YARN-4563 7. NodeManager WebUIにアクセスできない
14Copyright © 2016 NTT DATA Corporation HDFSのBlockが消える話 「本当にあったHadoopの恐い話〜 Blockはどこへきえた?」 にて詳しく紹介!
Copyright © 2011 NTT DATA Corporation Copyright © 2016 NTT DATA Corporation

More Related Content

HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
Hadoop ecosystem NTTDATA osc15tk
PDF
Hadoop ecosystem NTTDATA osc15tk
HDFS basics from API perspective
PDF
HDFS basics from API perspective
Apache Spark 1000 nodes NTT DATA
PDF
Apache Spark 1000 nodes NTT DATA
Hadoop2.6の最新機能+
PDF
Hadoop2.6の最新機能+
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
PDF
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Apache Hadoop and YARN, current development status
PDF
Apache Hadoop and YARN, current development status
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
HDFS basics from API perspective
HDFS basics from API perspective
Apache Spark 1000 nodes NTT DATA
Apache Spark 1000 nodes NTT DATA
Hadoop2.6の最新機能+
Hadoop2.6の最新機能+
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status

What's hot

大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
SIerとオープンソースの美味しい関係 〜コミュニティの力を活かして世界を目指そう〜
PDF
SIerとオープンソースの美味しい関係 〜コミュニティの力を活かして世界を目指そう〜
NTTデータ流 Hadoop活用のすすめ 〜インフラ構築・運用の勘所〜
PDF
NTTデータ流 Hadoop活用のすすめ 〜インフラ構築・運用の勘所〜
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
PDF
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Apache Hadoopの新機能Ozoneの現状
PDF
Apache Hadoopの新機能Ozoneの現状
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
HDFS Router-based federation
PDF
HDFS Router-based federation
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
PDF
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Apache Spark の紹介(前半:Sparkのキホン)
PDF
Apache Spark の紹介(前半:Sparkのキホン)
Apache Hadoopの未来 3系になって何が変わるのか?
PDF
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
OpenStack, Hadoop -- OSSクラウドの最新動向
PDF
OpenStack, Hadoop -- OSSクラウドの最新動向
20170303 java9 hadoop
PDF
20170303 java9 hadoop
Apache Hadoop 2.8.0 の新機能 (抜粋)
PDF
Apache Hadoop 2.8.0 の新機能 (抜粋)
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
PDF
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Distributed data stores in Hadoop ecosystem
PDF
Distributed data stores in Hadoop ecosystem
Hadoopエコシステムのデータストア振り返り
PDF
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
SIerとオープンソースの美味しい関係 〜コミュニティの力を活かして世界を目指そう〜
SIerとオープンソースの美味しい関係 〜コミュニティの力を活かして世界を目指そう〜
NTTデータ流 Hadoop活用のすすめ 〜インフラ構築・運用の勘所〜
NTTデータ流 Hadoop活用のすすめ 〜インフラ構築・運用の勘所〜
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
HDFS Router-based federation
HDFS Router-based federation
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Sparkをノートブックにまとめちゃおう。Zeppelinでね!(Hadoopソースコードリーディング 第19回 発表資料)
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
20170303 java9 hadoop
20170303 java9 hadoop
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)

Similar to サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)

Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
PPTX
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019年09月25日)
PDF
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019年09月25日)
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
PDF
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
大規模HDFS & ErasureCoding#yjdsw3
PDF
大規模HDFS & ErasureCoding#yjdsw3
HDFS Deep Dive
PDF
HDFS Deep Dive
ヤフーにおけるHadoop Operations #tdtech
PDF
ヤフーにおけるHadoop Operations #tdtech
Hadoop Troubleshooting 101 - Japanese Version
PPTX
Hadoop Troubleshooting 101 - Japanese Version
データインターフェースとしてのHadoop 〜HDFSとクラウドストレージと私〜 (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
PDF
データインターフェースとしてのHadoop 〜HDFSとクラウドストレージと私〜 (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
PPTX
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
Hadoopのシステム設計・運用のポイント
PDF
Hadoopのシステム設計・運用のポイント
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
HBase on EC2
PDF
HBase on EC2
HBase Across the World #LINE_DM
PDF
HBase Across the World #LINE_DM
Hadoop book-2nd-ch3-update
PDF
Hadoop book-2nd-ch3-update
Hadoop Operations #cwt2013
PDF
Hadoop Operations #cwt2013
HDFS (fsimage and edits) in CDH3,CDH4
PPTX
HDFS (fsimage and edits) in CDH3,CDH4
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019年09月25日)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019年09月25日)
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
本当にあったHadoopの恐い話 Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
大規模HDFS & ErasureCoding#yjdsw3
大規模HDFS & ErasureCoding#yjdsw3
HDFS Deep Dive
HDFS Deep Dive
ヤフーにおけるHadoop Operations #tdtech
ヤフーにおけるHadoop Operations #tdtech
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
データインターフェースとしてのHadoop 〜HDFSとクラウドストレージと私〜 (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop 〜HDFSとクラウドストレージと私〜 (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
HBase on EC2
HBase on EC2
HBase Across the World #LINE_DM
HBase Across the World #LINE_DM
Hadoop book-2nd-ch3-update
Hadoop book-2nd-ch3-update
Hadoop Operations #cwt2013
Hadoop Operations #cwt2013
HDFS (fsimage and edits) in CDH3,CDH4
HDFS (fsimage and edits) in CDH3,CDH4

More from NTT DATA OSS Professional Services

PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PDF
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
Apache Sparkに手を出してヤケドしないための基本 〜「Apache Spark入門より」〜 (デブサミ 2016 講演資料)
PDF
Apache Sparkに手を出してヤケドしないための基本 〜「Apache Spark入門より」〜 (デブサミ 2016 講演資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
PDF
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
商用ミドルウェアのPuppet化で気を付けたい5つのこと
PDF
商用ミドルウェアのPuppet化で気を付けたい5つのこと
Application of postgre sql to large social infrastructure
PDF
Application of postgre sql to large social infrastructure
ブロックチェーンの仕組みと動向(入門編)
PPTX
ブロックチェーンの仕組みと動向(入門編)
Spark SQL - The internal -
PDF
Spark SQL - The internal -
データ活用をもっともっと円滑に! 〜データ処理・分析基盤編を少しだけ〜
PDF
データ活用をもっともっと円滑に! 〜データ処理・分析基盤編を少しだけ〜
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
今からはじめるPuppet 2016 〜 インフラエンジニアのたしなみ 〜
PPTX
今からはじめるPuppet 2016 〜 インフラエンジニアのたしなみ 〜
Apache Kafkaって本当に大丈夫?〜故障検証のオーバービューと興味深い挙動の紹介〜
PDF
Apache Kafkaって本当に大丈夫?〜故障検証のオーバービューと興味深い挙動の紹介〜
Structured Streaming - The Internal -
PDF
Structured Streaming - The Internal -
Global Top 5 を目指す NTT DATA の確かで意外な技術力
PDF
Global Top 5 を目指す NTT DATA の確かで意外な技術力
PostgreSQLコミュニティに飛び込もう
PDF
PostgreSQLコミュニティに飛び込もう
Application of postgre sql to large social infrastructure jp
PDF
Application of postgre sql to large social infrastructure jp
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
Apache Sparkに手を出してヤケドしないための基本 〜「Apache Spark入門より」〜 (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 〜「Apache Spark入門より」〜 (デブサミ 2016 講演資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
Spark SQL - The internal -
Spark SQL - The internal -
データ活用をもっともっと円滑に! 〜データ処理・分析基盤編を少しだけ〜
データ活用をもっともっと円滑に! 〜データ処理・分析基盤編を少しだけ〜
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
今からはじめるPuppet 2016 〜 インフラエンジニアのたしなみ 〜
今からはじめるPuppet 2016 〜 インフラエンジニアのたしなみ 〜
Apache Kafkaって本当に大丈夫?〜故障検証のオーバービューと興味深い挙動の紹介〜
Apache Kafkaって本当に大丈夫?〜故障検証のオーバービューと興味深い挙動の紹介〜
Structured Streaming - The Internal -
Structured Streaming - The Internal -
Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
PostgreSQLコミュニティに飛び込もう
PostgreSQLコミュニティに飛び込もう
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp

Recently uploaded

PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
PCCC25(設立25年記念PCクラスタシンポジウム):菱洋エレクトロ株式会社 テーマ1「製造業向けAI・HPCハイパフォーマンス基盤 RTX PROTM ...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):菱洋エレクトロ株式会社 テーマ1「製造業向けAI・HPCハイパフォーマンス基盤 RTX PROTM ...
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
PDF
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
PCCC25(設立25年記念PCクラスタシンポジウム):株式会社アルゴグラフィックス テーマ1「ARGO北見テクノセンターのご紹介」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):株式会社アルゴグラフィックス テーマ1「ARGO北見テクノセンターのご紹介」
論文紹介 Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over...
PDF
論文紹介 Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over...
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
PDF
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
PCCC25(設立25年記念PCクラスタシンポジウム):筑波大学計算科学研究センター テーマ3「学際計算科学による最新の研究成果」
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):筑波大学計算科学研究センター テーマ3「学際計算科学による最新の研究成果」
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
PDF
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
PCCC25(設立25年記念PCクラスタシンポジウム):菱洋エレクトロ株式会社 テーマ1「製造業向けAI・HPCハイパフォーマンス基盤 RTX PROTM ...
PCCC25(設立25年記念PCクラスタシンポジウム):菱洋エレクトロ株式会社 テーマ1「製造業向けAI・HPCハイパフォーマンス基盤 RTX PROTM ...
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
PCCC25(設立25年記念PCクラスタシンポジウム):株式会社アルゴグラフィックス テーマ1「ARGO北見テクノセンターのご紹介」
PCCC25(設立25年記念PCクラスタシンポジウム):株式会社アルゴグラフィックス テーマ1「ARGO北見テクノセンターのご紹介」
論文紹介 Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over...
論文紹介 Rethinking Classifier Re-Training in Long-Tailed Recognition: Label Over...
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
PCCC25(設立25年記念PCクラスタシンポジウム):筑波大学計算科学研究センター テーマ3「学際計算科学による最新の研究成果」
PCCC25(設立25年記念PCクラスタシンポジウム):筑波大学計算科学研究センター テーマ3「学際計算科学による最新の研究成果」
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...

サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)

  • 1.
    Copyright © 2016 NTT DATA Corporation 2016年2月8日 NTTデータ 鯵坂 明 サポートメンバは見た! Hadoopバグワースト10 Hadoop Conference Japan 2016 ライトニングトーク
  • 2.
    Copyright © 2016 NTT DATA Corporation 2016年2月8日 NTTデータ 鯵坂 明 サポートメンバは見た! Hadoopバグワースト7 10 Hadoop Conference Japan 2016 ライトニングトーク
  • 3.
    3Copyright © 2016 NTT DATA Corporation  過去5年にわたるNTTデータのHadoopサポートサービスにおい て、問題になったHadoopのバグをおおよそ時系列順に紹介  対象バージョン  詳細  確認方法  "バージョンアップ以外の"対策  関連するJIRAの番号 - https://issues.apache.org/jira/browse/<JIRAの番号>  新しいバージョンではほぼ全てfixされている  略称一覧  NN(NameNode), DN(DataNode), SNN(SecondaryNameNode), NM(NodeManager), JT(JobTracker) まえがき
  • 4.
    4Copyright © 2016 NTT DATA Corporation  対象: 2.0.3-alpha以前  詳細:  HDFSのファイル名に🐱(U+1F4131)のような、UTF-8において4バ イトで表現される文字が含まれる場合、チェックポイント処理に失 敗し続け、editsが肥大化する  NNを再起動できなくなる  確認:  Edits viewerで多バイト文字が含まれるファイルを探す  対策: ファイル名に多バイト文字を避ける  HiveのDynamic Partitionで、テーブルの中身からHDFSのファイル 名が自動生成される場合に注意  関連: HADOOP-9103 1. UTF-8の4バイト文字が正しくデコードできない
  • 5.
    5Copyright © 2016 NTT DATA Corporation  対象: 2.8.0以前 (現在のリリースバージョン全て)  詳細:  Hiveでは、クエリの先頭(コメント含む)を使って最大50文字になる ようジョブ名を自動生成する  JobHistoryのファイル名には、URLエンコードされたジョブ名が含 まれる  ジョブ名にマルチバイト文字が含まれる場合、URLエンコードされ ることでファイル名がOSの制限(255文字)を超える  確認: JT/MRAppMasterログ 2. MapReduceのJobHistoryFileが作成できない 20XX-XX-XX XX:XX:XX,XXX ERROR org.apache.hadoop.mapred.JobHistory: Failed creating job history log file for job job_201510291126_147769 java.io.FileNotFoundException: /var/log/hadoop-0.20- mapreduce/history/job_2015XXXXXXXX_XXXXXX_XXXXXXXXXX_XXXXXXX_XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX- XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX (ファイル名が長すぎます) at java.io.FileOutputStream.open(Native Method)
  • 6.
    6Copyright © 2016 NTT DATA Corporation  対策:  Hiveクエリの先頭(コメント含む)にマルチバイト文字(ひらがなカタ カナ漢字)を使わない  Hiveのプロパティ "hive.jobname.length" をデフォルトの50より 小さい値にする  関連: MAPREDUCE-6616 2. MapReduceのJobHistoryFileが作成できない
  • 7.
    7Copyright © 2016 NTT DATA Corporation  対象: 2.1.0-beta以前の2系  詳細:  pipeline recovery時にDNがdeadlockする可能性がある  NNとheartbeat通信できなくなり、HDFSクラスタから切り離される  確認: DNのスタックトレース  明にdeadlockと表示されないことに注意 3. DataNodeがdeadlockする "DataXceiver for client DFSClient_NONMAPREDUCE_1090577789_1 at /XXX.XXX.XXX.XXX:48891 [Receiving block BP-195048853-127.0.0.1- 1351858280084:blk_170845781886878002_707423606]" daemon prio=10 tid=0x0000000042d34800 nid=0x5282 in Object.wait() [0x00007efed39b5000] java.lang.Thread.State: WAITING (on object monitor) at java.lang.Object.wait(Native Method) at java.lang.Thread.join(Thread.java:1186) - locked <0x0000000761939bf8> (a org.apache.hadoop.util.Daemon) at java.lang.Thread.join(Thread.java:1239) at org.apache.hadoop.hdfs.server.datanode.ReplicaInPipeline.stopWriter(ReplicaInPipeline.java:157) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.recoverRbw(FsDatasetImpl.java:706) - locked <0x0000000750413dd0> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl) "DataXceiver for client DFSClient_NONMAPREDUCE_591891114_1 at /XXX.XXX.XXX.XXX:48889 [Receiving block BP-195048853-127.0.0.1- 1351858280084:blk_-1426412348578625507_707423594]" daemon prio=10 tid=0x000000004190c000 nid=0x527c waiting for monitor entry [0x00007efed49c5000] java.lang.Thread.State: BLOCKED (on object monitor) at org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl.recoverRbw(FsDatasetImpl.java:692) - waiting to lock <0x0000000750413dd0> (a org.apache.hadoop.hdfs.server.datanode.fsdataset.impl.FsDatasetImpl)
  • 8.
    8Copyright © 2016 NTT DATA Corporation  対策:  Deadlockが発生したDNを再起動する  関連: HDFS-4851, HDFS-5016  Cloudera blog: http://www.cloudera.co.jp/blog/understanding-hdfs- recovery-processes-part-2-ja.html 3. DataNodeがdeadlockする
  • 9.
    9Copyright © 2016 NTT DATA Corporation  対象: 2.3.0以前  詳細:  append APIを実行すると、ブロックの世代が新しくなる  このタイミングでover replicatedの状態になると、excess blockと して新しいブロックが消されることがある  運悪く新しいブロックが全て消されると、残った古いblockが corrupt扱い → missing block  確認:  auditログから、appendを実行していたかどうか確認する  詳細を見るには、NNとDNログを追いかけるしかない  対策:  HDFS append APIをなるべく使わない (hflush/hsyncがある)  特に、close直後のappendを避ける - close直後はover replicatedになりやすい (HDFS-1172)  関連: HDFS-5438 4. HDFSでMissingBlockが発生する
  • 10.
    10Copyright © 2016 NTT DATA Corporation  対象: 2.7.0以前  詳細:  HDFSのチェックポイント処理中にタイムアウトした場合、転送途 中のfsimageが消されずに残る - NN/SNNのディスク容量が圧迫される  確認: NN/SNNのfsimage保存領域に、名前に".ckpt"を含むファ イルがある  対策: 手動で中間ファイルを消す  関連: HDFS-7373 5. HDFSのcheckpoint失敗時に転送途中のfsimageが消えない # ls -l /data/hdfs1/dfs/name/current/ -rw-r--r-- 1 hdfs hadoop 915 6月 11 19:03 2014 edits_0000000005216326417-0000000005216326429 -rw-r--r-- 1 hdfs hadoop 2538168320 6月 11 18:31 2014 fsimage.ckpt_0000000005216326414 -rw-r--r-- 1 hdfs hadoop 3251730168 6月 11 18:37 2014 fsimage_0000000005216326416 -rw-r--r-- 1 hdfs hadoop 62 6月 11 18:37 2014 fsimage_0000000005216326416.md5
  • 11.
    11Copyright © 2016 NTT DATA Corporation  対象: 2.6.4/2.7.2より前の2系  詳細: 1. Excess Blockが発生 (replication数を変化させるなどで) 2. NNが該当ブロックを消去するようDNに依頼 3. DNが該当ブロックを消去して、NNにIncrementalBlockReportを 送り、NNがそれを処理する前に該当ブロックを含むファイル自体 が消去される 4. ExcessBlocksメトリクスとそのブロックを管理している Map(excessReplicateMap)がリセットされない  メモリリーク  確認: fsckを実行したときのover-replicated blockの値と、メト リクスExcessBlocksの値がずれている  対策: NameNodeをF/Oもしくは再起動する  関連: HDFS-6945 6. メトリクスExcessBlocksの値が正しくない
  • 12.
    12Copyright © 2016 NTT DATA Corporation  対象: 2.7.0, 2.7.1  詳細:  ContainerMetricsの取得時にdeadlockすることがある  Metricsが取得できない (そのためWebUIも見れない)  ただしジョブは動作している  確認: NMのスタックトレース 7. NodeManager WebUIにアクセスできない Found one Java-level deadlock: ============================= "1193752357@qtp-907815246-22238": waiting to lock monitor 0x0000000005e20a18 (object 0x00000000f6afa048, a org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainerMetrics), which is held by "2107307914@qtp-907815246-19994" "2107307914@qtp-907815246-19994": waiting to lock monitor 0x0000000001a000a8 (object 0x00000000d4f1e1f8, a org.apache.hadoop.metrics2.impl.MetricsSystemImpl), which is held by "Timer for 'NodeManager' metrics system" "Timer for 'NodeManager' metrics system": waiting to lock monitor 0x00000000027ade88 (object 0x00000000f6582df0, a org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainerMetrics), which is held by "1530638165@qtp-907815246-19992" "1530638165@qtp-907815246-19992": waiting to lock monitor 0x0000000001a000a8 (object 0x00000000d4f1e1f8, a org.apache.hadoop.metrics2.impl.MetricsSystemImpl), which is held by "Timer for 'NodeManager' metrics system"
  • 13.
    13Copyright © 2016 NTT DATA Corporation  対策: ContainerMetricsを利用しない  "yarn.nodemanager.container-metrics.enable"をfalseにする  関連: YARN-3619, YARN-4563 7. NodeManager WebUIにアクセスできない
  • 14.
    14Copyright © 2016 NTT DATA Corporation HDFSのBlockが消える話 「本当にあったHadoopの恐い話〜 Blockはどこへきえた?」 にて詳しく紹介!
  • 15.
    Copyright © 2011 NTT DATA Corporation Copyright © 2016 NTT DATA Corporation

AltStyle によって変換されたページ (->オリジナル) /