添付ファイルのインデックス作成を無効化する方法
目的
サイズの大きい MS Excel または MS PowerPoint ドキュメントのインデックスで問題が発生し、再インデックスで Unknown Ptg
の警告メッセージが表示されることがあります。これは無害です。POI ライブラリで読解不可能なドキュメントの再インデックスでこのような警告を停止するリクエストが起票されています。
このエラーは通常は深刻なものではありませんが、大規模な添付ファイルが利用されている場合は問題を発生させることがあります。このため、特定の種類の添付ファイルに対してインデックス作成を無効化したい場合があります。
これを行うには次のいずれかの方法を利用できます。
Confluence 6.2.2 では、大規模な添付ファイルのインデックス作成時にご利用のサイトのメモリ不足エラーを防ぐ変更が行われています。この変更には、テキスト抽出やインデックス プロセス前のファイル サイズ (設定可能) の確認が含まれます。添付ファイルのインデックス作成を完全に無効化する前に「添付ファイルのサイズの設定」で仕組みをご確認ください。ご利用のサイトに合わせて制限を調整できる可能性があります。
ソリューション
方法 1: 管理コンソールを利用
この方法は、UI でシステム プラグインを無効化できない Confluence 7+ では利用できません。Confluence 7 を実行している場合は方法 2 をご利用ください。
- Confluence 管理 > [アドオンの管理] に移動します。
- 画面の中央に、[User Installed] というプルダウン メニューがあります。これを [All Add-ons] に変更します。
- [System Add-ons] 配下の [System Add-ons] にスクロールします。
- [Attachment Extractors] を展開します。
- [1 of 1 modules enabled] の横の [+] 記号をクリックします。
- [PDF Content Extractor] にカーソルをあわせると [disable] ボタンが表示されます。
- [disable] ボタンをクリックします。
- [Office Connector] プラグインにスクロールします。
- [Office Connector] プラグインを展開します。
- [x out of x modules enabled] を展開します。
- 次のモジュールを無効化します。
- Word Content Extractor
- Word XML Content Extractor
- Powerpoint 97 Content Extractor
- Powerpoint 2007 Content Extractor
- Excel 97 Content Extractor
- Excel 2007 Content Extractor
無効化したモジュールに対応するタイプのすべての添付ファイル コンテンツが検索クエリで無視されるようになります。
バンドルされたモジュールは再起動後に再び有効化される点にご注意ください。永続的なソリューションが必要な場合は方法 2 をご利用ください。
方法 2: プラグインの atlassian-plugin.xml
ファイルを編集
次の JAR ファイル内にある atlassian-plugin.xml
ファイルのコンテンツを編集し、関連するファイル タイプ抽出をコメント アウトする必要があります。
confluence-attachment-extractors-x.x.jar
(PDF用) またはOfficeConnector-x.x.jar
(Office ファイル用)
これらの JAR ファイルはいずれも confluence\WEB-INF\atlassian-bundled-plugins
ディレクトリにあります。
JAR ファイルの編集に馴染みがない場合は「Confluence の JAR ファイル内のファイルを編集する方法」で詳細をご確認ください。
atlassian-plugin.xml
ファイル内のファイル タイプ抽出は key
属性における ContentExtractor
の有無で特定できます。
特定のファイル タイプの ContentExtractor
を無効化すると、そのタイプのすべてのファイルが検索対象外になります。
次の例では pdfContentExtractor が無効化されているため、PDF の添付ファイルがインデックスされなくなります。
<atlassian-plugin key="com.atlassian.confluence.plugins.attachmentExtractors" name="Attachment Extractors">
<plugin-info>
<description>This plugin extracts searchable text from various attachment types.</description>
<version>1.1</version>
<vendor name="Atlassian Pty Ltd" url="http://www.atlassian.com/"/>
</plugin-info>
<!--
<extractor name="PDF Content Extractor" key="pdfContentExtractor" class="com.atlassian.bonnie.search.extractor.PdfContentExtractor" priority="1100">
<description>Indexes contents of PDF files</description>
</extractor>
-->
</atlassian-plugin>
次の表は、OfficeConnector-x.x.jar
ファイル内の atlassian-plugin.xml
のファイル タイプの抽出を示しています。インデックスを防ぐにはコメント アウトが必要です。
添付ファイルのタイプ | ファイル タイプ抽出 |
---|---|
Word 97/2007 ( |
|
PowerPoint 97 ( |
|
PowerPoint 2007 ( |
|
Excel 97 ( |
|
Excel 2007 ( |
|