Links

Abstract

PROBLEM TO BE SOLVED: To provide a customizable image classification device and method for classifying images by using whole images while suppressing the labor of a user to the minimum.

SOLUTION: The image classification device 10 includes an image registration device 20. The image registration device 20 includes: a first similarity calculation means 21 for calculating the similarity of images with respect to an input image in the local region of an image; a first image DB22 for storing the data of an image to which a keyword which is concrete for a user is attached as a tag; a first similarity decision means 23 for making first similarity decision; a second similarity calculation means 24 for calculating the similarity of the whole images for the input image; a second image DB25 for storing the data of the image to which the tag of an ambiguous keyword is attached; and a second similarity decision means 26 for making second similarity decision.

COPYRIGHT: (C)2010,JPO&INPIT

Description

Translated from Japanese

本発明は、例えばデジタルスチルカメラで撮影した画像を蓄積する際に画像を比較して分類する画像分類装置及び画像分類方法に関する。 The present invention relates to image classification apparatus and an image classification method for classifying compares the image when storing an image photographed by a digital still camera.

近年、デジタルスチルカメラの爆発的な普及や、デジタルスチルカメラに搭載される記憶容量の増大に伴って、一般的な写真撮影方法に大きな変化が見られるようになった。 Recently, explosive spread or digital still cameras, with the increase of the storage capacity to be installed in a digital still camera, a large change is now seen in general photography methods.即ち、従来の銀塩カメラでは一回のフィルム交換で２０回程度の撮影しか行えず、それぞれの写真に対して撮り直しもできなかったため、ユーザは撮影するシーン、人物、タイミングを吟味し、ここぞという場面でシャッターを押すことで、厳選された写真のみを取得していた。 In other words, can not be performed only shot about 20 times in one of the film exchange in conventional silver halide camera, because it could not be re-taken for each of the photos, the user can examine the scene to be photographed, the person, the timing, here by pressing the shutter at the scene of each, it had acquired only the photos that have been carefully selected.

これに対し、デジタルスチルカメラでは、何百枚もの画像を撮影することができる上に、一度撮影した画像を液晶モニタ上で確認し、不要な画像を容易に削除できるため、昨今ではとりあえず様々な場面で何度もシャッターを切り、後でそれらを吟味し、取捨選択を行うといった撮影方法が主流となっており、ユーザの保持する画像数は増大の一途である。 On the other hand, in the digital still camera, on which it is possible to capture an image of hundreds of sheets, for an image that was once taken to check on the LCD monitor, can delete unwanted images easily, for the time being a variety in recent years many times releases the shutter scene later examine them, imaging methods such perform selection and the mainstream, the number of images held in the user There is a continually increasing.さらに言えば、デジタルスチルカメラで撮影した画像を保持しておくＰＣのハードディスクや光ディスクといった記憶装置の容量も年々増加しており、いまやユーザは天文学的な枚数の画像を保持することが可能となっている。 More, the capacity of the storage device such as a hard disk or an optical disk of the PC to hold the image captured by a digital still camera are also increasing year by year, now the user becomes possible to retain the image of the astronomical number ing.その結果、取捨選択を行わずにそのまま記憶装置に大量の画像を保持しておくユーザも少なくない。 As a result, the user not a few to hold the large number of images as it is a storage device without selection.

一方、そのように莫大な数の画像がＰＣの記憶領域内に保持されているとなると、場合によっては必要な画像を探す際には長大な時間を要することになる。 On the other hand, if so enormous number of images is the held in the storage area of ​​the PC, it takes very long time when searching for a desired image in some cases.例えば、必要な画像を探さなければならない場合の例として、運動会の日に子供が友人と一緒に写っている写真を選択して印刷し、その友人に配る場合が挙げられる。 For example, as an example of if you do not have to find the necessary image, children in the athletic meet of the day to select and print photos that is reflected with a friend, and the like may hand out to their friends.このような場合、ユーザの一般的な画像の探し方は以下のとおりである。 In this case, how to find a general image of the user is as follows.

まず、画像に付加された情報で画像を絞り込み（第１の絞り込み）、絞り込まれた画像を縮小表示して並べてその中から友人が写っていると思しき画像を絞り込む（第２の絞り込み）。 First, the image information attached to the image refinement (first narrowing), arranged to display reduced narrowed image Filter Oboshiki image when a friend is captured from among them (second narrowing).最後に一枚一枚画像を拡大表示し、確認しながら所望の画像を探す（第３の絞り込み）ことになる。 Finally, zoom in on the one by one image, the confirmation while Find the desired image becomes (a third of narrowing) it.このように一枚一枚画像を確認しながら過去を振り返ることは、写真の醍醐味ではあるが、先程例に挙げた様に他人に配るための画像を検索する場合は効率的な作業が求められる。 Thus to look back while confirming the one image one, albeit in the photographic best part, is required efficient operation when searching an image to distribute to others as mentioned earlier Examples .

このとき、画像の絞り込み、特に第１の絞り込みで十分に画像を絞り込むことができれば、それほどユーザの負担は大きくない。 At this time, images narrowed down, if it is possible to narrow down the well image especially in the first narrowing, not large so much burden on the user.しかし、第１の絞り込みで利用する付加情報のうち、人手を介さず自動的に付加される付加情報は、一般に画像に対して間接的である場合が多い。 However, among the additional information to be utilized in the first narrowing, additional information to be automatically added without human intervention, is often indirectly against general image.例えば、最も一般的な付加情報は撮影日時であるが、イベントの日時を正確に記憶しているユーザは少なく、そのようなユーザにとって、撮影日時はイベントと画像を繋ぐ間接的な情報でしかない。 For example, although the most common additional information is shooting date and time, the user rarely are exactly store the date and time of the event, for such users, the shooting date and time is only indirect information connecting events and images .また、その他の一般的な付加情報として、撮影モード等もあるが、これは更に間接的な情報である。 Further, as other general additional information, there is a shooting mode or the like, which is further indirect information.例えば撮影時にフラッシュが使用されたことが付加情報として保持されていても、その情報からユーザは室内で撮影が行われたのか、夜に撮影が行われたのか、天気が悪かったのか、といった推測を行う必要があるという問題がある。 For example be held as the additional information that the flash is used during shooting, whether the user from the information captured indoors is performed, whether photographing at night is performed, guess whether the bad weather, such as there is a problem that it is necessary to carry out.その結果、効果的な付加情報を得るためには、ユーザの手作業による分類に頼るしかなかった。 As a result, in order to obtain an effective additional information was only rely on manual classification of the user.なお、この分類手段について大別すると、ディレクトリ構造による分類、及び画像に何らかの手段でタグを付けるアノテーションの２種類がある。 Incidentally, roughly classified into this classification means, classification by the directory structure, and there are two types of annotation tag by some means to the image.

以上の理由で、ユーザの手作業による分類を自動化するために、様々な技術が提案されている（例えば、特許文献１参照）。 The above reasons, in order to automate the manual classification of user, there have been proposed various techniques (e.g., see Patent Document 1).特許文献１では画像全体の特徴量を算出し、該特徴量に応じて自動的に画像を分類する技術が提案されている。 Calculating a feature quantity of the whole patent document 1, an image, a technique for classifying image automatically in accordance with the characteristic quantity have been proposed.この技術を用いることで、画像が自動的に分類されるので、ユーザの手作業を大幅に削減することができる。 By using this technique, the image is automatically classified, it is possible to significantly reduce the manual user.

ここで、この技術を使って写真画像を分類しようとする場合、どのような特徴量をどのカテゴリに分類するかという識別ルールを決定しなければならない。 Here, if you try to classify photographic images using this technology, you must determine the identity rules of how to classify what kind of feature amount in any category.識別ルールの決定の仕方には様々な手段が考えられる。 There are various means in the way of determination of the identification rules.例えば、事前に分類された画像の中で入力画像と最も類似度の高い画像のカテゴリに分類するといった手法が考えられる。 For example, techniques such categorizing the highest similarity image and the input image in the pre-classified images is considered.しかし、写真は、背景、人物、特定の物体など、様々な要素で構成されていることが多く、それぞれの要素の位置関係が変わるだけでも画像特徴量は大きく変わってしまう。 However, pictures, background, person, such as a particular object, that is composed of various elements often, the image feature quantity alone positional relationship is changed for each element is greatly changed.その結果、例えば、風景画と肖像画とを分類するだけでも、様々なパターンの画像を用意しなければならない。 As a result, for example, in addition to classifying the landscape and portrait, it is necessary to prepare images of various patterns.ここで、例えば、一枚一枚の画像との類似度を判定するのではなく、非特許文献１に示されたＳＶＭ（Support Vector Machine）といった汎化性能の高い学習・識別器によって、カテゴリの傾向を算出しておけば、用意する画像数を削減できるが、それでも大量の画像を必要とする。 Here, for example, instead of determining the similarity between one single image, the higher learning, classifier generalization performance such SVM shown in Non-Patent Document 1 (Support Vector Machine), the category of Once you have calculated the trend, but can reduce the number of images to be prepared, but still requires a large amount of image.このような大量の画像をユーザに用意させることは、ユーザにとって負荷が大きい。 Such large number of images to be prepared to a user, the load is large for the user.

これに対し、事前に、例えばソフトウェアでサービスを提供する場合にはソフトウェア出荷時に、様々な画像を用意しておくことで前述の問題は回避されるが、ユーザによるカスタマイズに対してフレキシブルな対応ができなくなる。 In contrast, in advance, for example during a software factory when providing services in software, although the problems described above by to be prepared a variety of images is avoided, flexible response is against user customization become unable.例えば、肖像画であっても、自分やその親族が写ったものは、ユーザにとって特別な意味を持ち、ユーザがそのような画像を分類したくなることは容易に想像できる。 For example, even in the portrait, what he and his relatives were captured has a special meaning for the user, the user that will want to classify such an image can be easily imagined.一方、ソフトウェア出荷時に、ユーザの顔を登録しておくことは不可能である。 On the other hand, at the time of software shipment, it is impossible to register the face of the user.以上のように、画像全体を用いてフレキシブルに画像を分類することは難しい。 As described above, it is difficult to classify an image into flexible with the entire image.

一方、画像の局所に注目して分類する手法が提案されている（例えば、特許文献２参照）。 Meanwhile, a technique for classifying attention to local image has been proposed (e.g., see Patent Document 2).特許文献２に記載のものは、画像から特定のオブジェクトを抽出し、抽出したオブジェクトに一度オブジェクト名を付加すると、オブジェクト名を付けたオブジェクトと類似するオブジェクトが以降撮影された場合、自動的にその画像にも同様にそのオブジェクト名を付加する。 Those described in Patent Document 2, to extract a specific object from an image, adding once object name extracted object, if an object similar to the object with the object name is captured later, automatically its also adds the object name in the same manner in the image.前述の画像全体を比較する手法に比べて、個々のオブジェクトを抽出しているので、それらの組み合わせパターンが劇的に少なくなり、比較的少ない画像数で分類可能である。 In comparison with a method of comparing the overall image of the above, since the extracted individual objects, their combination patterns is dramatically reduced, it can be classified with a relatively small number of images.しかし、ユーザ自身や親族の顔等は、一般的にユーザの保持する写真に大量に含まれている可能性が高く、特許文献２に記載の手法のみでは、十分な絞り込みが行えないという問題があった。 However, the face of the user himself and relatives are generally more likely to contain a large amount in the photographic held by the user, only the technique described in Patent Document 2, a problem that can not be performed sufficiently narrowing the there were.特許第４０３６００９号公報 Patent No. 4036009 Publication特開２００６−３３３４４３号公報 JP 2006-333443 JP

本発明は、前述のような事情に鑑みてなされたものであり、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる画像分類装置及び画像分類方法を提供することを目的とする。 The present invention has been made in view of the circumstances as described above, while minimizing the burden on the user, customizable, and image classification apparatus and an image classification can be carried out classification using the whole image an object of the present invention to provide a method.

本発明の画像分類装置は、キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類装置であって、前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶する第１及び第２の画像データ記憶手段と、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出する局所領域抽出手段と、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出する第１の類似度算出手段と、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出する第２の類似度算出手段と、前記第１及び前記第２の類似度算出手段が算出した類似度に基づいてキーワードを前記入力画像に付与するキーワード付与手段とを備えた構成を有している。 Image classification apparatus of the present invention is an image classification apparatus for classifying the input image by comparing the similarity between the input image and image keyword is applied, the first and the keyword is registered granted a local region extraction means for extracting from the first and the second image data storing means, a predetermined size of the local region the input image and the first image storing data of the second image, respectively, extracted was the first similarity calculation means for calculating a similarity between said local regions and the input image of the first image, the similarity between the entire image of the entire image of the input image and the second image a second similarity calculation means for calculating, a configuration in which a keyword adding means for adding a keyword to the input image based on the similarity of the first and the second similarity calculation means has calculated ing.

この構成により、本発明の画像分類装置は、局所領域及び画像全体における類似度を算出することにより細やかな画像の分類が行えるので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。 With this configuration, the image classification device of the present invention, since the performed classification of fine images by calculating the similarity in the entire local region and the image, while minimizing the burden on the user, customizable, and image it is possible to perform a classification using the whole.

また、本発明の画像分類装置は、前記第１の画像データ記憶手段が、ユーザが具体的なキーワードを付与して登録した画像のデータを前記第１の画像のデータとして記憶するものである構成を有している。 Further, the image classification device of the present invention, the first image data storage means is for storing the data of the image registered by the user by applying specific keywords as data of the first image configuration have.

この構成により、本発明の画像分類装置は、入力画像に対してユーザに具体的なキーワードを付与させるので、入力画像のカスタマイズが可能となる。 With this configuration, the image classification device of the present invention, since the user is granted specific keywords for the input image, the customizable of the input image.

また、本発明の画像分類装置は、前記第２の画像データ記憶手段は、予め定めた曖昧なキーワードが付された画像のデータを前記第２の画像のデータとして記憶するものである構成を有している。 The image classification apparatus of the present invention, the second image data storing means, have a structure in which to store the data of the image ambiguous keywords preset is attached as the data of the second image doing.

この構成により、本発明の画像分類装置は、曖昧なキーワードによって画像全体の類似度を算出することができる。 With this configuration, the image classification device of the present invention, it is possible to calculate the similarity of the entire image by ambiguous keywords.また、第２の画像のデータが装置の工場出荷時に登録されていれば、ユーザが第２の画像を登録する手間を省略でき、ユーザの負担を抑えることができる。 Also, data of the second image is registered at the factory of the apparatus, can be omitted time and labor for the user to register the second image, it is possible to suppress the burden on the user.

また、本発明の画像分類装置は、前記局所領域抽出手段が、画像の特徴量が極値を示す極値画素を検出する極値画素検出部と、前記入力画像及び前記第１の画像のそれぞれにおいて前記極値画素近傍の画像特徴量を算出する特徴量算出手段と、算出した特徴量を比較する特徴量比較部と、前記入力画像及び前記第１の画像のそれぞれにおける極値画素の位置関係に基づいて極値画素を選定する極値画素選定部と、前記極値画素選定部が選定した極値画素の数に基づいて前記第１の画像に対応する画像領域を前記入力画像から抽出する対応領域抽出部とを備えた構成を有している。 The image classification apparatus of the present invention, the local area extracting means, the extremum pixel detector for detecting an extreme value pixels indicated feature amount extremes of images, each of said input image and said first image wherein the feature quantity calculating means for calculating an image feature quantity of extremum pixel neighborhood, the calculated feature quantity comparing unit for comparing the characteristic amount, the positional relationship of the extreme pixels in each of said input image and said first image in extracts the extremum pixel selection unit for selecting an extreme value pixel, an image region from the input image corresponding to the first image based on the number of extremum pixels the extremum pixel selection unit is selected based on It has a configuration in which a corresponding area extracting unit.

この構成により、本発明の画像分類装置は、極値画素選定部が選定した極値画素の数に基づいて第１の画像に対応する画像領域を入力画像から抽出することができる。 With this configuration, the image classification device of the present invention, it is possible to extract an image region corresponding to the first image based on the number of extremum pixels extremum pixel selection unit is selected from the input image.

また、本発明の画像分類装置は、前記第１の類似度算出手段が、前記対応領域抽出部が抽出した画像領域の画像と前記第１の画像とを比較して前記類似度を算出する画像比較手段を備えた構成を有している。 Further, the image classification device of the present invention, the first similarity calculation means, an image to calculate the degree of similarity by comparing the corresponding area extracting unit of the extracted image region image and said first image It has a configuration in which a comparator unit.

この構成により、本発明の画像分類装置は、抽出した画像領域における特徴量に基づいて類似度を算出することにより、類似度の算出精度を向上させることができる。 With this configuration, the image classification device of the present invention, by calculating the similarity based on the feature amounts in the extracted image area, it is possible to improve the calculation accuracy of the similarity.

また、本発明の画像分類装置は、前記極値画素検出部は、ユーザが前記第１の画像として登録する際の画像の極値画素を検出するものであって、前記極値画素検出部が検出した前記極値画素の数が予め定めた数以下のとき前記ユーザに警告を与える警告手段を備えた構成を有している。 Further, the image classification device of the present invention, the extremum pixel detection unit is for detecting an extreme value pixel of the image when the user registers as the first image, the extremum pixel detection unit when the number of detected said extremum pixel number below a predetermined has a configuration comprising a warning means for giving a warning to the user.

この構成により、本発明の画像分類装置は、登録される多数の画像に同じキーワードが付与されることを防止できるので、ユーザの利便性を向上させることができる。 With this configuration, the image classification device of the present invention can prevent the same keyword is applied to a large number of images to be registered, it is possible to improve the convenience for the user.

また、本発明の画像分類装置は、前記入力画像の特定の領域を指定する領域指定手段を備え、前記第１の画像データ記憶手段は、前記領域指定手段が指定した領域の画像データを記憶するものである構成を有している。 Further, the image classification device of the present invention, an area designating means for designating a specific area of ​​the input image, the first image data storing means stores the image data of said area specifying means specifies a region and a is a configuration intended.

この構成により、本発明の画像分類装置は、第１の画像の登録時に画像全体ではなく画像の一部領域だけを指定することができるので、ユーザはキーワードを付与したい被写体のみが写った画像を用意する必要がなく、ユーザの利便性を向上させることができる。 With this configuration, the image classification device of the present invention, it is possible to specify only a partial region of the image rather than the entire image at the time of registration of the first image, an image the user who captured only object to be granted keyword it is not necessary to prepare, it is possible to improve the convenience for the user.

また、本発明の画像分類装置は、前記第１の類似度算出手段が算出した類似度に基づいて前記入力画像と前記第１の画像とが類似しているか否かを判定する類似判定手段を備え、前記第２の類似度算出手段は、前記入力画像と前記第１の画像とが類似していない場合にのみ前記画像全体に係る類似度を算出するものである構成を有している。 Further, the image classification device of the present invention, the similarity determining means for determining whether or not said first image and the input image is similar based on similarities of the first similarity calculation means has calculated wherein the second similarity calculation unit has a structure as the input image and the first image and calculates the similarity according to the entire image only if not similar.

この構成により、本発明の画像分類装置は、１つの画像に１つのキーワードを付与する場合であって入力画像と第１の画像とが類似していない場合に、第２の類似度算出手段による処理を省略することができるので、画像登録時にユーザの待ち時間の短縮化を図ることができ、ユーザの利便性を向上させることができる。 With this configuration, the image classification device of the present invention, when the input image in the case of imparting one keyword in one image and the first image are not similar, according to the second similarity calculation unit it is possible to omit the processing, the image can shorten the user's waiting time at the time of registration, it is possible to improve the convenience for the user.

本発明の画像分類方法は、キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類方法であって、前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶するステップと、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出するステップと、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出するステップと、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出するステップと、前記第１及び前記第２の画像によって算出した類似度に基づいてキーワードを前記入力画像に付与するステップとを含む構成を有している。 Image classification method of the present invention is an image classification method for classifying the input image by comparing the similarity between the input image and image keyword is applied, the first and the keyword is registered granted and storing the data of the second image, respectively, steps and, extracting the input image and the first in the local region and for extracting a local region of a predetermined size from the input image and the first image calculating a similarity between the images, calculating a similarity between the whole image of the entire image of the input image and the second image, similar calculated by said first and said second image It has a configuration comprising the steps of applying a keyword in the input image based on the time.

この構成により、本発明の画像分類方法は、局所領域及び画像全体における類似度を算出することにより細やかな画像の分類が行えるので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。 With this configuration, an image classification method of the present invention, since the performed classification of fine images by calculating the similarity in the entire local region and the image, while minimizing the burden on the user, customizable, and image it is possible to perform a classification using the whole.

本発明は、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができるという効果を有する画像分類装置及び画像分類方法を提供することができるものである。 The invention, while minimizing the burden on the user, customizable, is capable of providing an image classification apparatus and an image classification method has an effect that it is possible and carry out the classification using the whole image .

以下、本発明の実施形態について図面を用いて説明する。 Hereinafter will be described with reference to the accompanying drawings, embodiments of the present invention.実施形態では、本発明に係る画像分類装置を、画像データをアップロードして管理できるウェブサービスシステムに適用した例を挙げて説明する。 In embodiments, an image classification apparatus according to the present invention will be described by way of example applied to a web service system that can upload and manage image data.このウェブサービスシステムは、サーバＰＣと、複数のクライアントＰＣとを備えるものである。 The web service system is one comprising a server PC, and a plurality of client PC.以下の説明では、クライアントＰＣからサーバＰＣにアップロードされる対象となる画像を入力画像という。 In the following description, referred to the input image an image of interest that is uploaded from the client PC to the server PC.

（第１実施形態） (First Embodiment)まず、本発明に係る画像分類装置の第１実施形態における構成について説明する。 First, a configuration of the first embodiment of the image classification apparatus according to the present invention.

図１に示すように、本実施形態における画像分類装置１０は、入力画像を登録する画像登録装置２０と、主にキーワードを登録するキーワード登録装置３０とを備えている。 As shown in FIG. 1, the image classification device 10 in this embodiment includes an image registration device 20 for registering the input image, and a keyword registration unit 30 that mainly register the keyword.

画像登録装置２０は、第１の類似度を算出する第１の類似度算出手段２１と、第１の検索対象画像のデータを記憶する第１の画像データベース（ＤＢ）２２と、第１の類似判定を行う第１の類似判定手段２３と、第２の類似度を算出する第２の類似度算出手段２４と、第２の検索対象画像のデータを記憶する第２の画像ＤＢ２５と、第２の類似判定を行う第２の類似判定手段２６とを備えている。 Image registration apparatus 20 includes a first similarity calculation unit 21 for calculating a first degree of similarity, the first image database (DB) 22 for storing data of the first search target image, the first similar the first similarity determination means 23 for determining a second similarity calculation unit 24 for calculating a second degree of similarity, the second image DB25 storing data in the second search target image, the second and a second similarity determination unit 26 for performing a similarity determination.なお、第１の画像ＤＢ２２及び第２の画像ＤＢ２５は、それぞれ、本発明に係る第１及び第２の画像データ記憶手段を構成する。 The first image DB22 and the second image DB25, respectively, constituting the first and second image data storing means according to the present invention.また、第１の類似判定手段２３及び第２の類似判定手段２６は、本発明に係るキーワード付与手段を構成する。 The first similarity determination unit 23 and the second similarity determination unit 26 constitutes a keyword assignment means according to the present invention.

キーワード登録装置３０は、入力画像において特定の領域を指定する領域指定手段３１と、極値画素を検出する極値画素検出手段３２と、キーワードや画像を登録する登録手段３３と、ユーザに警告を与える警告手段３４とを備えている。 Keyword registration unit 30 includes an area specifying means 31 to specify a particular region in the input image, the extremum pixel detecting means 32 for detecting an extreme value pixel, a registration unit 33 for registering a keyword or image, a warning to the user and a warning means 34 provide.

第１の検索対象画像とは、画像の局所領域において入力画像に対する画像の類似度を算出するために第１の画像ＤＢ２２から検索する画像をいい、ユーザが登録して蓄積した画像である。 The first search target image refers to an image to be retrieved from the first image DB22 to calculate the similarity of an image for the input image in the local region of an image, an image that the user has accumulated registered.例えば、第１の検索対象画像は、「長男の顔」、「子供の友人Ａさんの顔」というようなユーザにとって具体的なキーワードがタグとして付される画像である。 For example, the first search target image, the "face of the eldest son", specific keywords to the user such as "children of a friend A's face" is the image to be added as a tag.また、第２の検索対象画像とは、入力画像に対して画像全体の類似度を算出するために第２の画像ＤＢ２５から検索する画像をいい、例えばシステムの出荷時にメーカ側で登録して蓄積した画像である。 Further, the second search target image, and registered in the manufacturer refers to image retrieval from the second image DB25 to calculate the similarity of the entire image for the input image, for example during shipment of the system storage is an image.具体例を挙げれば、第２の検索対象画像は、「肖像画」、「風景」、「動物」、「集合写真」というような曖昧な（換言すれば抽象的な）キーワードのタグが付される画像である。 By way of specific example, the second search target image, "portrait", "landscape", "animal", is ambiguous (ie abstract if) Keyword tags such as "group photo" subjected is an image.

なお、第１の検索対象画像に関しては、システム出荷時に何らかのサンプル画像が登録されていても構わない。 As for the first search target image, some sample images may be registered during system shipment.また、第２の検索対象画像に関しては、曖昧なキーワードのタグを付すための画像をユーザが用意して蓄積するものであってもよい。 Regarding the second search target image, the image may be what the user to accumulate prepared for subjecting the tags ambiguous keywords.

第１の類似度算出手段２１は、図２に示すように、局所領域を抽出する局所領域抽出手段４０と、画像を比較する画像比較手段５０とを備えている。 The first similarity calculation unit 21, as shown in FIG. 2, a local region extraction unit 40 for extracting a local region, and an image comparing unit 50 for comparing the images.局所領域抽出手段４０は、入力画像のＳＩＦＴ（Scale-Invariant Feature Transform）を算出するＳＩＦＴ算出部４１、第１の検索対象画像のＳＩＦＴを算出するＳＩＦＴ算出部４２、ＳＩＦＴを比較するＳＩＦＴ比較部４３、対応点を選定する対応点選定部４４、対応領域を抽出する対応領域抽出部４５を備えている。 Local region extraction unit 40, SIFT calculator 41 for calculating an input image SIFT (Scale-Invariant Feature Transform), SIFT comparing unit 43 for comparing the SIFT calculator 42, SIFT for calculating the SIFT the first search target image , the corresponding point selection section 44 for selecting a corresponding point, and a corresponding area extracting unit 45 for extracting a corresponding region.なお、ＳＩＦＴ算出部４１及び４２は、本発明に係る極値画素検出部、特徴量算出手段を構成する。 Incidentally, SIFT calculator 41 and 42, the extreme value pixel detection unit according to the present invention, the feature amount calculating means constituting.また、ＳＩＦＴ比較部４３は、本発明に係る特徴量比較部を構成する。 Further, SIFT comparing unit 43 constitute the feature quantity comparing unit according to the present invention.また、対応点選定部４４は、本発明に係る極値画素選定部を構成する。 Also, the corresponding point selection unit 44 constitutes an extreme pixel selecting unit according to the present invention.また、対応領域抽出部４５は、本発明に係る対応領域抽出部を構成する。 Moreover, the corresponding area extracting unit 45 constituting the corresponding area extracting unit according to the present invention.

図３は、本実施形態におけるウェブサービスシステムを構成するサーバＰＣ及びクライアントＰＣとして用いられるコンピュータ６０のブロック図であって、本実施形態における画像分類装置１０は、コンピュータ６０と、コンピュータ６０にロードされるプログラムとによって実現される。 Figure 3 is a block diagram of a computer 60 used as the server PC and the client PC constituting a web service system according to the present embodiment, the image classification device 10 in this embodiment includes a computer 60, it is loaded into the computer 60 It is realized by and that program.

図３において、ＣＰＵ６１は中央処理装置であり、コンピュータ６０の全体の制御及び演算処理等を行う。 In FIG. 3, CPU 61 is a central processing unit, controls the entire computer 60 and arithmetic processing, and the like.ＲＯＭ６２は読み出し専用メモリであり、システム起動プログラムの情報等の記憶領域を有する。 ROM62 is a read only memory, having a storage area such as information system boot program.ＲＡＭ６３はランダムアクセスメモリであり、データ記憶領域を有する。 RAM63 is a random access memory has a data storage area.ＲＡＭ６３には、オペレーティングシステムや、デバイスドライバ、例えばウェブブラウザのようなアプリケーション、通信制御等のプログラムがロードされ、ＣＰＵ６１によって実行される。 The RAM 63, an operating system and device drivers, for example, an application such as a web browser, a program of the communication control and the like are loaded and executed by the CPU 61.入出力部６４は、キーボード、マウス等の入出力デバイスで構成され、ユーザが入出力デバイスに入力した情報をＣＰＵ６１に伝達するものである。 Output unit 64 includes a keyboard, is composed of input and output devices such as a mouse, in which the user transmits the information inputted to the input-output device to the CPU 61.表示部６５は例えば液晶ディスプレイ、表示制御部等を備えている。 Display unit 65 includes, for example, a liquid crystal display, the display control unit and the like.ＨＤＤ６６はハードディスク装置であり、検索対象画像のデータ、ウェブブラウザのプログラムファイル等を格納するようになっている。 HDD66 is a hard disk drive, the data of the search target image, is adapted to store the program files, and the like of the web browser.通信部６７は、ネットワーク通信制御を行うようになっており、ネットワークに接続された他のコンピュータや周辺機器との通信が可能となっている。 The communication unit 67 is adapted to perform network communication control, and can communicate with other computers and peripheral devices connected to the network.データバス６８は、前述の構成要素間のデータの通路となるものである。 Data bus 68 is to be the passage of data between the aforementioned components.なお、本実施形態では、第１の検索対象画像及び第２の検索対象画像がサーバＰＣのハードディスク装置に格納されているものとする。 In the present embodiment, the first search target image and the second search target image is assumed to be stored in the hard disk drive of the server PC.

前述の構成により、ユーザは、各クライアントＰＣから画像をサーバＰＣにアップロードし、アップロードした画像をクライアントＰＣから閲覧できるようになっている。 With the configuration described above, the user, the image from each client PC to upload to the server PC, and to be able to view the uploaded image from the client PC.各画像には、サーバＰＣやクライアントＰＣによって自動的に付与されたキーワードがタグ情報として付随している。 Each image, automatically assigned keywords by the server PC and the client PC is associated as tag information.なお、各画像ファイルにはキーワードが複数付随していることもある。 Incidentally, each image file is sometimes keywords are several attendant.

次に、本実施形態における画像分類装置１０の動作について説明する。 Next, the operation of the image classification device 10 in this embodiment.

（ユーザから見たシステムの動作） (Operation of the system as seen from the user)最初にユーザから見たシステムの動作について説明する。 First, a description will be given of the operation of the system as seen from the user.

まず、ユーザインターフェースについて説明する。 First, a description will be given user interface.ユーザは、サーバＰＣにアクセスする際、クライアントＰＣから例えばウェブブラウザを介して行う。 The user, when accessing the server PC, is carried out from the client PC, for example, via a web browser.具体的には、ユーザはウェブブラウザを立ち上げ、サーバＰＣのアドレス情報を入力すると、図４に示すようなダイアログ画面７０がディスプレイに表示される。 Specifically, the user starts a web browser, by entering the address information of the server PC, the dialog screen 70 as shown in FIG. 4 is displayed on the display.図４に示したダイアログ画面７０は、キーワード入力ボックス７１、検索ボタン７２、画像登録ボタン７３、キーワード登録ボタン７４、画像表示領域７５を有する。 Dialog screen 70 shown in FIG. 4 has the keyword input box 71, a search button 72, an image registration button 73, a keyword registration button 74, the image display area 75.

ユーザがキーワード入力ボックス７１に好みのキーワードを入力し、検索ボタン７２を押すと、クライアントＰＣに保持された画像ファイルのうち該キーワードをタグとして保持する画像ファイルのサムネイルが画像表示領域７５に整列されて表示される。 The user inputs the keyword preference in the keyword input box 71, and press the search button 72, a thumbnail image file for holding the keyword as a tag of the image file stored in the client PC is aligned to the image display area 75 It is displayed Te.

また、ユーザが画像登録ボタン７３を押すことにより、ファイル選択ダイアログ画面が表示される。 In addition, the user by pressing the image registration button 73, a file selection dialog screen is displayed.このファイル選択ダイアログ画面により、クライアントＰＣに保持された画像ファイルを指定すると、指定された画像ファイルがサーバＰＣにアップロードされる。 By this file selection dialog screen and specifies an image file held in the client PC, the designated image file is uploaded to the server PC.サーバＰＣにアップロードされる画像（入力画像）には自動的に、タグが付与される。 Automatically to the image (input image) to be uploaded to the server PC, the tag is given.なお、どのようにタグを付与するかについては後述する。 It should be noted, will be described later how to grant the tag.

ここで、サーバＰＣに既に登録されている画像と類似する画像を含む画像領域が入力画像に存在するか否かを判定し、存在する場合には、サーバＰＣに登録されている画像に関連付けられたキーワードをタグとして、アップロードされた画像に付与する。 Here, it is determined whether or not the image area including an image similar to the image that has already been registered in the server PC is present in the input image, if present, associated with the image that is registered in the server PC the keywords as tags, given to the uploaded image.また、該ダイアログ画面のプログラムは画像に新規のキーワードをタグとして付与するためのインターフェース手段を備えている。 Further, the dialog screen of the program and an interface means for providing a new keyword as a tag to an image.

次に、ユーザがキーワード登録ボタン７４を押すと、図５に示すようなダイアログ画面８０がディスプレイに表示される。 Next, the user presses the keyword registering button 74, a dialog screen 80 shown in FIG. 5 is displayed on the display.ダイアログ画面８０は、画像選択ボタン８１、キーワード入力ボックス８２、登録ボタン８３、表示領域８４、警告表示領域８５を有する。 Dialog screen 80 has an image selection button 81, the keyword input box 82, the registration button 83, the display area 84, the warning display area 85.

画像選択ボタン８１を押すことにより、ファイル選択ダイアログ画面が表示される。 By pressing the image selection button 81, the file selection dialog screen is displayed.ここでクライアントＰＣに保持される画像ファイルを指定すると、当該画像ファイルに係る画像が表示領域８４に表示される。 Specifying an image file held here in the client PC, an image relating to the image file is displayed in the display area 84.表示領域８４上でユーザがマウスをドラッグすると、図５の画像中に示したような矩形が描画される。 When the user on the display area 84 by dragging the mouse, the rectangle as shown in the image of FIG. 5 is drawn.

ユーザは、キーワード入力ボックス８２に、画像に付けたいタグ情報をキーワードとして入力することができる。 The user can input the keyword input box 82, the tag information to be attached to the image as a keyword.登録ボタン８３が押されると、キーワード入力ボックス８２に入力したキーワードが、表示領域８４において矩形で囲まれた領域の画像とともに、第１の画像ＤＢ２２に登録される。 When the registration button 83 is pressed, the keyword entered in the keyword input box 82, together with the image of the region surrounded by the rectangular in the display area 84, is registered in the first image DB 22.この時、サーバＰＣは、登録される画像が識別に適するか否かを判定し、識別に適さない場合、警告表示領域８５に、例えば「選択領域は、上手く識別できません」といった警告を表示し、画像の登録をキャンセルするものとする。 At this time, the server PC, it is determined whether or not the image to be registered to be suitable for identification, if that is not suitable for identification, the warning display area 85, for example, "selection area, can not be well identified" a warning such as, It is intended to cancel the registration of the image.ここまでの処理は、以降入力される画像が、登録された画像に類似するか否かを判定し、類似している場合には自動的にキーワードを付与するためのテンプレートを作る作業である。 Processing up to this point, the image to be inputted later determines whether or not similar to the registered image, in the case of similar is a work to create a template for imparting automatically keyword.しかし、平坦な画像領域（画面の広い範囲にわたり画素間の濃度変化の少ない画像領域）、例えば図５に示した人物画像の背景のような領域が指定された場合、様々な画像において類似しているとの判定が発生し、同じキーワードが殆どの画像に対して付与されてしまうことになる。 However, a flat image region (less image area density change between the pixels over a wide area of ​​the screen), for example, when an area such as the background of the portrait image as shown in FIG. 5 is specified, similar in various image determination occurs with have the same keyword will be thus be applied for most of the image.そこで、本実施形態では、画像の登録の時点で、このような不具合が発生しそうな領域の指定に対して判定を行い、ユーザに警告を表示することにより、同じキーワードが殆どの画像に付与されるという問題を解消できる。 Therefore, in this embodiment, at the time of registration of the image, a determination for a given such a problem occurs likely region, by displaying a warning to the user, the same keyword is imparted to the most image It can be solved the problem of that.なお、どのように、識別に適するか否かを判定するかについては後述する。 Incidentally, how, it will be described later or to determine whether suitable for identification.

（サーバＰＣから見たシステムの動作） (Operation of the system as seen from the server PC)次に、サーバＰＣから見たシステムの動作について説明する。 Next, a description will be given of the operation of the system as seen from the server PC.

まず、画像登録時のフローについて図１及び図６を用いて説明する。 First, the flow during image registration will be described with reference to FIGS. 1 and 6.図６は、画像登録時のフローチャートである。 Figure 6 is a flowchart at the time of image registration.

第１の類似度算出手段２１は、入力画像及び第１の検索対象画像のデータを入力する（ステップＳ１１、１２）。 The first similarity calculation unit 21 inputs the data of the input image and the first search target image (step S11 and S12).また、第１の類似度算出手段２１は、第１の検索対象画像に含まれる画像領域と類似する画像領域が入力画像内に存在するかを判定し、存在する場合には類似度を算出し（ステップＳ１３）、類似度を示すデータを第１の類似判定手段２３に転送する。 The first similarity calculation unit 21, an image area similar to the image area included in the first search target image is determined whether present in the input image, and calculates the degree of similarity, if present (step S13), and transfers the data indicating the degree of similarity to the first similarity determination means 23.なお、類似する領域が存在しない場合には、類似度０を算出し、第１の類似判定手段２３に転送する。 In the case where the region where similar is not present, to calculate a similarity 0, and transfers the first similarity determination means 23.

ここで、第１の検索対象画像は、前述のようにユーザがキーワード登録した画像であり、画像には対応付けられたタグが付与されているものとする。 Here, the first search target image is an image that the user keyword registration as described above, it is assumed that the tag associated is imparted to the image.また、後述するように、第１の類似度算出手段２１は類似領域が存在するか否かを判定する際に、入力画像と検索対象画像とで様々な極値画素（Keypoint）を検出し、それぞれの極値画素周辺の情報を用いて、両画像間で対応する（類似する）極値を検出し、検出した極値画素の個数情報も同時に第１の類似判定手段２３に転送するものとする。 As described later, the first similarity calculation unit 21 detects when determining whether a similar region exists, a variety of extreme pixels in an input image and search target image (Keypoint), using information surrounding each extremum pixel, as the corresponding between the two images to detect (similar) extreme, the number information of the detected extreme value pixel is also to be transferred to the first similarity determination means 23 at the same time to.

第１の類似判定手段２３は、入力画像と第１の検索対象画像とが類似しているか否かを判定する（ステップＳ１４）。 The first similarity determination unit 23 determines whether or not similar to the input image and the first search target image (step S14).ステップＳ１４において、第１の類似判定手段２３は、入力画像と第１の検索対象画像とが類似している場合は、検索対象画像に付与されたタグを出力し（ステップＳ１８）、入力画像と第１の検索対象画像とが類似していない場合は、タグを出力しない。 In step S14, the first similarity determination means 23, when the input image and the first search target image is similar outputs a tag assigned to the search target image (step S18), and the input image If a first search target image is not similar does not output a tag.なお、第１の類似判定手段２３の詳細な動作については後述する。 The detailed operation of the first similarity determination unit 23 will be described later.

続いて、第２の類似度算出手段２４では入力画像の全領域と、第２の検索対象画像に保持される様々な画像の全領域との類似度を算出し、類似度を示すデータを第２の類似判定手段２６に出力する。 Subsequently, the entire area of ​​the second similarity calculation unit 24 in the input image, calculates the similarity between the entire area of ​​the various images to be held in the second search target image, the data indicating the degree of similarity first and it outputs the second similarity determination means 26.なお、第２の類似度算出手段の詳細な動作については後述する。 The detailed operation of the second similarity calculation unit is described later.

第２の類似判定手段２６は、第２の類似度算出手段２４が算出した類似度が所定の閾値（例えば０．７）以上か否かに基づき、入力画像と第２の検索対象画像とが画像全体で類似しているか否かを判定する（ステップＳ１７）。 The second similarity determination unit 26, similarity second similarity calculation unit 24 has calculated based on whether a predetermined threshold value (e.g., 0.7) or more, and an input image and the second search target image determines whether similar in the whole image (step S17).ステップＳ１７において、第２の類似判定手段２６は、類似度の閾値以上となる第２の検索対象画像があった場合、当該第２の検索対象画像に付与されていたタグを出力する（ステップＳ１８）。 In step S17, the second similarity determination means 26, when there is a second search target image equal to or larger than the similarity threshold, and outputs a tag which has been given to the second search target image (step S18 ).一方、第２の類似判定手段２６は、類似度の閾値以上となる第２の検索対象画像がない場合はタグの出力は行わない。 On the other hand, the second similarity determination means 26, if there is no second search target image equal to or larger than the similarity threshold output of the tag is not performed.なお、類似度の閾値は、例えば予め実験を行って取得したデータを基に決定するのが好ましい。 The threshold of similarity is preferably determined on the basis of the data obtained, for example, previously performed experiments.

以上の処理により、入力画像には自動的に複数のタグが付与される。 By the above process, automatically a plurality of tags is assigned to the input image.前述のとおり、風景や肖像画といったタグは曖昧で、人物や背景など、複数の構成要素により構成されている。 As described above, tags such as landscape and portrait ambiguous, such as a person and the background is constituted by a plurality of components.画像上においてそれら要素の位置関係が変わると、画像全体の特徴量が大きく変わってしまう。 When the positional relationship between elements thereof on the image is changed, the feature quantity of the whole image would change significantly.そのため、画像全体の特徴量からこれらのタグを判定するためには、非常に大量の画像を用意しなければならない。 Therefore, in order to determine these tags from the feature quantity of the entire image, it must provide a very large number of images.これを登録する作業はユーザにとって、非常に高い負荷になる。 Work to register them for the user, become very high load.一方で、ユーザ自身や家族の顔、富士山といった具体的なオブジェクトの場合、単数の構成要素により構成されている場合が多い。 On the other hand, the face of the user himself or family, for specific objects such as Fuji, in many cases is constituted by a component in the singular.また、複数の構成要素であっても、構成要素の位置関係が画像上で固定されている場合が多い。 Further, even if a plurality of components, often the positional relationship of the components are fixed on the image.このような具体的なオブジェクトの画像に関しては、少ない画像を登録するだけで、高い精度で類似度を判定することができる。 For the image of such a specific object, only registers a small image, it is possible to determine a similarity with high accuracy.本実施形態のように、大量の画像との比較を行わなければならない曖昧なタグに関してはシステム出荷時に登録しておき、少数の画像との比較を行うだけでよい具体的なタグに関してはユーザに登録させるという構成によって、ユーザの負担を低減して様々なタグを付けられるとともに、ユーザによるカスタマイズが可能となる。 As in this embodiment, with respect to ambiguous tag must be done a comparison with the large number of images may be registered during system shipment to the user with respect to just be specific tag is compared with the small number of image the configuration that is registered, with attached a variety of tags by reducing the burden on the user, thereby enabling user customization.（第１の類似度算出手段２１の動作） (Operation of the first similarity calculation unit 21)次に、第１の類似度算出手段２１において、どのように第１の検索対象画像に含まれる画像（以下検索対象画像）と類似する領域が入力画像内に存在するかを判定するかについて図２及び図７に基づき述べる。 Next, the first similarity calculation unit 21, how a region similar to the image (hereinafter search target image) included in the first search target image to determine whether present in the input image FIG. described on the basis of the 2 and 7.図７は、第１の類似度算出手段２１の詳細な動作を示すフローチャートである。 Figure 7 is a flowchart showing a detailed operation of the first similarity calculation unit 21.

ここでＳＩＦＴとは、文献１（David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 2004 Here, the SIFT, literature 1 (David G. Lowe, "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 2004）に記載された技術で、画像内で特徴的な画素を複数検出し、それぞれの画素について、周辺領域の情報から特徴量を算出する技術である。 ) In the technology described in the characteristic pixels in the image a plurality of detection, for each pixel, a technique for calculating a feature quantity from the information of the peripheral region.

ここでいう特徴的な画素とは、一言で言うと周辺に対して極大又は極小、即ち極値である画素のことをいう。 The characteristic pixel here, maximum or minimum with respect to near a nutshell, that means the pixel is extreme.但し、単純に画像内で極値というわけでない。 However, do not mean that the extreme value in the simple image.ＳＩＦＴでいう極値画素とは複数の、且つ連続したサイズ（分散）のガウシアンフィルタを画像に施し、複数枚のぼかした画像を作成し、サイズの順番に並べた後、連続に並んだ画像の差分画像（Difference of Gaussian：ＤｏＧ）を作成したものである。 The extremum pixels referred to in the SIFT plurality, and subjected to a Gaussian filter continuous size (dispersed) in the image, creating a plurality of blurred images, after ordered size, image arranged in a continuous the difference image (difference of Gaussian: DoG) are those that created the.特徴的な画素は、注目画素が同じＤｏＧの画像内で極値なだけでなく、１つサイズが小さいＤｏＧ及び１つサイズが大きいＤｏＧの注目画素と対応する画素に対して極値である場合に、極値として検出される。 If the characteristic pixels are not only extreme value pixel of interest in an image of the same DoG, an extreme value for the corresponding pixel and the target pixel of one size smaller DoG and one size larger DoG to be detected as extreme.

このようにすることにより、極値を構成する山、あるいは谷がどのサイズのガウシアンに最も合致するかを知ることができる。 In this way, it is possible to know the mountains constituting the extremum, or whether the valley is the most matching the Gaussian any size.以降、そのサイズのガウシアンによって得られたＤｏＧを用いて周辺領域の特徴量を算出すれば、入力画像と、検索対象画像とのサイズが異なっていても、対応する点において類似する特徴量が得られる。 Thereafter, by calculating the feature quantity of the peripheral region using a DoG obtained by Gaussian their size, the input image, be of different sizes to the search target image, the feature amount that is similar in the corresponding points obtained It is.つまり、ＳＩＦＴは画像のスケールに対して不変量を算出することができることになる。 That, SIFT will be able to calculate the invariant relative to the scale of the image.

文献１では、これ以降の処理として、得られた特徴的な画素がエッジ上の点であるか否か、周辺画素のコントラストは閾値以上か、と言った処理によって検出された特徴的な画素の選定、及びパラボラフィッティングによる特徴的な画素の詳細な位置推定を行っているが、本発明の本質と離れるため、説明を省略する。 In Document 1, as subsequent processes, characteristic pixels obtained whether a point on the edge, or the contrast of the peripheral pixel is greater than or equal to the threshold value, and said feature specific pixel of the detection by the processing selection, and are performed a detailed location estimate of the characteristic pixel by parabola fitting, to leave the essence of the present invention, the description thereof is omitted.

続いて、ＳＩＦＴにおける特徴的な画素周辺の特徴量算出方法について述べる。 Next, we describe the amount calculating method near the characteristic pixels in SIFT.ＳＩＦＴでは検索対象画像が入力画像内で回転して存在していても、対応する特徴的な画素が検出できるように、特徴的な画素のオリエンテーション推定を行う。 It is present rotating at SIFT the search target image in the input image, so as to detect the corresponding characteristic pixel performs orientation estimation of characteristic pixels.

その後、勾配方向を１０度ずつ、３６方向に離散化したヒストグラムを用意する。 Thereafter, the gradient direction by 10 degrees, providing a histogram discretized into 36 directions.該ヒストグラムには、勾配強度に対し、注目画素を中心とするガウシアンを掛け合わせた値を加算していく。 The The histogram to the gradient strength, continue to sum was multiplied by the Gaussian centered around the target pixel value.該ヒストグラムにおいて最も大きな値を示す方向が特徴的な画素のオリエンテーションとなる。 Direction indicated the largest value in the histogram is a characteristic pixel orientation.

次に、特徴的な画素のオリエンテーションが画像の上方に向くよう画像を回転させる。 Next, orientation of the characteristic pixels the image is rotated to face upwardly of the image.その後、特徴的な画素の周辺領域を一辺４ブロックの計１６ブロックに分割する。 Then, divide the peripheral region of the characteristic pixels in total of 16 blocks of one side 4 blocks.ブロックごとに４５度ずつ、８方向の勾配ヒストグラムを作成することにより、４×４×８＝１２８次元の特徴量が得られる。 By 45 degrees for each block, by creating eight directions of the gradient histogram feature amount of dimensional 4 × 4 × 8 = 128 is obtained.このように特徴的な画素周辺の画素を、推定した特徴的な画素のオリエンテーションが画像の上方に向くよう正規化した後に、特徴量を算出するため、得られた特徴量は画像の回転に対して不変な特徴量になる。 Thus the pixels around characteristic pixel, after orientation characteristic pixels estimated normalized to face upwardly of the image, for calculating the feature quantity, obtained feature amount is to rotate the image It becomes invariant features Te.

以上述べたように、ＳＩＦＴ算出部４１及び４２は、ＳＩＦＴ特徴量を用いることにより、検索対象画像を入力画像内で探索する際に、両者のサイズの違いや回転に対して極めて安定して探索することができる。 As described above, SIFT calculator 41 and 42, by using SIFT feature amount, when searching the retrieval target image in the input image, a very stable and searched against differences and rotation of both the size can do.

続いて、ＳＩＦＴ比較部４３は、検索対象画像に含まれる特徴的な画素と近い特徴量を持つ特徴的な画素（対応点）が入力画像内に存在するか否かを１つ１つ、総当たりで調べる（ステップＳ２５）。 Subsequently, SIFT comparing unit 43, one by one whether characteristic pixel (correspondence point) is present in the input image having a characteristic pixel and near feature amount included in the search target image, the total investigate per (step S25).ここでいう近い特徴量とは、特徴的な画素同士のユークリッド距離が所定の閾値（例えば３００）以下であるものを指す。 Here, the closer the feature quantity referred Euclidean distance characteristic between pixels refers to not more than a predetermined threshold value (e.g., 300).

ＳＩＦＴは局所領域だけを参照して得られる特徴量なので、得られた対応点は必ずしも同じ画像に属するものではない。 SIFT Because feature quantities obtained by referring to only the localized area, resulting corresponding points do not necessarily belong to the same image.そこで、対応点選定部４４は、対応点の位置関係から、対応点を選定する（ステップＳ２６）。 Therefore, the corresponding point selection unit 44, the positional relationship between the corresponding points, selects the corresponding points (step S26).選定するために、文献１ではハフ（Hough）変換を用いている。 To select, it is used in Literature 1 Hough (Hough) transform.即ち、１つの対応点のサイズ及びオリエンテーションから検索対象画像の平面が入力画像内にて、どのような姿勢をとっているかを推定することができる。 That is, it is possible to estimate the plane of the search target image from the size and orientation of the one corresponding point in the input image, taking what posture.この推定値を量子化し、それらの分布を見ることによって、対応点の選定を行う。 This estimate is quantized by looking at their distribution, performing selection of corresponding points.同じ姿勢を示す対応点が多数有る場合、それらは信頼性の高い対応点であり、同じ姿勢を示す対応点が少数で有る場合、それらは信頼性の低い対応点であると言える。 If the corresponding points indicate the same posture are many, they are reliable corresponding point, if the corresponding points indicate the same position is at a small number, it can be said that they are unreliable corresponding points.なお、本実施形態では、同じ姿勢を示す点の数を対応点数と呼ぶ。 In the present embodiment, it referred to as the number of points indicating the same orientation as the corresponding points.

対応点選定部４４は、対応点数が３以上有る場合は、検索対象画像が入力画像内に存在していると判定し、対応点数が２以下である場合は、検索対象画像が入力画像内に存在しないとして類似度を０と算出する（ステップＳ２７）。 Corresponding point selection unit 44, if there corresponding points is 3 or more, it is determined that the search target image exists in the input image, if the corresponding score is 2 or less, in the search image in the input image the similarity is calculated as 0 if not exist (step S27).

検索対象画像が入力画像内に存在する場合、対応領域抽出部４５は、入力画像から、検索対象画像と対応する領域を抽出する（ステップＳ２８）。 When the search target image exists in the input image, corresponding area extracting unit 45, from the input image, and extracts a region corresponding to the retrieval target image (step S28).検索対象画像が入力画像内に存在する場合、前述のとおり、検索対象画像の平面が、入力画像内でどのような姿勢をとっているかを推定することができるので、該姿勢の平面を入力画像から抽出すればよい。 When the search target image exists in the input image, as described above, the plane of the search target image, it is possible to estimate whether taking any posture in the input image, enter the plane of the posture image it may be extracted from.

続いて、画像比較手段５０は、抽出した画像と検索対象画像とを比較して、両者の類似度を算出する（ステップＳ２９）。 Subsequently, the image comparing unit 50 compares the extracted image and search target image, and calculates both the similarity (step S29).なお、画像比較手段５０の詳細な動作については後述する。 Will be described later in detail operation of the image comparator 50.

以上のように、第１の類似度算出手段２１は、検索対象画像が入力画像内に存在するか否かを判定し、存在すると判定した場合に類似度を算出することができる。 As described above, the first similarity calculation unit 21 may search target image to determine whether present in the input image, and calculates the degree of similarity when it is determined to be present.

（画像比較手段５０の動作） (Operation of the image comparison section 50)画像比較手段５０は、２つの画像から画像の特徴を示す特徴量を算出し、それらを比較することによって類似度を算出する。 Image comparison means 50 calculates a feature quantity indicating a feature of an image from the two images, the similarity is calculated by comparing them.本実施形態では色、エッジ及び模様の３種類の特徴量を算出するものとする。 In this embodiment, it is assumed for calculating color, three kinds of feature quantities of the edge and pattern.

前提として、画像内の各画素の色情報は、Ｒ（レッド）、Ｇ（グリーン）、Ｂ（ブルー）の３原色の階調をそれぞれ０〜２５５の２５６階調で示しているものとする。 As a prerequisite, the color information of each pixel in the image is assumed to indicate R (red), G (green), B three primary colors gradation of the (blue) in 256 gradations of 0 to 255, respectively.３原色の階調が何れも０である場合には、その画素の色は黒となる。 3 when the gradation of colors are both zero, the color of the pixel is black.また、３原色の階調が何れも２５５である場合には、その画素の色は白となる。 Further, when the gradation of the three primary colors are both 255, the color of the pixel is white.このように、各画素には、ｓＲＧＢ表色系の３次元の色情報が割り当てられているものとする。 Thus, each pixel, it is assumed that the three-dimensional color information of the sRGB colorimetric system is assigned.

最初にエッジ特徴量の算出方法について述べる。 First will be described a method of calculating the edge feature quantity.まず、画像内の画素マトリクスの各画素に対し、図８に示すような３画素×３画素のフィルタリングマトリクスを用いて、畳み込み積分を施す。 First, for each pixel of the pixel matrix in the image, using the filtering matrix 3 pixels × 3 pixels as shown in FIG. 8, it performs a convolution integral.画像内の注目画素に対して、図示のフィルタリングマトリクスにおける中心画素の値"４"を割り当てるとともに、その注目画素の周囲に存在する画素に対して、フィルタリングマトリクスの中心画素の周囲に存在する画素の値を割り当てるのである。 The pixel of interest in the image, assigns a value "4" of the central pixel in the filter matrix shown for pixels present around the target pixel, pixels existing around a center pixel of the filtering matrix assign values.このような畳み込み積分を画像全体に施して、エッジ画像を得る。 Subjected to such convolution integral to the entire image, to obtain an edge image.その後、所定の閾値（例えば１２８）を用いて画像を２値化する。 Then, binarized images using a predetermined threshold (e.g., 128).次に、画像全体を例えば１０×１０の同サイズのブロックに等分して、それぞれのブロック中で２値化の閾値を超える画素をカウントする。 Then aliquoted into the same size of the blocks of the whole image for example 10 × 10, and counts the pixels exceeding the binarization threshold in each block.以上の処理により１００次元のベクトルが得られる。 100-dimensional vector is obtained by the above process.また、ブロックに含まれる全ての画素数で除算することで正規化し、ベクトルの各要素の値を０〜１に正規化しておく。 Further, normalized by dividing by the number of all the pixels included in the block, keep normalizes the value of each element of the vector to 0-1.

次に、色特徴量の算出方法について述べる。 Next, it will be described a method of calculating the color feature.まず、画像に含まれる画素を全て２５５で除算し、正規化しておく。 First, all of the pixels included in the image divided by 255, previously normalized.下記の数３〜数９に基づいて画像をｓＲＧＢ表色系からＬａｂ表色系の色表現に変換する。 Based on the number 3 to number 9 below to convert the image from the sRGB color system into color representation of the Lab color system.

光源としてＤ６５光源を想定した場合、Ｘｎ＝０．９５、Ｙｎ＝１．００、Ｚｎ＝１．０９となる。 Assuming a D65 light source as a light source, the Xn = 0.95, Yn = 1.00, Zn = 1.09.このようにしてＬａｂ表色系に変換したら、次に、エッジ特徴量の算出と同様にして、画像を１０×１０のブロックに等分し、それぞれのブロックで平均Ｌａｂを得る。 When this way is converted into the Lab color system, then, in the same manner as the calculation of the edge feature quantity, aliquoted image into blocks of 10 × 10, to obtain an average Lab in each block.更に得られたＬａｂは以下の式で０〜１の値に正規化したＬ'ａ'ｂ'に変換しておく。 Further, the resulting Lab is left to convert the L'a'b 'normalized to a value of 0 to 1 by the following equation.この結果、１００×３＝３００次元のベクトルが得られる。 As a result, 100 × 3 = 300-dimensional vector is obtained.

次に、模様特徴量の算出方法について述べる。 Next, it will be described a method of calculating the pattern feature amount.模様特徴量の算出には、周知の濃度共起行列が用いられる。 For the calculation of the pattern feature quantity, a known co-occurrence matrix is ​​used.濃度共起行列は、ある小領域において図９に示すように濃淡画像の明るさがｋの画素からδ（ｒ，θ）で示される相対位置に１の画素が出現する頻度をｐ δ （ｒ，θ）とする。 Co-occurrence matrix, the frequency of 1 pixel in the small area from the pixel brightness of the k of the grayscale image shown in FIG. 9 δ (r, θ) in the relative position indicated by that appears p [delta] (r , θ) to.ｓＲＧＢ表色系の画像をグレー画像に変換し、その後、各画素を１６で割って余りを捨てることで１６の階調に量子化する。 Converting the image of the sRGB color system into a gray image, then quantized into 16 gradations by discarding the remainder is divided by each pixel 16.その後、１６の階調数をｍとして、数１３に基づいて１６×１６次元の濃度共起行列を得る。 Thereafter, 16 the number of gradations as m, and obtain a 16 × 16-dimensional co-occurrence matrix based on the number 13.なお、得られたマトリクスの値を画像に含まれる画素数で割り、０〜１の値に正規化しておく。 Incidentally, divided by the number of pixels contained the values ​​of the resulting matrix in the image, previously normalized to a value of 0-1.

濃度共起行列は画像の周波数情報の概略を示す特徴量であるため、テクスチャ特徴量の算出に用いることが可能である。 For co-occurrence matrix is ​​a characteristic quantity showing the outline of the frequency information of the image, it can be used to calculate the texture feature.なお、周波数情報の取得にはフーリエ変換を用いることが可能である。 Incidentally, it is possible to use the Fourier transform to obtain the frequency information.また、ＭＦＰ（複合機）に記憶されている画像データファイルがＪＰＥＧ方式で圧縮されているものであれば離散コサイン変換（Discrete Cosine Transform）を用いることで、容易に周波数情報を得ることができる。 Further, by using the MFP discrete cosine transform as long as the image data file stored in the (MFP) is compressed by the JPEG system (Discrete Cosine Transform), it can be obtained easily frequency information.以上のようにして、最終的には１００＋３００＋７６８＝１１６８次元の特徴量ベクトルが得られる。 As described above, finally 100 + 300 + 768 = 1168-dimensional feature vector is obtained.

以上の特徴量を２つの画像でそれぞれ算出し、それらのユークリッド距離を算出することで画像の類似度を算出することができる。 More feature quantities respectively calculated in the two images, it is possible to calculate the similarity of the image by calculating their Euclidean distance.特徴量は全て０〜１に正規化されているため、１からユークリッド距離を差し引けば０〜１の類似度が得られる。 Because it is normalized for all feature values ​​0-1, 0-1 similarity by subtracting the Euclidean distance from 1 are obtained.

以上のように、画像比較手段５０が、ＳＩＦＴの対応点だけでなく、画像の特徴量から類似度を算出することにより、第１の類似度算出手段２１は、更に高精度に類似度を算出することができる。 As described above, the image comparing unit 50, not only the corresponding points of SIFT, by calculating the similarity from the feature quantity of the image, the first similarity calculation unit 21 further calculates the similarity with high precision can do.

（第１の類似判定手段２３の動作） (Operation of the first similarity determination means 23)次に、第１の類似判定手段２３の動作について述べる。 Will now be described operation of the first similarity determination means 23.第１の類似判定手段２３は、第１の類似度算出手段２１が算出した類似度が所定の閾値を超えているか否かで、第１の検索対象画像に付与されたタグを入力画像に付けるか否かを決定する。 The first similarity determination unit 23, similarity calculated first similarity calculation unit 21 is in whether exceeds a predetermined threshold value, tag assigned to the first search target image in the input image whether or not to determine.ここで、通常の閾値は０．８とするが、対応点の数が例えば１０よりも多い場合には、閾値を０．７とするのが好ましい。 Here, the normal threshold value is 0.8, if the number of corresponding points such as more than 10, preferably the threshold value is 0.7.一般に、複数の対応点が同じ姿勢であると、誤って判定される可能性は低い。 In general, when a plurality of corresponding points is in the same position, it is less likely to be erroneously determined.そのため、図７のステップＳ２７では"３"という極めて少ない対応点の数が存在した場合に、検索対象画像が入力画像内に存在すると判定している。 Therefore, it is determined as if the number of very small corresponding points that step S27 "3" in Fig. 7 were present, the search target image exists in the input image.したがって、対応点が十分に多い場合は類似度が高い可能性が高いので、この場合に閾値を下げている。 Therefore, since if the corresponding points is sufficiently large it is highly likely similarity, is lowered the threshold in this case.これにより、本来類似している画像を非類似と誤判定する可能性が低くなり、正しいタグ付けが行える可能性が高くなる。 Thus, less likely to erroneously determined dissimilar images that are similar nature, it is more likely to perform the correct tagging.

（第２の類似度算出手段２４の動作） (Operation of the second similarity calculation unit 24)第２の類似度算出手段２４の動作は、図７のステップＳ２９における処理と同様であり、入力画像と第２の検索対象画像に含まれる画像との類似度を比較する。 Operation of the second similarity calculation unit 24 is the same as the processing in step S29 in FIG. 7, to compare the similarity between the images included in the input image and the second search target image.但し、ここでの比較は、画像の局所領域における比較を行うのではなく、画像全体同士を比較する。 However, comparison of this case, instead of performing the comparison in the local region of the image, comparing the overall image with each other.

（キーワード登録時の動作） (Operation at the time of keyword registration)次に、キーワード登録時のサーバＰＣの動作を図１及び図１０に基づいて説明する。 Next, a description will be given of a behavior of the server PC during keyword registration in FIGS. 1 and 10.図１０は、キーワード登録時のサーバＰＣの動作を示すフローチャートである。 Figure 10 is a flowchart showing the operations of the server PC during keyword registration.

領域指定手段３１は入力画像のデータを入力し（ステップＳ３１）、領域が指定された入力画像のデータを極値画素検出手段３２に出力する。 Area specifying means 31 inputs the data of the input image (step S31), and outputs the data of the input image area is specified in the extremum pixel detecting means 32.この入力画像に対し、極値画素検出手段３２は、前述のＳＩＦＴ算出（図７ステップＳ２２）と同様の処理を行う（ステップＳ３２）。 For this the input image, extremum pixel detection unit 32 performs the same processing as SIFT calculation described above (FIG. 7 step S22) (step S32).但し、極値画素検出手段３２は、入力画像内で特徴的な画素の検出を行うが、特徴量算出は行わない。 However, extreme pixel detection means 32 performs the detection of characteristic pixels in the input image, the feature value calculation is not performed.極値画素検出手段３２は、この処理により特徴的な画素の数を算出し、特徴的な画素の数が例えば２０以下の場合は、領域が指定された入力画像は識別に不適としてユーザに警告を出す（ステップＳ３３「Ｎｏ」）。 Extremum pixel detection unit 32 calculates the number of characteristic pixels by this process, if the number of example 20 the following characteristic pixel, the input image area is specified alert the user as unsuitable for identification the issue (step S33 "No").一方、特徴的な画素の数が２０よりも大きい場合は、画像とともにキーワードを登録する（ステップＳ３３「Ｙｅｓ」）。 On the other hand, if the number of characteristic pixels is greater than 20, and registers the keyword with the image (step S33 "Yes").なお、ＳＩＦＴを用いた類似領域が存在するか否かを判定する手法において、対応点の選定を行うため、十分な数の特徴的な画素が存在しないと、類似領域が存在すると判定できる可能性が低くなる。 Incidentally, in the method of determining whether a similar region exists using SIFT, for performing the selection of corresponding points, a sufficient number characteristic pixel does not exist the possibility of determining the similar region exists It is low.ここで、十分な数の特徴的な画素が存在しない画像は、模様の少ない一様な画像であることが多い。 Here, a sufficient number of characteristic pixels is not present images are often less uniform image textured.一様な画像は前述のとおり様々な画像に存在しうるので識別には適さない。 Uniform image is not suitable for identification so may exist in a variety of image as described above.

以上のように、本実施形態における画像分類装置１０によれば、第１の類似度算出手段２１は、ユーザにとって具体的なキーワードがタグとして付された第１の検索対象画像と入力画像との局所領域における類似度を算出し、第２の類似度算出手段２４は、曖昧なキーワードのタグが付された第２の検索対象画像と入力画像との画像全体における類似度を算出する構成としたので、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができる。 As described above, according to the image classification device 10 in the present embodiment, the first similarity calculation unit 21, specific keywords for the user of the input image and the first search target image that is attached as a tag calculating a similarity in a local region, the second similarity calculation unit 24 has a configuration in which the similarity is calculated in the entire image of the second search target image and the input image tag ambiguous keywords attached because, while minimizing the burden on the user, customizable, and the entire image classification can be carried out using.

なお、前述の実施形態において、第１の検索対象画像をサーバＰＣのハードディスク装置に格納する構成を例に挙げて説明したが、本発明はこれに限定されるものではなく、第１の検索対象画像をクライアントＰＣのハードディスク装置に格納する構成としてもよい。 Note that in the embodiment described above, the structure for storing the first search target image in the hard disk device of a server PC has been described as an example, the present invention is not limited thereto, the first search target image may be configured to store in the hard disk drive of the client PC.また、例えば、サーバＰＣのハードディスク装置にユーザ毎のフォルダを設け、各ユーザと第１の検索対象画像とを関連付けて格納する構成としてもよい。 Further, for example, provided the folders for each user on the hard disk drive of the server PC, it may be configured to store in association with each user and the first search target image.

（第２実施形態） (Second Embodiment)まず、本発明に係る画像分類装置の第２実施形態における構成について説明する。 First, a configuration of the second embodiment of the image classification apparatus according to the present invention.

図１１に示すように、本実施形態における画像分類装置は、画像を登録する画像登録装置９０を備えている。 As shown in FIG. 11, the image classification device of the present embodiment is provided with an image registration device 90 for registering the image.なお、第１実施形態と同様な構成には同一の符号を付し、構成の説明は省略する。 Note that the same configuration as the first embodiment are denoted by the same reference numerals and the description of the configuration is omitted.

画像登録装置９０は、第１の類似度を算出する第１の類似度算出手段２１と、第１の検索対象画像のデータを記憶する第１の画像ＤＢ２２と、第１の類似判定を行う第１の類似判定手段９１と、第２の類似度を算出する第２の類似度算出手段９２と、特徴量のデータを記憶する特徴量ＤＢ９３と、第２の類似判定を行う第２の類似判定手段９４とを備えている。 Image registration device 90, first performs a first similarity calculation unit 21 for calculating a first degree of similarity, the first image DB22 storing data of the first search target image, the first similarity determination a first similarity determination unit 91, a second similarity calculation unit 92 for calculating a second degree of similarity, wherein the amount DB93 for storing data of the feature, the second similarity determination performing the second similarity determination and a means 94.

図１１に示すように、本実施形態における画像登録装置９０は、第１実施形態とほぼ構成を同じくするものであるが、２つの点で第１実施形態と異なる。 As shown in FIG. 11, the image registration apparatus 90 in the present embodiment is intended to also substantially constituting a first embodiment, different from the first embodiment in two points.

まず１つ目に、第１実施形態では、入力画像と、第１及び第２の検索対象画像を個々に比較していたが、本実施形態では、第２の検索対象画像について個々の画像と比較するのではなく、同じタグの付けられた様々な画像から特徴量を算出し、（特徴量算出方法については前述の画像比較手段５０と同様）それらを用いて非特許文献１記載のＳＶＭを用いることにより、識別を行うものとする。 First, first, in the first embodiment, the input image has been compared to the first and second search target image individually, in this embodiment, the individual images for the second search target image rather than compare, and calculates a feature quantity from a variety of image attached with the same tag, the SVM in non-Patent Document 1 by using them (similar to the image comparing unit 50 described above for the feature amount calculating method) it by, it is assumed that the identification to be used.ＳＶＭは未知の入力に対して、比較的正確に分類を行うことのできる、即ち汎化性能の高い２値識別器である。 SVM for unknown input, capable of performing relatively accurately classify, that is, binary classifier high generalization performance.そのため、ＳＶＭを利用することで、事前に、用意すべき画像の数が少なくて済む。 Therefore, by using the SVM, advance, it requires less number of images to be prepared.更に、ＳＶＭはノイズ除去作用、同様のデータは無視すると言った特性を持つため、１つ１つの画像と比較するよりも、精度が高く、高速な識別が行える。 Furthermore, SVM noise removal action, because of its said characteristics similarly data ignored, than compared with one single image, high accuracy, enabling high-speed identification.なお、ＳＶＭの手法については後述する。 It should be noted, it will be described later SVM method.

更に２つ目に、本実施形態では、画像にタグを付けるのではなく、所定のタグに関連付けられたフォルダに分類して保存することとしている。 Further Secondly, in the present embodiment, instead of tagging images, it is set to be stored by classifying into folders associated with a given tag.このとき、１つの画像に対して複数のタグを付けることができず、１つに絞らなければならない。 In this case, it is impossible to attach a plurality of tags for a single image must narrowed to one.一般的に、曖昧な情報よりも具体的な情報の方が優先されることが予想される。 Generally, towards specific information is expected to be given priority over ambiguous information.そのため、本実施形態では、第１の検索対象画像が入力画像に含まれている場合には、該検索対象画像に付与されたタグを入力画像に付与するとともに、第２の類似度算出手段９２及び第２の類似判定手段９４の処理を行わない構成とした。 Therefore, in this embodiment, when the first search target image is included in the input image, as well as it applied to the input image a tag assigned to the search target image, the second similarity calculation unit 92 and it has a configuration in which the second does not process the similarity determination unit 94.これにより、計算処理量が削減され、画像登録時にユーザの待ち時間が減ってユーザの利便性が向上する。 Thus, the calculated processing amount reduction, thereby enhancing user convenience decreases the user's waiting time at the time of image registration.

（ＳＶＭによる分類規則の生成方法） (Method of generating a classification rule by SVM)次に、ＳＶＭによる分類規則の生成方法について説明する。 Next, a method for generating a classification rule by SVM.ＳＶＭは数１４に示すように入力ベクトルと重みベクトルωとの内積が特定の閾値を超えていればｙ＝１を、超えていなければｙ＝−１を出力する識別器であり、出力ｙ＝１のとき入力画像は文書画像であり、出力ｙ＝−１のとき入力画像は写真画像であると判定するものとする。 SVM is a discriminator inner product of ω input vector and weight vector as shown in Expression 14 is the y = 1 if above a certain threshold value, and outputs a y = -1 if not exceeded, the output y = 1 when the input image is a document image, the input image when the output y = -1 shall be determined as the photographic image.つまり、ＳＶＭの学習とは重みベクトルω及び閾値ｈを決定する作業である。 In other words, it is the task of determining the weight vector ω and threshold h and the SVM learning.なお、ＳＶＭの学習についての詳細な説明は前述の文献１に記載されているが、その概要を以下説明する。 Although detailed description of SVM learning have been described in the literature 1 described above, it will be described the outline below.

図１３はＳＶＭの動作の概要を示したものである。 Figure 13 shows the outline of the SVM operation.まず前提条件として、図の左に示すように○×で表される２つの種類のベクトル群が存在するものとする。 First as a prerequisite, it is assumed that two types of vector group represented by the ○ × As shown in the left of FIG exist.ＳＶＭはこれら２つのクラスを最適に分離するための超平面（図１３の右参照）を決定するためのアルゴリズムといえる。 SVM can be said algorithm for determining the hyperplane for optimally separating these two classes (right see Figure 13).ＳＶＭにおいて、２つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。 In SVM, the optimally divide the two vectors group, it is equivalent to that capabilities, that is, the generalization ability and maximum when the unknown vector is input.これを実現するために、２つのベクトル群の境界位置に存在するベクトル（Support Vector）を見つけて、このベクトルと超平面との距離が最大となるよう超平面を設定する。 To achieve this, find the vector (Support Vector) present in the boundary position of two vector group, the distance between this vector and the hyperplane set the hyperplane to be the maximum.

ここで、実動作上、誤った教師データも存在するため、誤りの許容量（ソフトマージン）を設定するパラメータを決める必要がある。 Here, the actual operation, since the erroneous teaching data exists, it is necessary to determine the parameters to be set tolerance error (soft margin).以上は、線形ＳＶＭについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。 The above is the description of the linear SVM, the actual training data is not always vector group capable linear discriminant.しかし、特徴量ベクトルを、より高次の空間に射影し（カーネルトリック）、その空間上で超平面を求めることで、非線形な問題にも対応できる。 However, the feature quantity vector, projected on a higher order space (kernel trick), by obtaining the hyperplane on the space, can cope with non-linear problems.

以上を実現するには、結果的に、教師データ（ｘ ｉ ，ｙ ｉ ）を用いて数１５の条件下で数１６を最大化するラグランジェ乗数ベクトルα ｉを求めることになる。 To realize the above, the it turns out that obtaining the training data (x i, yi) Lagrange multipliers vector alpha i to maximize the number 16 under the condition of Equation 15 using.その後ラグランジェ乗数ベクトルの要素のうち０でない要素に対応する教師データ群Ｓ（これがサポートベクタとなる）と、そのうち、任意の１つの教師データ（ｘ ０ ，ｙ ０ ）を用いて超平面のパラメータω，ｈを求める（数１７、数１８）。 And then the teacher data groups corresponding to the non-zero elements in the elements of Lagrange multipliers vector S (which is the support vector), of which hyperplanes parameter using any one of the teacher data (x 0, y0) ω, determine the h (number 17, number 18).

なお、数１６において、Ｋ（ｘ，ｙ）はカーネルトリックを実現するためのカーネル関数を示す。 Note that in a few 16, K (x, y) indicates the kernel function for realizing the kernel trick.カーネル関数には様々なものが考案されているが、今回の実施形態ではＲＢＦ（Radial Basis Function）を用いた。 Have been devised are various kernel function, using the RBF (Radial Basis Function) is in this embodiment.ＲＢＦは数１９で示される関数でＣは任意の数値である。 RBF is C function indicated by the number 19 is an arbitrary number.以上述べたように、ＳＶＭを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるＲＢＦを決定するためのＣを設定する必要があるが、文献２（Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines, 2001）に記載されたように、Ｃ及びγの範囲と、それらの値のステップ幅とを予め定めて、総当たりで識別率を算出し、最も良い識別率が得られるＣ及びγを決定するのが好ましい。 Above mentioned manner, it is necessary to set the C to determine the RBF is a parameter γ and kernel functions to set the capacity of soft margin to perform learning using the SVM, Document 2 (Chih- chung Chang and Chih-Jen Lin, LIBSVM: a library for support vector machines, as described in 2001), and a range of C and gamma, defines a step width of these values ​​in advance, the identification rate brute is calculated, it is preferable to determine C and γ best recognition rate is obtained.

次に、本実施形態における画像分類装置の動作について図１１及び図１２を用いて説明する。 Next, the operation of the image classification apparatus of this embodiment will be described with reference to FIGS.図１２は、本実施形態における画像分類装置の動作を示すフローチャートである。 Figure 12 is a flowchart showing the operation of the image classification apparatus of the present embodiment.

第１の類似度算出手段２１は、入力画像及び第１の検索対象画像のデータを入力する（ステップＳ１１、１２）。 The first similarity calculation unit 21 inputs the data of the input image and the first search target image (step S11 and S12).また、第１の類似度算出手段２１は、第１の検索対象画像に含まれる画像領域と類似する画像領域が入力画像内に存在するかを判定し、存在する場合には類似度を算出し（ステップＳ１３）、類似度を示すデータを第１の類似判定手段２３に転送する。 The first similarity calculation unit 21, an image area similar to the image area included in the first search target image is determined whether present in the input image, and calculates the degree of similarity, if present (step S13), and transfers the data indicating the degree of similarity to the first similarity determination means 23.なお、類似する領域が存在しない場合には、類似度０を算出し、第１の類似判定手段２３に転送する。 In the case where the region where similar is not present, to calculate a similarity 0, and transfers the first similarity determination means 23.

第１の類似判定手段２３は、入力画像と第１の検索対象画像とが類似しているか否かを予め定めた閾値に基づいて判定し（ステップＳ４１）、類似している場合には、第１の検索対象画像に付与されたタグと関連付けられたフォルダに入力画像のデータを移動する（ステップＳ４５）。 The first similarity determination means 23, in the case where the input image and the first search target image is determined based on a predetermined threshold value whether or not similar (step S41), are similar, the moving data of the input image in a folder associated with the granted tag to a search target image (step S45).

一方、ステップＳ４１において、入力画像と第１の検索対象画像とが類似していない場合、第２の類似度算出手段９２は、特徴量ＤＢ９３から所定の特徴量データを読み出し（ステップＳ４２）、ＳＶＭを用いて第２の類似度を算出する（ステップＳ４３）。 On the other hand, in step S41, when the input image and the first search target image are not similar, the second similarity calculation unit 92, from the feature quantity DB93 reads a predetermined feature data (step S42), SVM calculating a second degree of similarity with (step S43).算出された第２の類似度のデータは、第２の類似判定手段９４に送られる。 Data of the second degree of similarity calculated is sent to the second similarity determination means 94.

第２の類似判定手段９４は、第２の類似度算出手段９２により算出された類似度に基づき、入力画像と第２の検索対象画像とが画像全体で類似しているか否かを判定する（ステップＳ４４）。 The second similarity determination unit 94, based on the similarity calculated by the second similarity calculation unit 92, the input image and the second search target image and determines whether or not similar in the whole image ( He steps S44).

ステップＳ４４において、第２の類似判定手段９４は、入力画像と第２の検索対象画像とが画像全体で類似している場合、第２の検索対象画像に付与されたタグと関連付けられたフォルダに入力画像のデータを移動し（ステップＳ４５）、入力画像と第２の検索対象画像とが画像全体で類似していない場合は処理を終了する。 In step S44, the second similarity determination means 94, when the input image and the second search target image is similar in the whole image, in a folder associated with the tag attached to the second search target image move the data of the input image (step S45), if the input image and the second search target image is not similar in the whole image, the process ends.

以上のように、本実施形態における画像分類装置によれば、第２の類似度算出手段９２は、入力画像と第１の検索対象画像とが類似していない場合にのみ類似度を算出する構成としたので、１画像について１つの画像分類を行う場合において、不要な処理を削減して高速に画像分類処理を行うことができ、画像登録時にユーザの待ち時間を減少させ、ユーザの利便性を向上させることができる。 As described above, according to the image classification apparatus of the present embodiment, the second similarity calculation unit 92, the configuration of the input image and the first search target image is calculated only similarity if not similar since the, in the case of performing one image classification for one image, to reduce unnecessary processing image classification processing can be performed at high speed, reducing the user waiting time during image registration, the user's convenience it is possible to improve.

以上のように、本発明に係る画像分類装置及び画像分類方法は、ユーザの負担を最小限に抑えつつ、カスタマイズ可能で、且つ画像全体を用いた分類を行うことができるという効果を有し、プリンタ、複写機、デジタルカメラ及びＰＣやサーバのソフトウェア等として有用である。 As described above, the image classification apparatus and an image classification method according to the present invention, while minimizing the burden on the user, customizable, and has the effect of classification can be performed using the whole image, printer, a copying machine, it is useful as software for a digital camera and a PC or server.

本発明の第１実施形態における画像分類装置のブロック図 Block diagram of an image classification apparatus according to the first embodiment of the present invention本発明の第１実施形態における第１の類似度算出手段のブロック図 Block diagram of a first similarity calculation unit in the first embodiment of the present invention本発明の第１実施形態における画像分類装置を実現するコンピュータのブロック図 Block diagram of a computer realizing the image classification apparatus according to the first embodiment of the present invention本発明の第１実施形態における画像分類装置においてウェブブラウザの立ち上げ時のダイアログ画面を示す図 Figure in the image classification apparatus of the first embodiment of the invention showing a dialog screen when starting web browser本発明の第１実施形態における画像分類装置においてキーワード登録時のダイアログ画面を示す図 Shows a dialog screen when a keyword registered in the image classification apparatus according to the first embodiment of the present invention本発明の第１実施形態における画像分類装置の画像登録時の動作を示すフローチャート Flowchart showing the operation at the time of image registration of the image classification apparatus according to the first embodiment of the present invention本発明の第１実施形態における第１の類似度算出手段の詳細な動作を示すフローチャート A detailed flowchart illustrating an operation of the first similarity calculation unit in the first embodiment of the present invention本発明の第１実施形態における画像分類装置のフィルタリングマトリクスの一例を示す図 It illustrates an example of a filtering matrix image classification apparatus according to the first embodiment of the present invention本発明の第１実施形態における模様特徴量の算出方法の説明図 Illustration of a method of calculating a pattern feature amount in the first embodiment of the present invention本発明の第１実施形態においてキーワード登録時のサーバＰＣの動作を示すフローチャート Flowchart illustrating the operation of the server PC during keyword registration in the first embodiment of the present invention本発明の第２実施形態における画像登録装置のブロック図 Block diagram of an image registration device in the second embodiment of the present invention本発明の第２実施形態における画像分類装置の動作を示すフローチャート Flowchart illustrating the operation of the image classification apparatus according to the second embodiment of the present invention本発明の第２実施形態におけるＳＶＭの動作の概要を示す図 Diagram showing an outline of SVM operation in the second embodiment of the present invention

Claims (9)

Translated from Japanese

キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類装置であって、 Keywords an image classification apparatus for classifying the input image by comparing the similarity between the input image and the applied image,前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶する第１及び第２の画像データ記憶手段と、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出する局所領域抽出手段と、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出する第１の類似度算出手段と、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出する第２の類似度算出手段と、前記第１及び前記第２の類似度算出手段が算出した類似度に基づいてキーワードを前記入力画像に付与するキーワード付与手段とを備えたことを特徴とする画像分類装置。 A first and second image data storing means for storing the data of the first and second images the keyword is registered granted respectively, predetermined the size of the local region input image and the first a local region extraction means for extracting from the image, a first similarity calculation means for calculating a similarity between the first image and the input image in the extracted the local region, the entire image of the input image and the a second similarity calculation means for calculating a similarity between the whole image of the second image, giving a keyword based on the first and the second similarity similarity calculation means has calculated the input image image classification apparatus being characterized in that a keyword assignment means for.

前記第１の画像データ記憶手段は、ユーザが具体的なキーワードを付与して登録した画像のデータを前記第１の画像のデータとして記憶するものであることを特徴とする請求項１に記載の画像分類装置。 Said first image data storage means, a user according to claim 1, characterized in that for storing data of an image registered by applying a specific keyword as data of the first image image classification device.

前記第２の画像データ記憶手段は、予め定めた曖昧なキーワードが付された画像のデータを前記第２の画像のデータとして記憶するものであることを特徴とする請求項１又は請求項２に記載の画像分類装置。 It said second image data storage means to claim 1 or claim 2, characterized in that for storing data of a predetermined fuzzy image keyword is attached as a data of the second image image classification apparatus according.

前記局所領域抽出手段は、画像の特徴量が極値を示す極値画素を検出する極値画素検出部と、前記入力画像及び前記第１の画像のそれぞれにおいて前記極値画素近傍の画像特徴量を算出する特徴量算出手段と、算出した特徴量を比較する特徴量比較部と、前記入力画像及び前記第１の画像のそれぞれにおける極値画素の位置関係に基づいて極値画素を選定する極値画素選定部と、前記極値画素選定部が選定した極値画素の数に基づいて前記第１の画像に対応する画像領域を前記入力画像から抽出する対応領域抽出部とを備えたことを特徴とする請求項１から請求項３までのいずれか１項に記載の画像分類装置。 The local area extracting means includes a extremum pixel detection unit by the feature of the image to detect an extreme value pixel showing the extreme value, the image feature value of the extremum pixel neighborhood in each of the input image and the first image a characteristic amount calculating means for calculating a feature quantity comparing unit for comparing the calculated features, poles for selecting an extreme value pixel based on the positional relationship of the extreme pixels in each of said input image and said first image value pixel selection unit, that the image area corresponding to the first image based on the number of extremum pixels the extremum pixel selection unit is selected and a corresponding area extracting unit that extracts from the input image image classification apparatus according to any one of claims 1, wherein up to claim 3.

前記第１の類似度算出手段は、前記対応領域抽出部が抽出した画像領域の画像と前記第１の画像とを比較して前記類似度を算出する画像比較手段を備えたことを特徴とする請求項４に記載の画像分類装置。 It said first similarity calculation means is characterized by comprising an image comparison section for calculating the degree of similarity by comparing the image and the first image of the corresponding region image region extracting portion is extracted image classification apparatus according to claim 4.

前記極値画素検出部は、ユーザが前記第１の画像として登録する際の画像の極値画素を検出するものであって、 The extremum pixel detection unit is for detecting an extreme value pixel of the image when the user registers as said first image,前記極値画素検出部が検出した前記極値画素の数が予め定めた数以下のとき前記ユーザに警告を与える警告手段を備えたことを特徴とする請求項４又は請求項５に記載の画像分類装置。 Image according to claim 4 or claim 5, characterized in that it comprises a warning means for giving a warning to the user when the number of numbers less a predetermined of the extremum pixels the extremum pixel detection unit detects classification device.

前記入力画像の特定の領域を指定する領域指定手段を備え、 An area designating means for designating a specific area of ​​the input image,前記第１の画像データ記憶手段は、前記領域指定手段が指定した領域の画像データを記憶するものであることを特徴とする請求項１から請求項６までのいずれか１項に記載の画像分類装置。 Said first image data storage means, image classification according to any one of claims 1, wherein said area designation means is for storing the image data of the specified region to claim 6 apparatus.

前記第１の類似度算出手段が算出した類似度に基づいて前記入力画像と前記第１の画像とが類似しているか否かを判定する類似判定手段を備え、 Includes a similarity determination means for determining whether or not said first image and the input image is similar based on similarities of the first similarity calculation means has calculated,前記第２の類似度算出手段は、前記入力画像と前記第１の画像とが類似していない場合にのみ前記画像全体に係る類似度を算出するものであることを特徴とする請求項１から請求項７までのいずれか１項に記載の画像分類装置。 The second similarity calculation means, claim 1, wherein said input image and said first image and calculates the similarity according to the entire image only if not similar image classifying apparatus according to one of up to claim 7.

キーワードが付与された画像と入力画像との類似性を比較して前記入力画像を分類する画像分類方法であって、 An image classification method for classifying the input image as compared to the keyword is imparted image similarity between an input image,前記キーワードが付与されて登録された第１及び第２の画像のデータをそれぞれ記憶するステップと、予め定めた大きさの局所領域を前記入力画像及び前記第１の画像から抽出するステップと、抽出した前記局所領域において前記入力画像と前記第１の画像との類似度を算出するステップと、前記入力画像の画像全体と前記第２の画像の画像全体との類似度を算出するステップと、前記第１及び前記第２の画像によって算出した類似度に基づいてキーワードを前記入力画像に付与するステップとを含むことを特徴とする画像分類方法。 And storing the data of the first and second images the keyword is registered granted respectively, extracting a local region of a predetermined size from the input image and the first image, extracting calculating a similarity between the first image and the input image in the local region, and a step of calculating a similarity between the whole image of the entire image of the input image and the second image, the image classification method characterized by including the step of applying the keyword to the input image based on the first and the degree of similarity calculated by the second image.