fancify the sample grammar a bit
[asterisk/asterisk.git] / doc / speechrec.txt
1 Generic Speech Recognition API
2
3 Dialplan Applications:
4
5 The dialplan API is based around a single speech utilities application file, which exports many applications to be used for speech recognition. These include an application to prepare for speech recognition, activate a grammar, and play back a sound file while waiting for the person to speak. Using a combination of these applications you can easily make a dialplan use speech recognition without worrying about what speech recognition engine is being used.
6
7 SpeechCreate(Engine Name):
8
9 This application creates information to be used by all the other applications. It must be called before doing any speech recognition activities such as activating a grammar. It takes the engine name to use as the argument, if not specified the default engine will be used.
10
11 If an error occurs are you are not able to create an object, the variable ERROR will be set to 1. You can then exit your speech recognition specific context and play back an error message, or resort to a DTMF based IVR.
12
13 SpeechActivateGrammar(Grammar Name):
14
15 This activates the specified grammar to be recognized by the engine. A grammar tells the speech recognition engine what to recognize, and how to portray it back to you in the dialplan. The grammar name is the only argument to this application.
16
17 SpeechStart():
18
19 Tell the speech recognition engine that it should start trying to get results from audio being fed to it. This has no arguments.
20
21 SpeechBackground(Sound File|Timeout):
22
23 This application plays a sound file and waits for the person to speak. Once they start speaking playback of the file stops, and silence is heard. Once they stop talking the processing sound is played to indicate the speech recognition engine is working. Once results are available the application returns and results (score and text) are available as dialplan variables. The first text and score are ${TEXT0} AND ${SCORE0} while the second are ${TEXT1} and ${SCORE1}. This may change in the future, however, to use a dialplan function instead of dialplan variables. Note it is possible to have more then one result. The first argument is the sound file and the second is the timeout. Note the timeout will only start once the sound file has stopped playing. If the timeout is reached, then the variable SILENCE is set to 1 so that you will know that the person did not speak anything.
24
25 SpeechDeactivateGrammar(Grammar Name):
26
27 This deactivates the specified grammar so that it is no longer recognized. The only argument is the grammar name to deactivate.
28
29 SpeechProcessingSound(Sound File):
30
31 This changes the processing sound that SpeechBackground plays back when the speech recognition engine is processing and working to get results. It takes the sound file as the only argument.
32
33 SpeechDestroy():
34
35 This destroys the information used by all the other speech recognition applications. If you call this application but end up wanting to recognize more speech, you must call SpeechCreate again before calling any other application. It takes no arguments.
36
37 Dialplan Flow:
38
39 1. Create a speech recognition object using SpeechCreate()
40 2. Activate your grammars using SpeechActivateGrammar(Grammar Name)
41 3. Call SpeechStart() to indicate you are going to do speech recognition immediately
42 4. Play back your audio and wait for recognition using SpeechBackground(Sound File|Timeout)
43 5. Check the results and do things based on them
44 6. Deactivate your grammars using SpeechDeactivateGrammar(Grammar Name)
45 7. Destroy your speech recognition object using SpeechDestroy()
46
47 Dialplan Examples:
48
49 This is pretty cheeky in that it does not confirmation of results. As well the way the grammar is written it returns the person's extension instead of their name so we can just do a Goto based on the result text.
50
51 company-directory.gram
52
53 #ABNF 1.0;
54 language en-US;
55 mode voice;
56 tag-format <lumenvox/1.0>;
57
58 root $company_directory;
59
60 $josh = (Joshua | Josh) [Colp]:"6066";
61 $mark = Mark [Spencer] | Markster:"4569";
62 $kevin = Kevin [Fleming]:"2567";
63
64 $company_directory = ($josh | $mark | $kevin) { $ = parseInt($$) };
65
66 dialplan logic
67
68 [dial-by-name]
69 exten => s,1,SpeechCreate()
70 exten => s,2,SpeechActivateGrammar(company-directory)
71 exten => s,3,SpeechStart()
72 exten => s,4,SpeechBackground(who-would-you-like-to-dial)
73 exten => s,5,SpeechDeactivateGrammar(company-directory)
74 exten => s,6,SpeechDestroy()
75 exten => s,7,Goto(internal-extensions-${TEXT0})
76
77 Useful Dialplan Tidbits:
78
79 A simple macro that can be used for confirm of a result. Requires some sound files. ARG1 is equal to the file to play back after "I heard..." is played.
80
81 [macro-speech-confirm]
82 exten => s,1,SpeechActivateGrammar(yes_no)
83 exten => s,2,Set(OLDTEXT0=${TEXT0})
84 exten => s,3,Playback(heard)
85 exten => s,4,Playback(${ARG1})
86 exten => s,5,SpeechStart()
87 exten => s,6,SpeechBackground(correct)
88 exten => s,7,Set(CONFIRM=${TEXT0})
89 exten => s,8,GotoIf($["${TEXT0}" = "1"]?9:10)
90 exten => s,9,Set(CONFIRM=yes)
91 exten => s,10,Set(${TEXT0}=${OLDTEXT0})
92 exten => s,11,SpeechDeactivateGrammar(yes_no)
93
94 C API
95
96 The module res_speech.so exports a C based API that any developer can use to speech recognize enable their application. The API gives greater control, but requires the developer to do more on their end in comparison to the dialplan speech utilities.
97
98 For all API calls that return an integer value a non-zero value indicates an error has occured.
99
100 Creating a speech structure:
101
102 struct ast_speech *ast_speech_new(char *engine_name, int format)
103
104 struct ast_speech *speech = ast_speech_new(NULL, AST_FORMAT_SLINEAR);
105
106 This will create a new speech structure that will be returned to you. The speech recognition engine name is optional and if NULL the default one will be used. As well for now format should always be AST_FORMAT_SLINEAR.
107
108 Activating a grammar:
109
110 int ast_speech_grammar_activate(struct ast_speech *speech, char *grammar_name)
111
112 res = ast_speech_grammar_activate(speech, "yes_no");
113
114 This activates the specified grammar on the speech structure passed to it.
115
116 Start recognizing audio:
117
118 void ast_speech_start(struct ast_speech *speech)
119
120 ast_speech_start(speech);
121
122 This essentially tells the speech recognition engine that you will be feeding audio to it from then on. It MUST be called every time before you start feeding audio to the speech structure.
123
124 Send audio to be recognized:
125
126 int ast_speech_write(struct ast_speech *speech, void *data, int len)
127
128 res = ast_speech_write(speech, fr->data, fr->datalen);
129
130 This writes audio to the speech structure that will then be recognized. It must be written signed linear only at this time. In the future other formats may be supported.
131
132 Checking for results:
133
134 The way the generic speech recognition API is written is that the speech structure will undergo state changes to indicate progress of recognition. The states are outlined below:
135
136 AST_SPEECH_STATE_NOT_READY - The speech structure is not ready to accept audio
137 AST_SPEECH_STATE_READY - You may write audio to the speech structure
138 AST_SPEECH_STATE_WAIT - No more audio should be written, and results will be available soon.
139 AST_SPEECH_STATE_DONE - Results are available and the speech structure can only be used again by calling ast_speech_start
140
141 It is up to you to monitor these states. Current state is available via a variable on the speech structure. (state)
142
143 Knowing when to stop playback:
144
145 If you are playing back a sound file to the user and you want to know when to stop play back because the individual started talking use the following.
146
147 ast_test_flag(speech, AST_SPEECH_QUIET) - This will return a positive value when the person has started talking.
148
149 Getting results:
150
151 struct ast_speech_result *ast_speech_results_get(struct ast_speech *speech)
152
153 struct ast_speech_result *results = ast_speech_results_get(speech);
154
155 This will return a linked list of result structures. A result structure looks like the following:
156
157 struct ast_speech_result {
158         /*! Recognized text */
159         char *text;
160         /*! Result score */
161         int score;
162         /*! Next result (may not always be present) */
163         struct ast_speech_result *next;
164 };
165
166 Freeing a set of results:
167
168 int ast_speech_results_free(struct ast_speech_result *result)
169
170 res = ast_speech_results_free(results);
171
172 This will free all results on a linked list. Results MAY NOT be used as the memory will have been freed.
173
174 Deactivating a grammar:
175
176 int ast_speech_grammar_deactivate(struct ast_speech *speech, char *grammar_name)
177
178 res = ast_speech_grammar_deactivate(speech, "yes_no");
179
180 This deactivates the specified grammar on the speech structure.
181
182 Destroying a speech structure:
183
184 int ast_speech_destroy(struct ast_speech *speech)
185
186 res = ast_speech_destroy(speech);
187
188 This will free all associated memory with the speech structure and destroy it with the speech recognition engine.
189
190 Loading a grammar on a speech structure:
191
192 int ast_speech_grammar_load(struct ast_speech *speech, char *grammar_name, char *grammar)
193
194 res = ast_speech_grammar_load(speech, "builtin:yes_no", "yes_no");
195
196 Unloading a grammar on a speech structure:
197
198 If you load a grammar on a speech structure it is preferred that you unload it as well, or you may cause a memory leak. Don't say I didn't warn you.
199
200 int ast_speech_grammar_unload(struct ast_speech *speech, char *grammar_name)
201
202 res = ast_speech_grammar_unload(speech, "yes_no");
203
204 This unloads the specified grammar from the speech structure.